Платформа «Агрориск»Управление рисками в АПК

Статья журнала

ИСПОЛЬЗОВАНИЕ ФАКТОРНОГО АНАЛИЗА И АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ДЛЯ КЛАССИФИКАЦИИ ПОЧВЕННЫХ ТИПОВ

Цитирование

СЕРГЕЕВ , С.И. ИСПОЛЬЗОВАНИЕ ФАКТОРНОГО АНАЛИЗА И АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ДЛЯ КЛАССИФИКАЦИИ ПОЧВЕННЫХ ТИПОВ / С.И. СЕРГЕЕВ // Управление рисками в АПК. – 2024. – № S3 (53). – C. -. – .

Аннотация

В статье рассмотрено применение алгоритмов кластерного анализа для классификации почвенных типов. Метод k-средних был реализован на языке программирования Python. На основе данных из Единого государственного реестра почвенных ресурсов России выделены кластеры с различными характеристиками почвы.

Ключевые слова

кластеризация, факторный анализ, почвенный тип, статистический анализ.

Введение

Сельское хозяйство играет ключевую роль в обеспечении продовольственной безопасности и устойчивого развития РФ. Однако эффективность сельскохозяйственного производства в значительной мере зависит от качества почв и соответствия её свойств требованиям различных культур. Почвенные типы и их характеристики имеют прямое влияние на урожайность, качество продукции, а также на экологическое состояние окружающей среды. Классическая классификация почв, разработанная В. В. Докучаевым, основана на профильно-генетическом подходе и опирается на консервативные свойства почв. Современные аспекты функционирования почв, такие как водный, температурный, газовый режимы, биохимические процессы и другие характеристики не находят значительного отражения в классической классификации. В связи с этим, возникает потребность в разработке новых подходов, позволяющих определить оптимальную классификацию почв, отражающую как традиционные, так и альтернативные характеристики. Такие статистические методы, как алгоритм кластеризации и факторный анализ, представляют один из таких подходов, который может помочь в выявлении закономерностей. Метод факторного анализа позволил сократить размерность данных и выделить наиболее значимые переменные, которые объясняют основную часть вариабельности наблюдаемых данных. Предполагается, что эти факторы независимы, и их количество значительно меньше изначальных характеристик. Это дает возможность описать факторы и определить их название, исходя из признаков анализируемого набора данных (датаасета).

Методология

Для применения метода факторного анализа был использован датасет «Единого государственного реестра почв». Этот набор данных содержит 242 характеристики, включая 80 описательных и 162 числовых параметра. Некоторые описательные характеристики, включали качественные оценки и комментарии, трудно поддающиеся классификации и количественной обработке. По этой причине было принято решение исключить из анализа такие переменные, чтобы позволило сосредоточиться на данных, наиболее подходящих для статистической обработки и анализа. В результате, в обрабатываемый датасет вошло 204 характеристики, каждая из которых предоставляет важные данные о почве, такие как: Рельеф: высота над уровнем моря, уклон и другие параметры. Горизонты почвы: глубина залегания, толщина и последовательность горизонтов, влияющих на корнеобитаемость и доступность питательных веществ и другие параметры. Химический состав: содержание органического углерода, pH, наличие макро- и микроэлементов, важных для плодородия почв и другие параметры. Физический состав: текстура (глинистость, песчаность), структура, плотность почвы, что влияет на аэрацию и водопроницаемость и другие параметры. Цвет почвы: данная характеристика может служить индикатором органического состава и минерализации почв. Гранулометрический состав: размеры частиц, которые помогают определять водоудерживающую способность и плодородие почвы, и другие параметры.

Результаты

Для проведения факторного анализа был выбран язык программирования Python, включая PySide6, pandas, numpy, seaborn и matplotlib. Кроме того, для создания пользовательского интерфейса был задействован QtDesigner. Реализация факторного анализа почв включает в себя следующие этапы: Загрузка данных: Пользователь выбирает файл с данными, содержащим информацию о почвенных характеристиках, включая различные параметры, описывающие состояние почвы. Построение графика метода локтя: Программа проводит факторный анализ на основе загруженных данных и использует метод локтя для определения оптимального количества факторов, что позволяет выбрать наиболее значимые для анализа факторы. Расчет новых значений: Пользователь указывает количество факторов, которые необходимо использовать для анализа. Программа применяет факторный анализ к дан

Результаты

Построение матрицы факторных нагрузок: Программа формирует матрицу факторных нагрузок, отображающую веса переменных в каждом факторе, что позволяет выявить вклад каждой переменной в формирование факторов. Визуализация результатов: Результаты факторного анализа представляются в графическом интерфейсе, обеспечивающем визуальное представление новых значений, матрицы факторных нагрузок и другой сопутствующей информации о данных (Рисунок 1) Сохранение результатов: Пользователи имеют возможность сохранить полученные результаты в файле формата Excel для последующего кластерного анализа и использования. Рисунок 1 – Визуализация результатов факторного анализа почв В случае, с использованием исходного датасета, методом локтя было определено оптимальное количество факторов, равное 56. Однако их количество может быть изменено. Описание факторов составлено на основе почвенных характеристик. Результаты факторного анализа и их морфологическая интерпретация представлены в таблице 1.

Обсуждение

Морфологическая интерпретация полученных факторов № Описание № Описание 1 Почвенная влажность и электрические свойства 11 Структура корневой системы 2 Химический состав иловых компонентов 12 Характеристики цвета по Манселу 3 Гранулометрический состав почвы 13 Физические свойства влажности почвы 4 Физические свойства и структура почвы 14 Сумма катионов и анионов в почве 5 Органические компоненты СФК 15 Органический углерод и общий азот 6 Минеральный состав почвы по размерам частиц 16 Химический состав и минеральные компоненты почвы 7 Глубина и отбор образцов почвы 17 Обменный кальций и магний в почве 8 Группы фосфатов в почве 18 Источник нарушения профиля 9 Химический состав основных элементов в почве 19 Состав и степень каменистости минерального скелета 10 Органические компоненты СГК 20 Обменные основания в почве Продолжение таблицы 1 21 Интенсивность и тип эрозии почвы 39 Содержание хлорид-ионов в почве 22 Текстурный анализ почв 40 Форма склона почвы 23 Химический состав почвы в отложениях 41 Фактор дисперсности и содержание частиц меньше 0,001 мм в почве 24 Количество и порядковый номер образцов в горизонте 42 Неоднозначный фактор №1 25 Подвижный калий и фосфор в почве 43 Фракция почвенного материала размером от 10 до 7 мм 26 Присутствие мицелия и водорослевой пленки в почве 44 Фракция почвенного материала размером менее 0,25 мм 27 Содержание кальция и магния в почве 45 Фракции почвенного материала размером от 1 до 0,25 мм и от 0,25 до 0,05 мм 28 Содержание аморфного алюминия и железа в почве 46 Количество горизонтов в почвенном профиле 29 Гидролитическая кислотность 47 Фракция почвенного материала размером от 2 до 1 мм 30 Уровень обнаружения грунтовых вод и глубина залегания 48 Высота над уровнем моря 31 Характеристики преобладающего цвета 49 Зольность и содержание фосфорной кислоты (P2O5) в почве 32 Тип эрозии и размер частиц текстурного анализа 50 Неоднозначный фактор №2 33 Содержание оксидов кальция и магния в почве 51 Неоднозначный фактор №3 34 Полная влагоемкость и водопроницаемость почвы 52 Неоднозначный фактор №4 35 Содержание оксида марганца в почве 53 Содержание диоксида титана (TiO2) в иловых компонентах почвы 36 Содержание органического железа в почве 54 Неоднозначный фактор №5 37 Фракции почвенного материала (3-2 мм и 5-3 мм) 55 Неоднозначный фактор №6 38 Содержание ила в почве 56 Неоднозначный фактор №7 Алгоритмы кластеризации представляют собой класс методов машинного обучения, целью которых является группировка объектов данных в подмножества, таким образом, чтобы объекты в одном кластере были более похожи друг на друга, чем на объекты из других кластеров. В исследовании был применен метод k-means. Он используется для разбиения набора данных на заранее определенное количество кластеров (k), где каждый кластер представляет собой группу наблюдений схожих между собой по характеристикам. В начале алгоритма происходит инициализация центроидов, т.е выбирается k случайных точек из набора данных, которые становятся начальными центроидами кластеров. Затем для каждой точки данных вычисляется расстояние до каждого центроида, и точка назначается кластеру с ближайшим центроидом. После назначения всех точек кластерам центроиды пересчитываются путем вычисления среднего значения всех точек в каждом кластере. Эти новые центроиды становятся новыми центрами кластеров. Шаги повторяются до тех пор, пока центроиды не стабилизируются или пока не будет достигнуто максимальное количество итераций.

Обсуждение

При запуске программного кода для кластеризации данных на языке программирования Python, методом KMeans получим диаграмму рассеивания, на которой отчетливо видны значения, объединенные в кластеры. (Рисунок 1). Рисунок 1 – Диаграмма распределения значений по кластерам Для полученных кластеров и их характеристик с целью определения интерпретируемости и практической значимости проводится оценка результатов. Это может включать визуализацию кластеров и анализ средних значений характеристик в каждом кластере. Полученные результаты кластерного анализа могут быть использованы для классификации почвенных образцов на основе их характеристик, выявления особенностей и закономерностей в структуре почвенных групп, а также для последующего проведения более глубокого анализа и исследований.

Выводы

Таким образом, результаты данного исследования имеют практическую значимость для аграрной промышленности, экологии, геологии и других областей, где классификация и понимание почвенных типов играют важную роль. Предложенный подход может быть использован для оптимизации землепользования, планирования агротехнических мероприятий, а также для оценки состояния почвенного покрова в рамках экологического мониторинга. Дальнейшее развитие исследований в данной области может включать в себя расширение набора данных, улучшение методов анализа и классификации, а также исследование влияния различных факторов на формирование почвенных типов с целью более точного прогнозирования их характеристик и динамики изменений в будущем.

Источники

  1. Библиографический список: Завиваев Николай Сергеевич, Якимова Ольга Юрьевна, Мансуров Александр Петрович Кластерный анализ эффективности использования элементов точного сельского хозяйства // Вестник НГИЭИ. 2021. №12 (127). Гумарова Ф.З., Мичеева Е.А., Царегородцев Е.И. КЛАСТЕРНЫЙ ПОДХОД К ПОВЫШЕНИЮ КОНКУРЕНТОСПОСОБНОСТИ АГРАРНОГО СЕКТОРА РЕГИОНА // Современные проблемы науки и образования. – 2015. – № 1-1. Титов, А. Д. Методы и алгоритмы интеллектуального анализа больших данных в сельском хозяйстве / А. Д. Титов // Материалы международной научно-практической конференции "Тренды развития сельского хозяйства и агрообразования в парадигме Зеленой экономики" : сборник статей, Москва, 14–15 июня 2023 года. – Москва: Российский государственный аграрный университет- Московская сельскохозяйственная академия имени К.А. Тимирязева, 2023. – С. 29-33. – EDN QZGBTG. Классификация и диагностика почв России / Авторы и составители: Л.Л. Шишов), В.Д. Тонконогов, И.И. Лебедева, М.И. Герасимова. - Смоленск: Ойкумена, 2004. - 342 с. Алябина И. О. Оценка роли почвообразующего потенциала природных факторов в формировании почвенного покрова на основе геоинформационных технологий: дис. доктор наук: 03.02.13 - Почвоведение. «Московский государственный университет имени М.В. Ломоносова». 2016. 337 О возможности использования факторного анализа в почвенных исследованиях / Авторы и составители: О. Г. Чертов, Г. Б. Мельницкая, С. О. Григорьева, Б. Н. Рябинин. – Почвоведение: методические работы и краткие сообщения – 1977. – 131-136