Платформа «Агрориск»Управление рисками в АПК

Статья журнала

РАЗРАБОТКА МОДУЛЯ ДЛЯ АВТОМАТИЗАЦИИ АНАЛИЗА ДАННЫХ ВЫБОРОЧНОГО ОБСЛЕДОВАНИЯ ЛИЧНЫХ ПОДСОБНЫХ ХОЗЯЙСТВ С ПРИМЕНЕНИЕМ НЕЙРОННОЙ СЕТИ

Цитирование

ВИТКОВСКАЯ, А.М. РАЗРАБОТКА МОДУЛЯ ДЛЯ АВТОМАТИЗАЦИИ АНАЛИЗА ДАННЫХ ВЫБОРОЧНОГО ОБСЛЕДОВАНИЯ ЛИЧНЫХ ПОДСОБНЫХ ХОЗЯЙСТВ С ПРИМЕНЕНИЕМ НЕЙРОННОЙ СЕТИ / А.М. ВИТКОВСКАЯ // Управление рисками в АПК. – 2024. – № S3 (53). – C. -. – .

Аннотация

В статье представлены результаты разработанного модуля для автоматизации анализа данных выборочного обследования личных подсобных хозяйств на языке программирования Python на основе корреляционно-регрессионного анализа с использованием нейронных сетей.

Ключевые слова

статистический анализ, Python, парная линейная регрессия, нейронные сети, MLPRegressor.

Введение

Изучение федерального статистического наблюдения № 2 «Сведения о производстве сельскохозяйственной продукции в личных подсобных и других индивидуальных хозяйствах граждан» дает более полное представления о текущем состоянии ЛПХ и перспективах его развития. Автоматизация выборочного обследования личных подсобных хозяйств позволит оптимизировать время проведения исследования и обеспечит более качественный результат проводимого анализа. Цель исследования – разработать модуль для автоматизации анализа данных выборочного обследования личных подсобных хозяйств с применением нейронной сети. Задачами являются: изучение содержания формы №2; обработка исходных данных; проведение корреляционно-регрессионного анализа; регрессионный анализ с использованием модели нейронной сети MLPRegressor. Первичные статистические данные (далее – данные) по форме федерального статистического наблюдения № 2 «Сведения о производстве сельскохозяйственной продукции в личных подсобных и других индивидуальных хозяйствах граждан» (далее – форма) предоставляют проводящие опрос лица, привлекаемые на договорной основе в соответствии с законодательством Российской Федерации к выполнению работ, связанных с проведением федерального статистического наблюдения (далее – интервьюеры) – территориальному органу Росстата в субъекте Российской Федерации. В качестве примера представлен 1 раздел формы № 2 – Характеристика земельных участков, находящихся в пользовании хозяйства на рисунке 1. Рисунок 7 – Шаблон раздела 1 «Характеристика земельных участков, находящихся в пользовании хозяйства» За исходные данные был взят файл с собранными сведениями по Республике Татарстан за 2021 год. Автоматизация проводится на языке Python, а документ с данными был загружен в среду разработки в формате Excel. Всего 19 столбцов и 464 строки, список показателей представлен на рисунке 2.

Методология

Рисунок 8 – Система показателей Далее данные необходимо проверить на их полноту, а именно вывести процент пустых значений. Удаление или заполнение пропущенных значений в случае изучения выборочного обследования ЛПХ будет некорректно, так как это может значительно повлиять на их анализ. Таким образом, было принято решение заменить их на нули. Затем данные были проверены на выбросы проверим показатели на выбросы, в ходе чего было удалено одно ВКУ. В данных присутствуют выбросы, однако, как и с пустыми значениями, избавляться от них будет некорректно для дальнейшего анализа. Так, после обработки данных был реализован модуль корреляционно- регрессионного анализа. Для начала, чтобы определить влияние факторов друг на друга проведен корреляционный анализ. Для этого была построена тепловая карта [1], где показаны коэффициенты корреляции между всеми признаками (Рисунок 3). Рисунок 9 – Тепловая карта На тепловой карте, чем ближе коэффициент корреляции к 1, тем более синий цвет на карте, а красный цвет указывает на отрицательную корреляцию. Таким образом, у многих показателей получилась слабая связь, но имеются и такие, между которыми высокая связь, а именно 0,7-0,9 [2]. С учетом связи между переменными, было решено использовать для регрессионного анализа следующие показатели, поскольку между ними получен коэффициент корреляции 0,9, что говорит о сильной связи: независимая переменна – условное поголовье на 100 кв. м., усл. пог. на кв. м.; зависимая переменная – выручка от реализации продукции сельского хозяйства на 100 кв. м (руб. на кв. м) – зависимая переменная. Сначала отобразим диаграмму рассеяния для выбранных показателей.

Результаты

Рисунок 10 – Диаграмма рассеяния По графику на рисунке 4, видно линейную зависимость между переменными. Корреляция прямая (положительная), точки относительно плотно концентрируются около линии регрессии, что свидетельствует о тесной связи между признаками. Ниже на рисунке 5 представлены результаты регрессионного анализа. Рисунок 11 – Результаты регрессионного анализа Уравнение регрессии имеет вид: y = -0,509 + 45,2x. Коэффициент детерминации (R-квадрат) равен 0,734, таким образом, 73,4 % вариации выручки от реализации продукции сельского хозяйства на 100 кв. м можно объяснить влиянием условного поголовья на 100 кв. м. Коэффициент полной регрессии показывает, что при увеличении условного поголовья на 100 кв. м. выручка от реализации продукции сельского хозяйства на 100 кв. м увеличится на 45,2 руб. Далее для проведения регрессионного анализа была применена модель нейронных сетей MLPRegressor. Для сравнения реализованных моделей в таблице 1 представлены используемые гиперпараметры [3]. Таблица 1 Описание моделей нейронных сетей MLPRegressor

Результаты

Рисунок 12 – Диаграммы рассеяния для трех моделей с разными гиперпараметрами На рисунке 6 изображены 3 диаграммы рассеяния с используемыми гиперпараметрами из таблицы 1. На диаграммах красная линия – регрессия МНК (Метод наименьших квадратов (Ordinary Least Squares, OLS)), а оранжевая – Регрессия MLP.

Обсуждение

Исходя из полученных результатов, можно сделать вывод, что наименьший R-квадрат (0,717) у 1 модели (a), у второй модель (b) имеет примерно такой же результат, как и при построении регрессия без использования модели MLPRegressor. R-квадрат третьей модели (c) оказалась чуть выше, чем при реализации регрессии МНК (0,735 и 0,734 соответственно). Таким образом, можно сделать вывод, что в данной случае применение MLPRegressor не дает более высоких результатов, в следствии чего, для анализа можно использовать регрессию МНК.

Обсуждение

Кроме того, по наилучшей модели (с) можно построить график с фактическими и предсказанными значениями полученных моделей (Рисунок 7). Рисунок 13 – График с предсказанными и фактическими значениями На рисунке 7, синие значения являются фактическими данными, зеленые – предсказанные значения модели с использование нейронной сети (MLPRegressor), а красные – предсказанные значения регрессия МНК.

Выводы

В результате был разработан модуль для автоматизации выборочного обследования ЛПХ, который включает в себя: загрузку и обработку исходных данных, корреляционно-регрессионный анализ и регрессионный анализ с применением модели нейронных сетей MLPRegressor.

Источники

  1. Библиографический список: Как сделать тепловые карты с Seaborn (с примерами) [Электронный ресурс]. – Режим доступа: https://www.codecamp.ru/blog/seaborn-heatmap/?ysclid=lqjzhmfsu6673468963 (дата обращения: 19.12.2023). Математическая статистика: практикум / О.Б. Тарасова, Е.В., Шайкина, А.Е., Шибалкин, М.В. Кагирова под. общ. Ред. О.Б. Тарасовой. М.: Изд-во РГАУ-МСХА имени К.А. Тимирязева, 2014. – 140 с. Модели нейронных сетей (с учителем) [Электронный ресурс]. – Режим доступа: https://scikit-learn.ru/1-17-neural-network-models-supervised/?ysclid=lush92nox3656130107 (дата обращения: 05.04.2023).