Платформа «Агрориск»Управление рисками в АПК

Статья журнала

СРАВНЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ И НЕЙРОННОЙ СЕТИ ДЛЯ КЛАССИФИКАЦИИ МОЛОКА ПО КАЧЕСТВУ

Цитирование

БАХМУТОВ , Е.Д. СРАВНЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ И НЕЙРОННОЙ СЕТИ ДЛЯ КЛАССИФИКАЦИИ МОЛОКА ПО КАЧЕСТВУ / Е.Д. БАХМУТОВ // Управление рисками в АПК. – 2024. – № S3 (53). – C. -. – .

Аннотация

В статье представлены результаты применения нейросетей и моделей машинного обучения для исследования классификации молока по качеству. Традиционные методы исследования молока могут быть заменены более эффективными процессами, основанными на искусственном интеллекте. В статье проведен анализ различных моделей машинного обучения для задачи классификации молока по категориям качества. Результаты исследования могут быть полезны для улучшения контроля качества молочных продуктов на рынке.

Ключевые слова

нейросети, модели машинного обучения, качество молока, анализ данных.

Введение

Традиционные методы исследования качества молока требуют много времени и ресурсов, и часто не дают полной информации о его составе и свойствах. Однако с развитием нейросетей и моделей машинного обучения, мы можем значительно улучшить процесс прогнозирования категорий качества молока на основе его химических и органолептических параметров [4]. Молоко является одним из самых важных продуктов питания, и его качество играет немалую роль в здоровье людей. Соответственно надлежащая оценка молока и использование технологий МО и нейронных сетей, способствует поддержанию качества молочных продуктов на рынке, оптимизации производственных процессов и выявлению недопустимых к продаже продуктов [4]. Параметры качества молока мы можем разделить на 3 основные группы: физические, химические, биологические. Исходная база исследования включала в себя следующие параметры: температура, pH (кислотность), вкус, запах, мутность и цвет. Данные прошли этап сбора образцов молока с фермы, были отправлены на анализ для фиксации физических, химических и биологических параметров и предварительно обработаны для дальнейшего удобства в исследовании и анализе. На рисунке 1 представлено распределение проб молока по трем категориям качества. Отмечаем, что практически 40% выборки – это пробы низкого качества, а 25% – высокого.

Методология

Рисунок 15 – Гистограмма распределения наблюдений на качественные группы Аналогичное распределение данных, уже по другим рассматриваемым параметрам мы можем наблюдать на рисунке 2 [1]. Рисунок 16 – Гистограммы распределения проб молока в разрезе факторов Далее необходимо проверить данные на мультиколлинеарность. На рисунке 3 представлена матрица парных коэффициентов корреляции. Наибольшее значение между показателями «мутность» и «запах» – 0,46, следовательно мультиколлинеарность отсутвует [1]. Рисунок 17 – Тепловая карта парных коэффициентов корреляции Для классификации молока по категориям качества было принято решение рассмотреть различные методы МО и выбрать с наибольшей точностью. Для этого исходные данные были поделены на обучающую и тестовую выборки в соотношении 70% на 30%, после чего были обучены модели). Как показала вариационная выборка, в целом большинство моделей достаточно хорошо справились с задачей (Рисунок 4), однако наименьшую точность показала модель – Случайный лес, а наибольшую – Дерево решений.

Результаты

Далее была построена нейронная сеть для решения той же задачи. В структуру нейронной сети входит: входной слой, в который поступают параметры молока, далее идут скрытые слои, где указывается количество нейронов в слое и функция активации, выявляющие скрытые закономерности и сложные взаимосвязи, которые могут быть незаметны для человеческого глаза. И выходной слой, который дает на выходе прогнозируемую категорию качества молока на основе полученных закономерностей. Для создания нейросети использовался класс Sequential, так как он используется для последовательного описания структуры нейронной сети в виде последовательности слоев (от входного до выходного) с указанием количества нейронов и функции активации [2]. На рисунке 4 приведен листинг кода инициализации модели нейронной сети, в нее добавляются поочередно слои через функцию Dense, где на первом месте указывается число нейронов в слое, для входного слоя также указывается размерность входных данных (в нашем случае 6 столбцов факторов и один таргетный – итого 7) и функция активации. Здесь используется ReLu, так как в задаче необходимо предсказывать более двух классов (другие предсказывают только два класса (0 или 1)) [3]. После можно указать Dropout, это делается для устранения переобучения нейросети на ранних стадиях обучения, она обнуляет лишние нейроны. На выходном слое используется функцию активации softmax, она преобразует исходные данные нейронной сети в вектор вероятностей принадлежности к тому или иному классу объектов. Затем нейросеть компилируется, задается функция потерь – categorical_crossentropy (Категориальная кроссэнтропия), эта функция потерь используется, когда предсказывается два или более класса таргетов, она подсчитывает потери между таргетами и прогнозами. И наконец, указывается метрика подсчета точности классификации, выбирается стандартная – accuracy (отношение верно предсказанных классов наблюдений к общему числу наблюдений) [4].

Результаты

Рисунок 19 – Листинг кода архитектуры нейронной сети Обучение нейронной сети происходило на 100 эпохах. В результате было установлено, что оптимальным количеством является 9 эпох, так как это момент приближенного равенства точности классификации и функции потерь, далее точность постоянно растет, а значение функции потерь значительно уменьшается, что говорит о переобучении модели!

Обсуждение

Рисунок 20 – Результаты применения нейронной сети

Обсуждение

Как уже было отменено ранее, среди методов МО наилучшая точность у модели «Дерево решений» (99%). Поэтому предпочтение для решения данного кейса

Выводы

И все-таки какой способ классификации выбрать в результате проведенного исследования? Если оценивать только по точности классификации, то ответ очевиден – метод машинного обучения «Дерево Решений», если углубляться в суть проблемы, то возможно следует подобрать более релевантные параметры для нейросети или расширить выборку данных (количество наблюдений и параметров), чтобы точность классификации стала выше, однако это требует больших затрат времени и ресурсов. Модели машинного обучения могут предсказывать свойства молока на основе имеющихся данных, что позволяет определить его качество с высокой точностью. Применение нейросетей и моделей машинного обучения в исследовании качества молока имеет множество преимуществ. Однако, необходимо отметить, что использование нейросетей и моделей машинного обучения требует качественных данных. Поэтому, важно иметь доступ к надежным и точным источникам. Нейросети и модели машинного обучения представляют собой мощный инструмент для исследования качества молока. Их применение позволяет сократить время и затраты на исследования, получить более точные результаты и повысить доверие потребителей к продукции.

Источники

  1. Библиографический список: Гистограммы и графики распределения в Python. – URL: https://habr.com/ru/companies/skillfactory/articles/683738/ Реализация сверточной нейронной сети при помощи Keras. – URL: https://pythonist.ru/keras-cnn-tutorial/ Функции активации нейросети. – URL: https://neurohive.io/ru/osnovy-data-science/activation-functions/ Цифровые технологии анализа данных в сельском хозяйстве / А. П. Зинченко, А. В. Уколова, В. В. Демичев [и др.]. – Москва : «Научный консультант», 2022. – 260 с. – ISBN 978-5-907477-96-4