Статья журнала

ЯЗЫК R: ИНСТРУМЕНТ ДЛЯ АНАЛИЗА И ВИЗУАЛИЗАЦИИ ДАННЫХ

Авторы

СМАГИНА А.М.

Раздел

ЭКОНОМИЧЕСКИЕ НАУКИ | ECONOMICAL SCIENCES

УДК

УДК 004.43

Выпуск

2024 · № S3 (53)

Статус

PUBLISHED

Цитирование

СМАГИНА , А.М. ЯЗЫК R: ИНСТРУМЕНТ ДЛЯ АНАЛИЗА И ВИЗУАЛИЗАЦИИ ДАННЫХ / А.М. СМАГИНА // Управление рисками в АПК. – 2024. – № S3 (53). – C. -. – .

Аннотация

В данной статье будут рассмотрены основные понятия и возможности языка R. Будут затронуты главные преимущества языка в целом, а также непосредственно в животноводстве. Статья предоставляет сравнительную характеристику и отличия языка R от языка Python, а также примеры кодов, используемых в программе. Будут предоставлены пакеты, расширения, которые делают этот язык ещё более мощным инструментом.

Ключевые слова

язык R, программирование, анализ данных, визуализация, статистика, сельское хозяйство, таблицы, матрица.

Введение

Язык R - это язык программирования, который широко используется для статистического анализа данных и создания графиков. Он был разработан в 1993 году сотрудниками Оклендского университета Россом Айхэкой и Робертом Джентлменом. Этот язык предоставляет эффективные инструменты для манипуляции, визуализации и моделирования данных, а также для выполнения статистических вычислений и создания алгоритмов машинного обучения. R является свободно распространяемым и имеет активное сообщество пользователей, которые разрабатывают и делятся пакетами, расширениями для выполнения различных задач в программе. Благодаря своей гибкости и функциональности, R стал одним из наиболее популярных языков программирования в области статистики и анализа данных. [5] Язык R также находит применение и в сельском хозяйстве. В сфере животноводства и агрономии R используется для анализа, визуализации и обработки данных, моделирования и прогнозирования, а также для оптимизации процессов и принятия решений. Основные типы базы данных в языке R: В языке R существует несколько основных типов данных, которые используются для хранения и работой с информацией: 1. Числовые (Numeric): используется для хранения числовых значений, как целых, так и десятичных. Например, 5, 3.14, -10. 2. Целочисленные (Integer): используется для хранения целых чисел без десятичной части. Например, 10, -5, 0. 3. Логические (Logical): используется для хранения логических значений true (истина) и false (ложь). Он часто используется для условных операций и логических выражений. 4. Символьные (Character): используется для хранения текстовых значений. Символьные данные должны быть заключены в кавычки или апострофы. Например, "Привет", 'R язык'. 5. Факторы (Factor): используются для представления категориальных переменных. Они могут принимать ограниченное количество уникальных значений, которые называются уровнями. Факторы могут быть упорядоченными или неупорядоченными. 6. Дата и время (Date, Time): R имеет специальные типы данных для работы с датами и временем. Даты могут быть представлены в формате "год-месяц-день", а времена - в формате «час:минута:секунда». Синтаксис и основы языка R: В программе R при любой возникшей сложности с созданием кода, можно обратиться к вспомогательный справке, используя команду help(), в скобочки вписав интересующую вас функцию. R – объектно-ориентированный язык программирования, где переменные, данные, матрицы, функции и результаты хранятся в оперативной памяти компьютера в форме объектов с уникальными именами. Для отображения значения объекта необходимо напечатать его имя. Например, для отображения значения объекта «g», можно написать «g» в консоли R, и результат будет выведен на экран. Операторы: Присваивание значений объектам: 1. Данная задача выполняется с использованием символа «<-». Пример: «g <- 16» присваивает объекту «g» значение 16. Если не присваивать выражению название, то программа покажет результат, но не сохранит его. Пример: (60-30) *2 => [1] 60 2. = в R является альтернативой оператору `<-` . Он также может использоваться для указания значений аргументов функций. 3. <<- также является оператором присваивания, подобно `<-`, но его использование не так распространено и в основном ограничено функциями. Арифметические значения: 1. +, - — сложение и вычитание. Пример: 10 + 5 => [1] 15; 2. *, / — умножение и деление. Пример: 10 * 5 => [1] 50; 3. ^ или ** — возведение числа в степень. Пример: 2 ^ 3 => [1] 8; 4. %/% — деление нацело. Пример: 10 %/% 3 => [1] 3; 5. %% — возвращает остаток от деления нацело. Пример: 10 %% 3 => [1] Сравнительные значения: 1. <, <= — меньше, меньше или равно; 2. >, >= — больше, больше или равно;

Методология

3. ==, != — равно и не равно. Логические значения: 1. ! — отрицание; 2 .&, && — И. Оператор & выполняет поэлементное объединение двух множеств, а оператор && объединяет только первые слева элементы каждого множества. 3. |, || — ИЛИ. Оператор | выполняет поэлементное объединение двух множеств, а оператор || объединяет только первые слева элементы каждого множества. Отображение списка объектов, находящихся в памяти: Для этого используют функцию ls() или же ls(pat = «m»), которая позволяет отобразить только те объекты, в названии которых содержится определенный символ или строка. Характеристики объектов: Чтобы отобразить характеристики объектов, такие как тип данных и значения, мы можем использовать функцию ls.str(). Удаление объекта из памяти: Для данной задачи можно использовать функцию rm(). Мы также можем использовать варианты функции ls() для выборочного удаления объектов, например, rm(list=ls(pat = "n")) удалит только те объекты, названия которых содержат символ «m». В языке R есть множество основных функций, которые используются для различных задач анализа данных и программирования. Вот некоторые из них:

Результаты

2. Матрицы (matrix) — двухмерные структуры данных, которые содержат элементы одного типа, расположенные в виде таблицы с фиксированным числом строк и столбцов. Матрицы могут быть созданы с помощью функции matrix() или с помощью оператора cbind() или rbind() для объединения векторов в матрицу; 3. Списки (Lists) — структуры данных, которые могут содержать элементы разных типов. Списки могут быть созданы с помощью функции list(); 4. Фреймы данных (Data.frame) — двухмерные структуры данных, которые представляют собой таблицы с разными типами данных в каждом столбце. Они могут быть созданы с помощью функции data.frame(). 5. Факторы (factor) — структуры данных, которые используются для представления категориальных переменных. Могут быть созданы с помощью функции factor(). 6. Массивы (array) — многомерные структуры данных, которые могут содержать элементы одного типа. Они могут иметь более двух измерений и могут быть созданы с помощью функции array(). [1] Основные функции при работе с векторами:

Обсуждение

Основные функции: 1. sum() — суммирование числовых значений; Пример: > m <- c(1, 2, 3, 4, 5) > sum(m) [1] 15 2. prod() — произведение числовых значений; 3. max() — максимальное значение; 4. min() — минимальное значение; 5. range() — минимальное и максимальное значение; 6. length() — число элементов в объекте; 7. mean() — среднее значение; 8. round() — округление значений до n знаков после запятой. 9. sort() — сортировка значений вектора или списка в порядке возрастания. Основные структуры данных: 1. Векторы (vector) — одномерные структуры данных, которые содержат элементы одного типа. В R векторы могут содержать числа, строки, логические значения и другие типы данных. Векторы могут быть созданы с помощью функции c() или с помощью оператора : для создания последовательностей чисел; 2. Матрицы (matrix) — двухмерные структуры данных, которые содержат элементы одного типа, расположенные в виде таблицы с фиксированным числом строк и столбцов. Матрицы могут быть созданы с помощью функции matrix() или с помощью оператора cbind() или rbind() для объединения векторов в матрицу; 3. Списки (Lists) — структуры данных, которые могут содержать элементы разных типов. Списки могут быть созданы с помощью функции list(); 4. Фреймы данных (Data.frame) — двухмерные структуры данных, которые представляют собой таблицы с разными типами данных в каждом столбце. Они могут быть созданы с помощью функции data.frame(). 5. Факторы (factor) — структуры данных, которые используются для представления категориальных переменных. Могут быть созданы с помощью функции factor(). 6. Массивы (array) — многомерные структуры данных, которые могут содержать элементы одного типа. Они могут иметь более двух измерений и могут быть созданы с помощью функции array(). [1] Основные функции при работе с векторами: 1. Создание вектора: c(1, 2, 3, 4, 5) [1] 1 2 3 4 5 2. Объединение векторов: > x <- c(1, 2, 3) > y <- c(4, 5, 6) > z <- c(x, y) > z [1] 1 2 3 4 5 6 3. Создание вектора с разными типами данных: > c("apple", 2, TRUE) [1] "apple" "2" "TRUE" Основные функции при работе с матрицами: 1. matrix() — позволяет создавать матрицы из векторов или списков. Она принимает аргументы, такие как данные, количество строк и столбцов, а также другие параметры. Пример: > matrix(1:6, 2, 3) [,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6 2. cbind() и rbind() — позволяют объединять векторы или матрицы по столбцам или строкам соответственно. Пример: > cbind(c(6, 2), c(7, 5)) [,1] [,2] [1,] 6 7 [2,] 2 5 3. diag() — позволяет создавать диагональные матрицы. Пример: > diag(c(4, 3, 4)) [,1] [,2] [,3] [1,] 4 0 0 [2,] 0 3 0 [3,] 0 0 4 4. rep() и seq() — могут быть использованы для создания векторов, которые затем могут быть преобразованы в матрицы. Пример: > rep(1:3, each = 2) [1] 1 1 2 2 3 3 > g<-rep(1:3, each = 2) > matrix(g) [,1] [1,] 1 [2,] 1 [3,] 2 [4,] 2 [5,] 3 [6,] 3 Основные функци при работе со списками: 1. Создание списка с элементами: list(1, "apple", c(2, 3, 4), matrix(1:9, nrow = 3)) 2. Добавление элементов к списку: > my_list <- list() > my_list[[1]] <- 1 > my_list [[1]] [1] 1 3. Обращение к элементам списка: > my_list <- list(1, "apple", c(2, 3, 4)) > element2 <- my_list[[2]] > element2 [1] "apple" Основные функции при работе с таблицами: 1. data.frame() — позволяет создавать таблицы. Принимает аргументы, такие как столбцы данных, имена столбцов и другие параметры. Пример: > data.frame(x = c(4, 6, 1), y = c("a", "r", "n")) x y 1 4 a 2 6 r 3 1 n

Обсуждение

2. read.table() и read.csv() — позволяют считывать данные из файлов и создавать таблицы на основе этих данных. Пример: read.table("data.txt", header = TRUE) считает данные из файла "data.txt" и создаст таблицу, предполагая, что первая строка файла содержит имена столбцов. 3. head() и tail() — позволяют просматривать начало и конец таблицы соответственно. Пример: > head(data.frame(x = c(1:100), y = c(1:10))) x y 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 4. subset() — позволяет выбирать подмножество строк или столбцов из таблицы на основе определенных условий. Пример: subset((data.frame(x = c(1:100), y = c(1:10))), x < 2) x y 1 1 1 5. merge() — позволяет объединять две или более таблицы на основе общих значений столбцов. Пример: merge(table1, table2, by = «id") объединит таблицы table1 и table2 по столбцу id. 6. aggregate() — позволяет выполнять агрегирование данных в таблице на основе заданных условий. Пример: > my.data <- data.frame(category = c("A", "A", "B", "B", "A"), value = c(10, 20, 30, 40, 50)) > aggregate(value ~ category, data = my.data, FUN = sum) category value 1 A 80 2 B 70 На данном примере произошло суммирование значений столбца value в таблице my.data по уникальным значениям столбца category. 7. dim() — используется для получения размеров таблицы, то есть количество строк и столбцов. Пример: > dim((data.frame(x = c(1:100), y = c(1:10)))) [1] 100 2 8. summary() — предоставляет сводную статистическую информацию о таблице, включая среднее значение, медиану, минимальное и максимальное значения и другие характеристики для каждого столбца. Пример: > summary(data.frame(x = c(4, 6, 1), y = c("a", "r", "n"))) x y Min. :1.000 Length:3 1st Qu.:2.500 Class :character Median :4.000 Mode :character Mean :3.667 3rd Qu.:5.000 Max. :6.000 9. apply() — применяет функцию к определенному измерению (строкам или столбцам) в таблице или массиве. Она принимает аргументы, такие как данные, измерение (1 для строк, 2 для столбцов) и функцию, которую нужно применить. Пример: apply(e, 1, sum) применит функцию sum() к каждой строке в таблице е и вернет сумму значений в каждой строке. e <- ((data.frame(x = c(1:10), y = c(1:10))) apply(e, 1, sum) [1] 2 4 6 8 10 12 14 16 18 20 10. tapply() — применяет функцию к данным, разбивая их по определенным факторам или группам. Пример: apply(data, factor, mean) применит функцию mean() к данным в таблице data, разбивая их по значениям фактора, и вернет среднее значение для каждой группы. > data <- c(10, 20, 30, 40, 50) > factor <- c("A", "A", "B", "B", "A") > tapply(data, factor, mean) A B 26.66667 35.00000 Основные функции при работе с факторами: 1. Создание фактора из вектора: > x <- c("red", "blue", "green", "red", "green") > factor(x) [1] red blue green red green Levels: blue green red 2. Указание уровней фактора: > x <- c("red", "blue", "green", "red", "green") > levels <- c("red", "blue", "green", "yellow") > factor(x, levels = levels) [1] red blue green red green Levels: red blue green yellow Основные функции при работе с массивами: 1. Создание массива с двумя измерениями: > x <- 1:6 > array(x, dim = c(2, 3)) [,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6 Визуализация данных: 1. Создание линейного графика: Пример: > x <- c(1, 2, 3, 4, 5) > y <- c(2, 4, 6, 8, 10) > plot(x, y) 2. Создание гистограммы: > x <- c(1, 2, 3, 4, 5) > y <- c(2, 4, 6, 8, 10) > plot(x, type = "h") 3. Создание ящика с усами: boxplot(x, add = TRUE) 4. Создание столбчатой диаграммы с абсолютными значениями: > x <- c(10, 20, 15, 25) > barplot(x) 5. Создание столбчатой диаграммы с относительными значениями: barplot(x/sum(x)) 6. Настройка внешнего вида столбчатой диаграммы: barplot(x, names.arg = c("A", "B", "C", "D"), col = "blue", main = "Столбчатая диаграмма») 7. Создание круговой диаграммы с абсолютными значениями: x <- c(10, 20, 15, 25) pie(x) 8. Настройка внешнего вида круговой диаграммы: x <- c(10, 20, 15, 25) labels <- c("A", "B", "C", "D") colors <- c("red", "blue", "green", "yellow") pie(x, labels = labels, col = colors, main = "Круговая диаграмма») [2] Пакеты в языке R: В языке R существует огромное количество пакетов и расширений, которые расширяют его функциональность и предоставляют дополнительные инструменты для анализа данных, визуализации, моделирования и других задач: 1. ggplot2 — предоставляет мощные инструменты для создания высококачественных графиков и визуализации данных. Он основан на концепции "грамматики графиков" и позволяет легко создавать различные типы графиков с настраиваемым внешним видом. 2. dplyr — позволяет выполнять операции фильтрации, сортировки, группировки, выборки и объединения данных с помощью простых и понятных команд. 3. tidyr — предназначен для работы с данными в "длинном" и "широком" форматах. 4. caret — предоставляет инструменты для разработки и оценки моделей машинного обучения. Он поддерживает различные алгоритмы, включая классификацию, регрессию, кластеризацию и другие. 5. shiny — позволяет создавать интерактивные веб-приложения на основе R. 6. lubridate — предоставляет функции для работы с датами и временем. Среды разработки в языке R: В языке R существует несколько популярных сред разработки, которые предоставляют удобную среду для написания, отладки и выполнения кода на R: 1. RStudio — самая популярная среда. Она предоставляет удобный интерфейс, который включает в себя редактор кода, консоль R, окно для просмотра переменных и графиков, а также другие полезные функции. RStudio также поддерживает функции автодополнения, отладки кода, управления пакетами и многие другие возможности. 2. RRgui — это графическая среда разработки для языка R, предназначенная для упрощения работы с R для новичков и пользователей, предпочитающих графический интерфейс. RRgui предоставляет набор интуитивно понятных меню и диалоговых окон, которые позволяют выполнять различные операции и анализировать данные без необходимости написания кода. [3]

Выводы

Сравнение языка Python с языком R: В настоящее время язык R часто сравнивают с популярным языком программирования Python, который имеет также огромное количество возможностей, что создаёт конкуренцию между двумя программами. Но несмотря на некоторые схожие функции, они имеют отличия: 1. R специализируется на анализе данных и статистике. Он предоставляет эффективные инструменты и пакеты для работы с данными, статистического моделирования и визуализации. Python, с другой стороны, является универсальным языком программирования, который может использоваться для различных задач, включая веб-разработку, научные вычисления, искусственный интеллект и многое другое. 2. Визуализация в языке R является его основным критерием в отличие от Python. И хоть в Python имеются библиотеки для визуализции, она является более сложной для понимания и менее наглядной. 3. R имеет свою специфическую синтаксическую структуру, которая иногда может быть непривычной для новичков. Python, с другой стороны, имеет более простой и понятный синтаксис, который делает его более доступным для начинающих программистов. 4. R имеет богатую экосистему пакетов и расширений, специально разработанных для анализа данных и статистики. Python также имеет обширную экосистему пакетов, но она более разнообразна и охватывает большой спектр областей программирования. 5. В целом, Python считается более быстрым и эффективным языком программирования, особенно при работе с большими объемами данных или при выполнении сложных вычислений. R, с другой стороны, может быть медленнее при выполнении некоторых операций, особенно при работе с большими наборами данных. Однако, с использованием оптимизированных пакетов и правильной структурированностью кода, можно достичь хорошей производительности. 6. Оба языка имеют активные сообщества пользователей и обширные ресурсы для изучения и развития. Однако, Python имеет более широкое сообщество и больше ресурсов, так как он используется в различных областях программирования. [6] В итоге, выбор между R и Python зависит от конкретных задач, предпочтений и потребностей пользователя. R является мощным инструментом для анализа данных и статистики, в то время как Python предоставляет большую гибкость и может быть использован для различных задач программирования. Таким образом, использование языка R остается актуальным и востребованным в сфере анализа данных и статистики по нескольким причинам: он имеет огромное сообщество пользователей, которые разрабатывают и делятся пакетами и расширениями для различных задач анализа данных, предоставляет широкий спектр функций и возможностей для манипуляции, визуализации и моделирования данных. Язык R поддерживает различные типы данных, включая числовые, текстовые, временные ряды и многие другие. Благодаря этому, он может быть применён к различным задачам и областям, включая биоинформатику, финансы, медицину, социальные науки и другие [4]. Стоит отметить, что язык R может быть легко интегрирован с другими языками программирования, такими как Python и SQL, а также с различными инструментами и платформами для работы с данными. Это позволяет пользователям комбинировать силы различных инструментов и использовать их вместе для решения сложных задач. R имеет активное сообщество пользователей, которые обмениваются знаниями, опытом и решениями проблем. Существуют множество онлайн-ресурсов, форумов, блогов и книг, которые помогают пользователям изучать и применять R в своей работе. Кроме того, он имеет открытый исходный код, что позволяет пользователям вносить свои вклады и улучшать язык.

Источники

Библиографический список: Основные понятие языка R/А.А.Савельев [и др.]. Казань, 2007. 29 c. Поздняков И. Анализ данных и статистика в R. 06.04.2024. URL: https://clck.ru/3A6sgX (дата обращения: 09.04.2024). Сударикова Е. Язык программирования R: ничего лишнего, только работа с данными. 23.03.2021. URL: https://r-analytics.blogspot.com/p/blog-page_06.html (дата обращения: 09.04.2024). Умнова А. Что такое язык R. 21.03.2024. URL: https://clck.ru/3A6sYd (дата обращения: 09.04.2024). Шпрингер Е. Язык программирования R: что делает его таким важным для анализа данных. 30.09.2022. URL: https://clck.ru/3A6sRT (дата обращения: 09.04.2024). Theuwissen M. R vs Python for Data Science: The Winner is …26.05.2015. URL: https://clck.ru/3A6sxb (дата обращения: 09.04.2024).