Агрегирование и группирование данных в R: команды summarize() и group_by() пакета dplyr

Аватар автора
Данила Зорников
Видео об агрегировании и группировке данных в R. Научимся агрегировать и группировать данные с помощью команд summarize() и group_by() пакета dplyr (один из базовых пакетов в составе tidyverse): подсчитывать количество наблюдений в группе, определять минимальные и максимальные значения признака в группах, рассчитывать среднее и стандартное отклонение, медиану и кваритили, частоты встречаемости признака. В качестве бонуса узнаем как выполнять тест Шапиро-Уилка для проверки анализируемого признака на нормальность распределения с помощью команды shapiro.test() и как объединять несколько столбцов. 0:00 Постановка задачи, прикрепление необходимых пакетов и создание собственного объекта 1:13 Про агрегирование данных 1:40 Агрегирование данных командой summarize() 2:20 Подсчет количества наблюдений, определение минимальных и максимальных значений признака 6:13 Расчет среднего арифметического и стандартного отклонения признака 7:22 Проверка нормальности распределения признака тестом Шапиро-Уилка (команда shapiro.test) 8:44 Расчет процентилей, в том числе медианы, 1-го и 3-го квартилей 11:20 Агрегирование данных после их группировки командой group_by() 12:46 Группировка данных по нескольким переменным 14:48 Расчет частоты встречаемости признака командами sum() и mean() внутри команды summarize() 20:00 Округление данных с помощью команды round() 21:58 Объединение значений из нескольких колонок командой str_c() 26:12 Убираем промежуточные переменные из таблицы командой select() 27:01...

0/0


0/0

0/0

0/0