Курс "Специалист по искусственному интеллекту". Урок 5. Подготовка данных - разведочный анализ (EDA)
Леонид Лукин
Пятый урок курса «Специалист по искусственному интеллекту». Подробно разбираем этап подготовки данных перед обучением моделей. Знакомимся с библиотекой Pandas (структуры Series и DataFrame), проводим первичный разведочный анализ (EDA) на примере реального датасета аренды квартир в Москве с ЦИАН, выявляем аномалии, пропуски и исследуем структуру признаков. 00:00 — Введение: важность подготовки данных и принцип GIGO («Garbage In, Garbage Out») 01:17 — Почему качество модели полностью зависит от исходных данных 01:46 — Жизненный цикл ML-проекта: сколько времени занимает подготовка данных 02:03 — Сбор данных: источники (файлы, базы данных, API, веб-скрапинг) 03:25 — Безопасность данных: как обезличить датасет перед обучением модели 05:33 — Почему этап EDA занимает до 80% времени дата-сайентиста 07:21 — Опыт судейства хакатонов: как подготовка данных определяет победу 09:37 — Поиск открытых наборов данных: Kaggle, Hugging Face, Росстат 16:23 — Библиотека Pandas: почему это фундаментальный инструмент аналитика 19:02 — Ключевые структуры данных в Pandas: Series и DataFrame 20:24 — Подключение необходимых библиотек на Python (NumPy, Pandas, Seaborn) 23:32 — Загрузка реального датасета аренды квартир в Москве с ЦИАН (read_csv) 24:50 — Обзор структуры и размерности датасета ЦИАН 31:02 — Разведочный анализ данных (EDA): цели и задачи первичного осмотра 35:56 — Отбор признаков: какие колонки (ID, телефон, ссылки) нужно сразу отбросить 39:52 — Практические методы Pandas: shape, head и...