DEV-PDA110. Инструменты анализа данных
Длительность дисциплины: 24 ак.ч.
Аннотация
Программа знакомит с основами работы с библиотеками NumPy и Pandas, включая операции с векторами, матрицами и табличными данными, а также визуализацию с помощью Matplotlib и Seaborn. Участники изучат методы описательной статистики, такие как нормализация данных и обнаружение выбросов, на примере реальных датасетов, включая данные о Титанике. Курс затрагивает типы переменных и методы их обработки, в том числе кодирование категориальных данных и борьбу с аномалиями, с практикой на датасетах по продажам автомобилей и товаров. Отдельный раздел посвящён проверке статистических гипотез, где рассматриваются параметрические и непараметрические тесты и их применение. Завершается программа пет-проектом, в котором участники применяют полученные навыки для анализа данных и представления результатов.
Знания и умения, полученные в результате изучения
В результате освоения программы обучающийся должен уметь:
- Использовать Jupyter Lab, Google Colab для анализа данных.
- Формулировать гипотезы исследования.
- Визуализировать данные с помощью различных типов графиков.
- Самостоятельно проводить разведочный анализ данных.
В результате освоения программы обучающийся приобретет следующие навыки:
- Владение Python (библиотеки Pandas, NumPy, Matplotlib/Seaborn) для обработки и анализа данных.
- Навыки сторителлинга данных для эффективного представления insights (ценные выводы или скрытые закономерности, обнаруженные в данных в результате анализа).
- Навыки работы с табличными данными.
- Навыки построения наглядных и интерпретируемых графиков.
В результате освоения программы обучающийся приобретет практический опыт:
- Самостоятельно проводить анализ датасетов (наборов данных) из различных сфер (финансы, маркетинг, социальные науки и т.д.)
- Презентации данных (таблицы, графики, гипотезы)
Содержание дисциплины
Тема 1. Работа с NumPy и Pandas
Работа с векторами и матрицами в NumPy (основной синтаксис).
Работа с табличными данными в Pandas (основной синтаксис).
Визуализация табличных данных в Matplotib/Seaborn (основной синтаксис).
Практические занятия
Работа с векторами и матрицами в NumPy.
Отработка изученных методов Pandas.
Построение различных видов графиков.
Тема 2. Описательная статистика данных
Методы нормализации данных.
Методы обнаружения выбросов.
Практические занятия
Анализ датасета про космический корабль Титаник.
Тема 3. Типы переменных в данных
Методы кодирования данных.
Методы борьбы с выбросами в данных.
Практические занятия
Анализ датасета про продажи автомобилей в США.
Анализ датасета про продажи товаров в торговой сети.
Тема 4. Проверка статических гипотез
Формулирование нулевой и альтернативной гипотезы.
Изучение параметрических и непараметрических статистических тестов.
Практические занятия
Использование статистических гипотез для различных данных.
Тема 6. Аттестация
Предоставить пет-проджект