SA-DS. Введение в Data Science и анализ данных
Длительность дисциплины: 16 ак.ч.
Аннотация
Целью реализации программы повышения квалификации является формирование теоретического представления об основных современных методах анализа данных, а также приобретение практических навыков в области анализа данных.
Содержание дисциплины
Тема 1. Введение в бизнес-аналитику и науку о данных.
1.1 Данные. Знания.
Информация Данные - новая нефть. Д
анные vs Информация.
Знания vs Информация.
Мета иформация.
Мета-модели
1.2 Основные активности по управлению данными
Основные активности по управлению данными.
DMBoK Wheel.
Роли в обработке данных (data engineer, data analyst, data scientis etc).
Уровни зрелости компании в управлении данными
Практические занятия
1. Нарисовать мета-модель проектной деятельности
2. Классифицировать имеющиеся сведения в проекте как данные, информацию, знания
3. Нарисовать мета-модель проекта
4. Выявить требования к данным по своему проекту
5. Определить уровень зрелости своей текущей работы
Тема 2. Технология обработки данных.
2.1 Источники данных
Источники данных (файлы, логи, базы, экспертные источники).
Нормализация и денормализация (SQL vs NoSQL, MongoDB).
2.2 ETL.
Методы сбора и трансформации данных Общая схема source->ETL->storage.
ETL: Методы сбора данных: загрузка adhoc, загрузка по расписанию, миграции, шины.
ETL: трансформации: маппинги, вычисления, чистка не валидных данных.
Не валидные данные.
Техника vs Домен (на примере is null, диапазонов amount и т.п.)
2.3 DWH vs Data Lake
Концепция хранилища данных.
Архитектура хранилищ данных.
Способы структурирования хранилища данных.
Озеро данных.
Практические занятия
1. Определить метод сбора данных для своего проекта
2. Спроектировать хранилище для данных проекта
Тема 3. BI и Data Science
3.1 BI и Data Science
Что такое BI.
BI платформы (PowerBI, sisense, табло, клик вью SSRS).
Обзор архитектур.
Data Science (deep learning, big data, data mining), решаемые задачи (NLP, predication, поиск браков, матчинг, comp vision, интеллекциальные агенты).
Дерево навыков для DS специалиста.
Инженер по данным, BI аналитик, DSst.
DS vs statistics
3.2 Обзор инструментов.
Обзор инструментов Jupyter, R, Scala, Hadoop, Spark, Matlab / Octave.
3.3 Process Mining Process Mining (Интеллектуальный анализ процессов)
Практические занятия
1. Выбрать BI платформу для спроектированного хранилища
2. Сформулировать DS задачу для своего проекта
Тема 4. Основы статистики
4.1 Введение в статистику.
Задачи статистики Введение в статистику.
Задачи статистики
4.2 Распределение.
Распределение.
Виды распределения.
Формы распределения (скошенность).
Нормальное распределние.
Основные моменты (среднее, мода, медиана).
Стандартное отклонение (SD) и дисперсия (VAR).
Понятие допустимой ошибки вычислений.
Округления
4.3 Понятие статистического вывода.
Проверка статистических гипотез Понятие статистического вывода.
Проверка статистических гипотез.
p-value.
Правильная и ошибочные трактовки.
t-test.
Гипотеза.
Условия применения.
Механика.
Влияние выбросов на результаты.
Робастные тесты.
Боксплоты.
Доверительный интервал.
Факторный анализ
Поправки на множественные сравнения
Практические занятия
1. Дано распределение. Вручную посчитать основные моменты +стандартное отклонение (SD)
2. Рассчитать ошибку своих результатов
3. Рассчитать t значение
Тема 5. Продуктовые гипотезы. ML. Big Data
5.1 Корреляция. Продуктовые гипотезы
Корреляция.
Корреляция и причинность.
R2.
Продуктовые метрики и A/B тест
5.2 Машинное обучение (ML).
Построение моделей Машинное обучение.
Области применения, достижения, ограничения.
Машинное обучение с учителем (Supervising): ANN.
Машинное обучение без учителя (unsupervising): Регрессия, k-mean, SVM.
Deep Learning.
Метрики моделей (FP, ROC-AUC).
Написание требований к моделям
3.3 Большие данные (Big Data)
VUCA, Большие данные (Big Data).
Особенности методов (на примере ленивого Байеса, ленивой кластеризации)
Практические занятия
1. Посчитать корреляцию вручную
2. Придумать предиктор для своего проекта. Определить его метрики
Тема 6. Итоговая аттестация.