Основы интеллектуального анализа данных и машинного обучения

Основы интеллектуального анализа данных и машинного обучения

Учебная программа посвящена изучению основ интеллектуального анализа данных (data mining) и машинного обучения. Слушатели смогут получить представление об организации процесса анализа данных, узнать основное содержание этапов предобработки и постобработки данных, сопутствующие стандарты. Слушатели познакомятся с современными технологиями интеллектуального анализа данных и примерами их применения для решения бизнес-задач, а также с основами машинного обучения как одной из главных современных концепций извлечения новых знаний и закономерностей из больших массивов данных и последующего их применения в системах искусственного интеллекта. Слушатели узнают о методах машинного обучения на основе нейронных сетей, в том числе сверточных, а также других их разновидностей.

Программа курса

  • Занятие 1. Введение в анализ данных. Предмет интеллектуального анализа данных и процессов. История вопроса. Основные подходы к анализу данных. Основная терминология: объект анализа, признаки объекта, модель, типы данных, типы признаков. Приложения анализа данных (примеры). Жизненный цикл анализа данных. Стандарт CRISP-DM. Инструментарий анализа данных. Способы хранения данных. Концепция «больших данных» (big data). Предварительная обработка данных. Основные задачи предобработки данных. Очистка данных. Интеграция данных. Редукция (понижение размерности) и сокращение объёма данных. Преобразование данных. Обзор способов хранения данных. Реляционные и нереляционные базы данных. Многомерные структуры данных. Оперативная аналитическая обработка данных (OLAP). Визуализация данных (обзор методов). Плоскостная и 3D-визуализация. Визуализация процессов. Интерактивная визуальная аналитика.

  • Занятие 2. Поиск шаблонов и ассоциативных правил. Регуляризация. Основные задачи поиска ассоциативных правил: поиск всех часто встречающихся подмножеств, генерация строгих ассоциативных правил из часто встречающихся подмножеств. Основные понятия: уровень поддержки (support level), уровень уверенности (confidence level). Классическая «задача о супермаркете». Алгоритмы Apriori и FP-Growth.

  • Занятие 3. Основы машинного обучения.Постановка задачи машинного обучения. Этапы обучения и применения модели. Обучающая, тестовая и контрольная выборки. Сведение задачи обучения к задаче оптимизации. Эмпирические оценки обобщающей способности. Способы проверки обобщающей способности на практике. Примеры задач машинного обучения: регрессия, классификация, кластеризация, обнаружение аномалий, ранжирование, оценка плотности, понижение размерности. Переобучение и борьба с ним.

  • Занятие 4. Классификация данных. Постановка задачи классификации. «Обучение с учителем». Бинарная и многоклассовая классификация. Деревья решений. Метод опорных векторов. Байесовские методы. Пример задачи классификации. Применения классификации для решения практических задач.

  • Занятие 5. Кластеризация данных. Обнаружение аномалий. Постановка задачи кластеризации. «Обучение без учителя». Метод k средних. Пример решения задачи кластеризации. Агломеративная иерархическая кластеризация. Формула Ланса – Уильямса. Дендрограммы. Поиск и обнаружение аномалий. Критерии аномальности объектов анализа. Статистические методы. Методы, основанные на измерении близости объектов. Пример постановки и решения задачи обнаружения аномалий.

  • Занятие 6. Введение в искусственные нейронные сети. Контроль знаний. Основные понятия и определения. Сведение задачи обучения сети к задаче оптимизации. Обучение сети методом обратного распространения ошибки. Примеры задач, решаемых с помощью обучения искусственных нейронных сетей: медицинская диагностика, анализ эмоциональной окраски отзывов, поисковые машины, борьба со спамом, SIEM-системы и пр. Глубокое обучение (deep learning). Свёрточные (convolutional) нейронные сети. Области применения сверточных нейронных сетей: обработка естественных языков (NLP – Natural Language Processing), распознавание речи и изображений, анализ подлинности фтоизображений. Контроль знаний в форме теста с вариантами ответов. Разбор ответов. Заключительное слово. Ответы на вопросы. Заполнение анкет. Сбор пожеланий.

Преподаватели курсов

Запечников Сергей Владимирович

Доктор технических наук, доцент кафедры криптографии и кибербезопасности

В 1997 году окончил МИФИ по специальности «Прикладная математика», получив квалификацию «инженер-математик».
Преподает курсы по криптографическим протоколам, безопасности вычислительных сетей, анализу данных и машинному обучению. Автор множества научных работ, владеет английским языком.

Наш адрес

Метро Каширская, Каширское ш., 31.

Контакты

E-mail: icis-dpo@mephi.ru

Телефон: +7 (495) 788-56-99, доб. 8995