Кластерный анализ данных

Кластерный анализ данных

Учебная программа разработана в целях получения и закрепления теоретических и практических знаний в области кластерного анализа данных. Слушатели, полностью выполнившие Учебную программу и успешно прошедшие контроль знаний, получают удостоверение о повышении квалификации установленного образца.
Задача кластерного анализа состоит в разбиении исходного множества данных на группы (кластеры) таким образом, чтобы данные из одной группы были максимально схожи, а из разных групп – максимально различны. Кластеризация данных – одна из основных задач машинного обучения без учителя.
Выявление кластерной структуры данных позволяет проводить систематизацию объектов, анализировать поведение сложной системы через изменения ее кластерной структуры, используется при сжатии данных, распознавании изображений, анализе текстов, в информационно-поисковых системах и при автоматическом построении каталогов, а также во многих других областях.
В курсе изучаются статистические методы кластерного анализа, использование нейросетевого подхода к кластеризации и методы оценки качества кластеризации. Особое внимание уделяется способам представления кластерной структуры данных, методам визуализации процесса и результатов кластеризации.

Программа курса

  • Занятие 1: Постановка задачи кластеризации данных. Этапы решения задачи кластеризации. Области практического применения. Примеры прикладных задач. Меры расстояния и меры близости объектов. Иерархическая агломеративная кластеризация. Методы агломерации данных. Статистическое расстояние между кластерами. Метод Уорда. Визуализация процесса агломерации. Дендрограмма. Оценка числа кластеров. Метод «локтя».

  • Занятие 2: Алгоритмы k-means, k-medians, k-medoids, k-means++, c-means, mean shift. Методы оценки числа кластеров. Кластеризация на основе модели смеси распределений Гаусса (GMM). Формализация модели. Оценивание параметров модели по методу максимального правдоподобия. EM-алгоритм. Информационный критерий Байеса (BIC). Алгоритм DBSCAN. Визуализация результатов кластеризации.

  • Занятие 3: Использование самообучающихся нейронных сетей для кластеризации. Математическая модель нейронной сети Кохонена. Карта Кохонена. Самообучение карты Кохонена. Визуализация параметров сети и результатов кластеризации.

  • Занятие 4: Методы проверки валидности результатов кластеризации. Внутренняя, внешняя и относительная валидация. Проверка гипотезы об отсутствии кластерной структуры данных. «Силуэты» кластеров. Индексы Calinski-Harabasz, Davies-Bouldin, статистика разрыва. Индексы Adjusted Rand Index и Adjusted Mutual Information. Разбор практических задач.

Преподаватели курсов

Трофимов Александр Геннадьевич

Кандидат технических наук, доцент кафедры кибернетики

Окончил НИЯУ МИФИ в 2005 году по специальности «Прикладная математика», получив квалификацию «Математик системный программист».
Преподает курсы по теории вероятностей, математической статистике, машинному обучению, теории нейронных сетей и программированию в Python. Автор множества научных публикаций, владеет английским и испанским языками.

Наш адрес

Метро Каширская, Каширское ш., 31.

Контакты

E-mail: icis-dpo@mephi.ru

Телефон: +7 (495) 788-56-99, доб. 8995