Машинное обучение и большие данные

National Research Nuclear University MEPhI via Coursera

Go to class Write review

This course may be unavailable.

Details

This course may be unavailable.

Go to class

Provider

Coursera
Pricing

Free Online Course (Audit)
Languages

Russian
Certificate

Paid Certificate Available
Duration & workload

10 weeks
Sessions

Finished
Level

Beginner
Subtitles

Russian

Found in

Overview

Class Central Tips

Обработка и анализ больших данных представляет собой новую практическую задачу, требующую навыков работы с современным инструментарием. В настоящее время данные называют «нефтью 21 века», они накапливаются в корпоративных и государственных информационных системах, социальных сетях, веб-блогах и сайтах и потенциально являются ценным ресурсом для извлечения новых знаний, инсайтов для научных исследований, повышения эффективности и конкурентоспособности предприятий. Методы интеллектуального анализа больших данных, таким образом, представляют собой тот необходимый инструмент для высвобождения этого потенциала.

Курс «Машинное обучение и большие данные» входит в число базовых при подготовке современных экономистов-математиков на уровне магистров. Изучение дисциплины позволит студентам получить и развивать навыки анализа и диагностики проблем экономики, современных методов их решения, а также ознакомиться с современной спецификой исследования операций в зарубежных и отечественных организациях.

Целями и задачами курса являются: формирование фундаментальных общеэкономических и естественнонаучных знаний; освоение математических и инструментальных методов машинного обучения; использование современных информационно-коммуникационных технологий в профессиональной деятельности; закрепление профессиональных навыков в области прогнозирования основных социально-экономических показателей деятельности предприятия, отрасли, региона и экономики в целом.

Компетенции по решению задач в анализе данных с помощью методов машинного обучения, будут получены студентами после прохождения курса «Машинное обучение и большие данные». Изучение дисциплины позволит выработать навыки постановки и решения проблем развития организации, развить творческое мышление специалистов в области системного анализа и бизнес-моделирования, выработать умение решать управленческие проблемы в конкретной экономической ситуации.

Syllabus

Анализ данных

В этом модуле вы познакомитесь с основными понятиями и методами анализа данных. Узнаете, что такое искусственные нейронные сети и для чего они используются. Получите представление об основных целях и задачах машинного обучения, о существующих стандартах в сфере хранения и обработки данных.

Подготовка данных

В рамках наиболее популярного стандарта CRISP мы рассмотрим этап анализа, который называется подготовка данных. На предыдущих шагах мы выяснили потребности бизнеса. Определили, какие данные у нас имеются, их источники и форматы. Данные мы каким-то образом извлекли из источников. И наша текущая задача эти данные подготовить, очистить, преобразовать для того, чтобы можно было дальше заниматься моделированием.

Визуализация данных

Данный модуль посвящен визуализации данных. Эта тема является очень важной для анализа, поскольку визуализация данных используется на разных этапах стандарта CRISP. Визуализация данных позволяет вырабатывать гипотезы, проверять гипотезы и, в целом, оценивать качество моделей, построенных ранее.

Описательные статистики

Этот модуль посвящен систематизации данных и описанию их с помощью различных методов, таких как: расчет статистик; проверка статистических тестов и гипотез; построение диаграмм, ранее рассмотренных с точки зрения визуализации.

Анализ связей

Данный модуль посвящен новому типу задач, которые связаны с причинно-следственным анализом, а точнее с анализом статистических связей. Этот анализ опирается на понятие статистической или стохастической связи. Что это такое? Эта связь показывает, как связаны объекты между собой, но проявляется она только при анализе большого объема событий, явлений или объектов.

Практикум. Работа на платформе RapidMiner (Часть 1)

В данном практикуме мы кратко посмотрим основы работы в RapidMiner с точки зрения анализа данных, пройдемся по основным его функциям и процессам на примерах конкретных задач.

Кластеризация

Этот модуль посвящен проблеме машинного обучения, который называется Data Mining или кластерный анализ.
Сам по себе кластерный анализ посвящен поиску закономерностей в различных данных путем группирования исходных объектов по неким признакам, которые характеризуют их состояния. При этом объекты могут быть людьми, предприятиями или любыми другими сущностями.

Мягкая и жесткая кластеризация

В данном модуле рассматриваются особенности мягкой и жесткой кластеризации. Мягкая кластеризация — тип кластеризации, при котором каждая точка может принадлежать одному или нескольким кластерам. В классической постановке, когда мы группируем наши объекты, мы считаем, что каждый объект может принадлежать одному и только одному кластеру, который к нему наиболее близок в смысле некоторого расстояния или меры сходства. И тогда мы говорим о жесткой кластеризации.

Классификация

Этот модуль посвящен задаче классификации, которая часто встречается и в машинном обучении, и в Data Science, и Data Mining, и, вообще, в любом интеллектуальном анализе данных. Классификация — это отнесение объектов к одному из заранее известных классов по некоторым правилам. Простейший пример — ваша электронная почта, которая фильтрует письма на спам и не спам.

Методы поиска ассоциативных правил

В этом модуле мы рассмотрим довольно интересный класс задач, который называется «Задача маркетинговой корзины». Смысл этой задачи простой. Имеется множество чеков, в этих чеках представлены купленные нашими покупателями товары. Определить, какие товары наиболее часто продаются совместно? Какие товары являются «якорем»? Какие товары можно превратить в «сопутствующие»?

Интеллектуальный анализ текста

Этот модуль посвящен текстовому анализу. Текстовый анализ — это процесс обнаружения каких-то закономерностей в неструктурированных текстовых данных. Здесь вы познакомитесь с разными видами текстового анализа.

Практикум. Работа на платформе RapidMiner (Часть 2)

В данном модуле мы попрактикуемся в текстовом интеллектуальном анализе, работе с ассоциативными правилами и решении задач классификации с помощью приложения RapidMiner.