Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Coursera

Введение в информационный поиск

Moscow Institute of Physics and Technology via Coursera

Overview

Данный курс был создан сотрудниками "Mail.Ru Group". При разработке заданий упор делался на знания и опыт, которые используются сотрудниками на практике ежедневно при проектировании продуктов, которыми пользуются миллионы людей.
В современном мире невозможно представить человека, который, заходя в интернет, не пользуется поисковыми системами. Google, Yandex, Mail.ru и другие интернет-гиганты решают задачи нахождения информации в интернете и удовлетворения информационных потребностей пользователя. В этом курсе мы расскажем вам, как устроена поисковая система изнутри, покажем, какие приемы обработки естественного языка и машинного обучения используются при построении поискового индекса и ответе на запросы. Также мы обсудим тему объективной оценки качества поисковой системы. В результате слушатели курса смогут опробовать все вышеперечисленные техники на практике и построить работающую модель поисковой системы.

Syllabus

  • Введение, булев поиск
    • Этим занятием открывается цикл лекций, посвященных информационному поиску. Мы начнем с небольшого экскурса в историю возникновения вэб-поиска, изучим базовые понятия и узнаем, как можно классифицировать разные поисковые системы. Базовый вид поиска – это булев поиск. Мы рассмотрим, как он устроен и как можно исполнять запросы пользователей к такому поиску. Но недостаточно использовать оригинальный текст – чтобы учесть разные морфологические формы одного и того же слова, применяются различные этапы нормализации текста. Это применимо не только к документам, но и к запросам. Отдельно стоит рассмотреть такие важные усовершенствования булева поиска, как координатный поиск, которые учитывает, где именно в тексте находятся конкретные слова, и обработку полноценных фразовых запросов.
  • Поисковый индекс
    • В основе текстового информационного поиска лежит концепция обратного индекса. Эта неделя посвящена разным методам его построения, расширения за счет дополнительной информации и улучшения работы с ним благодаря сжатию словаря и ускорению работы с обратным индексом.
  • Нечёткий поиск
    • Эта неделя посвящена двум большим темам, связанным между собой: исправление опечаток в запросах пользователей и выполнение неточных запросов, в которых пользователь сознательно скрывает часть слова за специальным знаком – "*".
  • Ранжирование
    • Выполнение запросов пользователей на большом корпусе документов часто приводит к тому, что запросу удовлетворяет слишком много документов. Для того, чтобы пользователю не пришлось просматривать все найденные документы, поисковая система может отобрать из них только лучшие и показать пользователю в порядке "полезности". Этим занимается ранжирование, о котором и пойдет речь в этой неделе.
  • Ссылочное и поведенческое ранжирование
    • Эта неделя посвящена ссылочному и поведенческому ранжированию. Эти виды ранжирования опираются на связь между разными документами и информацию о поведении пользователя.
  • Оценка качества
    • В этой неделе мы поговорим о том, зачем нужно оценивать качество поиска и как это можно сделать.

Taught by

Сергукова Юлия Михайловна and Плеханов Михаил Владимирович

Related Courses

Reviews

Start your review of Введение в информационный поиск

Never Stop Learning!

Get personalized course recommendations, track subjects and courses with reminders, and more.

Sign up for free