Модели

В настоящий момент вы можете скачать следующие модели (идентификатор с годом означает, что модель архивная и недоступна для выбора в веб-интерфейсе):

Идентификатор Корпус Размер корпуса Объём словаря (леммы) Частотный порог Тагсет Алгоритм Размерность вектора Размер окна SimLex999 Google Analogies Скачать (бинарный формат word2vec) Дата создания
ruscorpora НКРЯ 250 миллионов слов 184 973 10 Universal Tags Continuous Skipgram 300 10 0.36 0.65 200 Мбайт Январь 2017
ruwikiruscorpora НКРЯ и  Википедия за ноябрь 2016 600 миллионов слов 392 339 15 Universal Tags Continuous Bag-of-Words 300 20 0.34 0.70 420 Мбайт Январь 2017
web Веб-корпус, декабрь 2014 900 миллионов слов 267 540 30 Universal Tags Continuous Bag-of-Words 300 20 0.34 0.67 290 Мбайт Январь 2017
news Русскоязычные новости,с сентября 2013 до ноября 2016 почти 5 миллиардов слов 194 058 200 Universal Tags Continuous Bag-of-Words 300 2 0.34 0.42 130 Мбайт Февраль 2017
ruscorpora_2015 НКРЯ 107 миллионов слов 281 776 3 Mystem Continuous Bag-of-Words 300 2 0.39 0.27 303 Мбайт Декабрь 2015
ruwikiruscorpora_2015 НКРЯ и  Википедия за  2015 280 миллионов слов 604 043 5 Mystem Continuous Bag-of-Words 500 2 0.39 0.38 1100 Мбайт Март 2015
web_2015 Веб-корпус, декабрь 2014 660 миллионов слов 353 608 30 Mystem Continuous Skipgram 500 2 0.33 0.52 630 Мбайт Ноябрь 2015
news_2015 Русскоязычные новости, с сентября 2013 до октября 2015 2.5 миллиарда слов 147 358 200 Mystem Continuous Skip-Gram 1000 20 0.34 0.58 525 Мбайт Декабрь 2015

Корпуса

  1. НКРЯ: Национальный Корпус Русского Языка в полном объёме
  2. Википедия: дамп русской Википедии за соответствующую дату
  3. Веб: случайно отобранные 9 миллионов русскоязычных веб-страниц; обкачаны в декабре 2014 года
  4. Новости: поток новостей с 1 500 преимущественно русскоязычных новостных сайтов (около 30 миллионов документов в последних моделях)

Предобработка корпусов

Перед обучением все корпуса были токенизированы, разбиты на предложения, лемматизированы и размечены по частям речи при помощи Mystem. У моделей, созданных в 2017 году и позже, тэги частей речи были дополнительно переведены в формат Universal PoS Tags (например, «печь_NOUN»). Таблица конверсии в UPoS из тэгов Mystem доступна здесь. Стоп-слова (союзы, местоимения, предлоги, частицы и т.п.) были удалены.

Кроме того, в моделях начиная с 2017 года некоторые устойчивые и частотные словосочетания из двух слов (биграммы) были объединены в один токен через спецсимвол «::», например, coca::cola_NOUN.

Оценка моделей

Оценка качества дистрибутивно-семантических моделей сама по себе является сложной проблемой. Лучше всего напрямую оценивать, насколько хорошо модель работает для конкретной практической задачи (extrinsic evaluation). Однако, если модели обучаются «для всего» или для демонстрации возможностей метода (как в случае с нашим сервисом), приходится тестировать некую общую способность моделей работать с языком, без привязки к конкретной задаче (intrinsic evaluation).

Мы оцениваем наши модели двумя хорошо известными способами:

  1. Корреляция (по Спирмену) значений парной схожести слов, сгенерированных моделью, и значений, взятых из вручную размеченного тестового сета. Мы применяли русскоязычную часть Multilingual SimLex999 dataset.
    Скачать SimLex999 для русского, размеченный по стандарту Universal PoS Tags
  2. Точность решения задач на аналогии (пропорций). Для оценки мы использовали семантические секции Google Analogies Dataset, переведённого на русский язык.
    Скачать Google Analogies Dataset для русского, размеченный по стандарту Universal PoS Tags (перевод Татьяны Кононовой)