Модели

В настоящий момент вы можете скачать следующие модели (жирным выделены модели, доступные для использования в веб-интерфейсе):

Таблицу можно (и нужно) пролистывать по горизонтали!
Постоянный идентификатор Скачать Корпус Размер корпуса Объём словаря Частотный порог Тагсет Алгоритм Размерность вектора Размер окна SimLex965 Google Analogies Дата создания
taiga_upos_skipgram_300_2_2018 331 Мбайт Тайга почти 5 миллиардов слов 237 255 200 Universal Tags Continuous Skipgram 300 2 0.41 0.53 Июнь 2018
ruscorpora_upos_skipgram_300_5_2018 191 Мбайт НКРЯ 250 миллионов слов 195 071 20 Universal Tags Continuous Skipgram 300 5 0.37 0.58 Январь 2018
ruwikiruscorpora_upos_skipgram_300_2_2018 376 Мбайт НКРЯ и  Википедия за декабрь 2017 600 миллионов слов 384 764 40 Universal Tags Continuous Skipgram 300 2 0.34 0.70 Январь 2018
news_upos_cbow_600_2_2018 547 Мбайт Русскоязычные новости,с сентября 2013 до ноября 2016 почти 5 миллиардов слов 289 191 200 Universal Tags Continuous Bag-of-Words 600 2 0.35 0.46 Январь 2018
araneum_upos_skipgram_300_2_2018 192 Мбайта Araneum около 10 миллиардов слов 196 620 400 Universal Tags Continuous Skipgram 300 2 0.38 0.65 Январь 2018
araneum_none_fasttextcbow_300_5_2018 1 Гбайт Araneum около 10 миллиардов слов 195 782 400 Нет fastText CBOW (3..5-граммы) 300 5 0.35 0.73 Март 2018
araneum_none_fasttextskipgram_300_5_2018 675 Мбайт Araneum около 10 миллиардов слов 195 782 400 Нет fastText Skipgram (3-граммы) 300 5 0.36 0.71 Январь 2018
ruwikiruscorpora-nobigrams_upos_skipgram_300_5_2018 385 Мбайт НКРЯ и  Википедия за декабрь 2017 (без склеивания биграмм) 600 миллионов слов 394 332 40 Universal Tags Continuous Skipgram 300 5 0.31 0.72 Январь 2018
ruwikiruscorpora-superbigrams_skipgram_300_2_2018 735 Мбайт НКРЯ и  Википедия за декабрь 2017 (с неограниченным склеиванием биграмм) 600 миллионов слов 746 695 40 Universal Tags Continuous Skipgram 300 2 0.28 0.71 Январь 2018
ruscorpora_upos_skipgram_300_10_2017 200 Мбайт НКРЯ 250 миллионов слов 184 973 10 Universal Tags Continuous Skipgram 300 10 0.35 0.65 Январь 2017
ruwikiruscorpora_upos_cbow_300_20_2017 420 Мбайт НКРЯ и  Википедия за ноябрь 2016 600 миллионов слов 392 339 15 Universal Tags Continuous Bag-of-Words 300 20 0.33 0.70 Январь 2017
web_upos_cbow_300_20_2017 290 Мбайт Веб-корпус, декабрь 2014 900 миллионов слов 267 540 30 Universal Tags Continuous Bag-of-Words 300 20 0.32 0.67 Январь 2017
araneum_upos_skipgram_600_2_2017 419 Мбайт Araneum около 10 миллиардов слов 196 465 400 Universal Tags Continuous Skipgram 600 2 0.41 0.59 Июнь 2017
news_upos_cbow_300_2_2017 130 Мбайт Русскоязычные новости,с сентября 2013 до ноября 2016 почти 5 миллиардов слов 194 058 200 Universal Tags Continuous Bag-of-Words 300 2 0.33 0.42 Февраль 2017
ruscorpora_upos_skipgram_600_10_2017 371 Мбайт НКРЯ 250 миллионов слов 173 816 10 Universal Tags Continuous Skipgram 600 2 0.43 0.29 Июнь 2017
ruscorpora_mystem_cbow_300_2_2015 303 Мбайт НКРЯ 107 миллионов слов 281 776 3 Mystem Continuous Bag-of-Words 300 2 0.38 0.27 Декабрь 2015
ruwikiruscorpora_mystem_cbow_500_2_2015 1100 Мбайт НКРЯ и  Википедия за  2015 280 миллионов слов 604 043 5 Mystem Continuous Bag-of-Words 500 2 0.38 0.38 Март 2015
web_mystem_skipgram_500_2_2015 630 Мбайт Веб-корпус, декабрь 2014 660 миллионов слов 353 608 30 Mystem Continuous Skipgram 500 2 0.31 0.52 Ноябрь 2015
news_mystem_skipgram_1000_20_2015 525 Мбайт Русскоязычные новости, с сентября 2013 до октября 2015 2.5 миллиарда слов 147 358 200 Mystem Continuous Skip-Gram 1000 20 0.32 0.58 Декабрь 2015

Корпуса

  1. НКРЯ: Национальный Корпус Русского Языка в полном объёме;
  2. Википедия: дамп русской Википедии за соответствующую дату;
  3. Новости: поток новостей с 1 500 преимущественно русскоязычных новостных сайтов (около 30 миллионов документов);
  4. Araneum Russicum Maximum: веб-корпус русскоязычных текстов, собранный Владимиром Бенко в 2016 году (скачать лемматизированный корпус);
  5. Тайга: открытый и структурированный веб-корпус русского языка, снабженный морфологической и синтаксической разметкой (подкорпус поэзии не использовался); собран Татьяной Шавриной;
  6. Веб: случайно отобранные 9 миллионов русскоязычных веб-страниц; обкачаны в декабре 2014 года.

Предобработка корпусов

Перед обучением все корпуса были токенизированы, разбиты на предложения, лемматизированы и размечены по частям речи при помощи UDPipe (в случае "Тайги" мы использовали разметку от создателей корпуса). Тэги частей речи соответствуют  формату Universal PoS Tags (например, «печь_NOUN»). Таблица конверсии в UPoS из тэгов Mystem доступна здесь. Стоп-слова (союзы, местоимения, предлоги, частицы и т.п.) были удалены.

Процесс предобработки корпусов с примерами кода в деталях описан в тьюториале. Также доступны готовые скрипты, воспроизводящие нашу предобработку на любом русском тексте: вариант для UDPipe и вариант для Mystem.

Некоторые устойчивые и частотные словосочетания из двух слов (биграммы) были объединены в один токен через спецсимвол «::» (особенно это касается имен собственных), например, борис::гребенщиков_PROPN. Для сравнения доступна и модель без склейки биграмм (ruwikiruscorpora-nobigrams_upos_skipgram_300_5_2018), а также модель, в которой были склеены все возможные биграммы продуктивных типов, независимо от их частотных характеристик (ruwikiruscorpora-superbigrams_skipgram_300_2_2018).

Оценка моделей

Оценка качества дистрибутивно-семантических моделей сама по себе является сложной проблемой. Лучше всего напрямую оценивать, насколько хорошо модель работает для конкретной практической задачи (extrinsic evaluation). Однако, если модели обучаются «для всего» или для демонстрации возможностей метода (как в случае с нашим сервисом), приходится тестировать некую общую способность моделей работать с языком, без привязки к конкретной задаче (intrinsic evaluation).

Мы оцениваем наши модели двумя хорошо известными способами:

  1. Корреляция (по Спирмену) значений парной схожести слов, сгенерированных моделью, и значений, взятых из вручную размеченного тестового сета. Мы применяем тестовый сет RuSimLex965, построенный на базе Multilingual SimLex999 dataset (наша статья о RuSimLex965).
  2. Точность решения задач на аналогии (пропорций). Для оценки мы использовали русскую версию семантических секций Google Analogies Dataset (перевод Татьяны Кононовой; почитать подробнее о задаче решения аналогий).
Скачать все наши тестовые сеты (с частеречными тэгами или без них).

Кто использует модели RusVectōrēs?

  1. Habra-юзер drafterleo сделал поэтичный поисковик по стишкам-пирожкам.

  2. Доцент школы лингвистики НИУ ВШЭ Борис Орехов создал "векторные пересказы" классических произведений русской литературы.

  3. Github-юзер opennota разработал семантический поисковик по стихам Александра Сергеевича Пушкина.

  4. Sberbank AI использует наши модели в качестве baseline на соревновании по стихотворному искусственному интеллекту "КлассикAI".

  5. ...

У вас есть что добавить к этому списку? Пишите нам!

Команда RusVectōrēs

Университет Осло

Лицензия Creative Commons