RusVectōrēs: семантические модели для русского языка
’You shall know a word by the company it keeps.’ (Firth 1957).
Введите слово, чтобы получить список из 10 его ближайших семантических ассоциатов (квази-синонимов).
Будет использована модель, обученная на Википедии и Национальном корпусе русского языка; другие модели вы можете найти на вкладке Похожие слова.
Новости проекта

- 22/11/2019 — Рядом со списками ближайших соседей слова теперь отображаются динамические интерактивные графы связей между соседями (используется библиотека vec2graph).
- 26/08/2019 — Выложены контекстуализированные модели на алгоритме ELMo, обученные на лемматизированных и сырых корпусах.
- 22/04/2019 — В списках ближайших ассоциатов во всех вкладках теперь по умолчанию показываются только высокочастотные и среднечастотные слова. Для изменения этого поведения появились чекбоксы с уровнями частотности: например, вы можете включить показ низкочастотных ассоциатов. Это позволяет гибко регулировать баланс между качеством и полнотой результатов.
- 28/01/2019 — Обновлен тьюториал RusVectōrēs. Он показывает, как привести слова к виду, использующемуся в наших моделях, а также как работать с самими моделями с учетом обновлений 2019 года.
- 18/01/2019 — Выложены новые модели к новому 2019 году; подробное описание изменений.
- 21/12/2018 — Опубликованы итоги анализа аудитории RusVectōrēs, полюбопытствуйте.
- 27/11/2018 — Нам важно ваше мнение! Совместно со студентами магистратуры по компьютерной лингвистике НИУ ВШЭ мы предлагаем вам пройти небольшой опрос о RusVectōrēs.
- 22/09/2018 — Заработал бот RusVectōrēs в мессенджере Telegram; кроме того, улучшено качество частеречного тэггера для пользовательских запросов.
- 20/06/2018 — Добавлена модель, обученная на структурированном веб-корпусе «Тайга», представленном на конференции "Диалог" в начале июня.
- 11/05/2018 — Мы разработали тьюториал, в котором объясняем, как привести текст к нужному для работы с моделью формату, как работать с векторами слов в модели и как обращаться к API RusVectōrēs.
- 26/03/2018 — Модели с RusVectōrēs заняли топовые места в соревновании по извлечению лексических смыслов (word sense induction) RUSSE'18. Кроме того, выложена новая fastText-модель на корпусе Araneum, использующая не только 3-граммы, но и 4- и 5-граммы.
- 05/01/2018 — Модели на fastText и имена собственные в частеречных тэгах: почитайте наш отчёт о проделанной работе за 2017 год.
- 09/08/2017 — Добавлена модель, обученная на одном из крупнейших русских веб-корпусов — Araneum Russicum Maximum (около 10 миллиардов слов). Кроме того, все модели переоценены на более консистентном тестовом сете RuSimLex965.
- 30/06/2017 — Существенно переработаны возможности визуализации. Теперь вы можете задавать несколько наборов слов: в визуализациях они будут раскрашены разными цветами. Если набор слов один, цвета будут соответствовать частям речи. Кроме того, одним кликом мыши можно визуализировать ваши данные в TensorFlow Embedding Projector.
- 09/03/2017 — На отдельной странице с моделями теперь можно скачать не только текущие модели, но и архивные, а также сравнить их друг с другом. Кроме того, мы добавили ссылки на русскоязычные тестовые сеты и на таблицу конверсии из тэгов Mystem в Universal PoS Tags.
- 12/02/2017 — Почитайте наш отчёт о проделанной работе за 2016 год и посмотрите новый скринкаст о работе с RusVectōrēs.
- 02/02/2017 — Существенно обновлены модели: новостной корпус теперь покрывает события вплоть до ноября 2016, дамп Википедии также обновлён до этой же даты. Кроме того, частеречные тэги переведены на стандарт Universal Tags, а в словарях моделей появились двусловные словосочетания (биграммы).
- 18/11/2016 — API дополнен возможностью делать запросы о семантической схожести пар слов. Формат запроса: https://rusvectores.org/MODEL/WORD1__WORD2/api/similarity/
- 22/10/2016 — Появились подсказки при вводе запроса. NB: подсказки не полностью покрывают лексикон моделей. Если слово не появляется в подсказках, это не обязательно значит, что модели его не знают: возможно, оно просто редкое и странное.
- 01/07/2016 — По соображениям безопасности, отключена возможность автоматически обучать модели на пользовательских корпусах. Тем не менее, если у вас есть интересный корпус, напишите нам, и мы обязательно обучим для вас модель.
- 07/04/2016 — Исходный код RusVectōrēs полностью выложен на Github под названием Webvectors.
- 04/04/2016 — Появилась возможность получать данные по API в формате json. Пример запроса — https://rusvectores.org/news/праздник/api/json/
- 15/03/2016 — На движке RusVectōrēs запущен веб-сервис с дистрибутивными моделями для английского и норвежского языков.
- 03/02/2016 — Исправлена ошибка, приводящая к невозможности обучить собственную модель.
- 22/12/2015 — Официально запущена версия RusVectōrēs 2.0: Christmas Edition.
- 16/12/2015 — Обновлена модель на корпусе новостей. Теперь она обучена на текстах вплоть до ноября 2015.
- 15/12/2015 — В «Похожие слова» добавлен фильтр «Часть речи запроса».
- 11/12/2015 — Реализован API, отдающий ближайшие десять соседей для данных слова и модели. Результат можно получить в двух форматах: json и csv. Пример: https://rusvectores.org/news/удар/api/csv/ или https://rusvectores.org/news/удар/api/json/