RusVectōrēs: семантические модели для русского языка
сервис, в котором вы можете исследовать семантические отношения между словами при помощи дистрибутивных моделей.
Мы против войны, которую развязала Россия; поэтому сейчас по умолчанию сервис использует модель, обученную на украинской Википедии и CommonCrawl.
Выбрать другие модели (в том числе русские) можно на вкладке Похожие слова и других вкладках.
Введите слово, чтобы получить список из 10 его ближайших семантических ассоциатов (квази-синонимов):
Новости проекта
- 29/07/2022 — Мы против войны и мы солидарны с Украиной. Поэтому сейчас RusVectōrēs по умолчанию переключен на модель, обученную на украинской Википедии и CommonCrawl. Прежние модели по-прежнему доступны для выбора в соответствующих вкладках или через API.
- 10/12/2021 — Новая статическая модель ruwikiruscorpora_upos_cbow_300_10_2021, обученная на НКРЯ и дампе русской Википедии за ноябрь 2021 года. Теперь со всеми новыми коронавирусными неологизмами!
- 26/08/2021 — Теперь на странице визуализаций доступны графики, полученные методом PCA (в дополнение к t-SNE). Их преимущество состоит в детерминированности: в отличие от t-SNE, PCA-проекция для данных слов и модели всегда одинакова. Кроме того, исправлено множество мелких ошибок.
- 18/01/2021 — Мы представляем новый сервис генерации контекстно-зависимых подстановок из моделей ELMo в реальном времени. Вы вводите предложение и получаете для каждого слова список его ближайших семантических ассоциатов, причём ассоциаты зависят от контекста, окружающего слово. Это даёт возможность изучать и демонстрировать лексическую неоднозначность.
- 22/10/2020 — Большое пополнение в парке моделей. Во-первых, выложены две fastText-модели, обученные на GeoWAC: это большой веб-корпус русского языка, сбалансированный по географии. Первая модель (geowac_lemmas_none_fasttextskipgram_300_5_2020) обучена на леммах, вторая (geowac_tokens_none_fasttextskipgram_300_5_2020) на сырых токенах: это первая такая статическая модель на RusVectōrēs. Лемматизированная модель доступна для использования в том числе через веб-интерфейс. Во-вторых, выложена ELMo-модель, обученная на большом корпусе Araneum Russicum Maximum (araneum_lemmas_elmo_2048_2020). В-третьих, для работы с ELMo-моделями мы подготовили simple_elmo: удобную библиотеку на Python.
- 01/09/2020 — 1 сентября напоминаем о наших сайд-проектах. Во-первых, это RusNLP: поисковик по статьям, опубликованным на российских конференциях по компьютерной лингвистике. Во-вторых, это ShiftRy: веб-сервис для анализа диахронических изменений в употреблении слов в российских новостях.
- 31/01/2020 — Выложена большая модель ELMo, обученная на корпусе Tayga, а также готовый код для работы с такими моделями.
- 22/11/2019 — Рядом со списками ближайших соседей слова теперь отображаются динамические интерактивные графы связей между соседями (используется библиотека vec2graph).
- 26/08/2019 — Выложены контекстуализированные модели на алгоритме ELMo, обученные на лемматизированных и сырых корпусах.
- 22/04/2019 — В списках ближайших ассоциатов во всех вкладках теперь по умолчанию показываются только высокочастотные и среднечастотные слова. Для изменения этого поведения появились чекбоксы с уровнями частотности: например, вы можете включить показ низкочастотных ассоциатов. Это позволяет гибко регулировать баланс между качеством и полнотой результатов.
- 28/01/2019 — Обновлен тьюториал RusVectōrēs. Он показывает, как привести слова к виду, использующемуся в наших моделях, а также как работать с самими моделями с учетом обновлений 2019 года.
- 18/01/2019 — Выложены новые модели к новому 2019 году; подробное описание изменений.
- 21/12/2018 — Опубликованы итоги анализа аудитории RusVectōrēs, полюбопытствуйте.
- 27/11/2018 — Нам важно ваше мнение! Совместно со студентами магистратуры по компьютерной лингвистике НИУ ВШЭ мы предлагаем вам пройти небольшой опрос о RusVectōrēs.
- 22/09/2018 — Заработал бот RusVectōrēs в мессенджере Telegram; кроме того, улучшено качество частеречного тэггера для пользовательских запросов.
- 20/06/2018 — Добавлена модель, обученная на структурированном веб-корпусе «Тайга», представленном на конференции "Диалог" в начале июня.
- 11/05/2018 — Мы разработали тьюториал, в котором объясняем, как привести текст к нужному для работы с моделью формату, как работать с векторами слов в модели и как обращаться к API RusVectōrēs.
- 26/03/2018 — Модели с RusVectōrēs заняли топовые места в соревновании по извлечению лексических смыслов (word sense induction) RUSSE'18. Кроме того, выложена новая fastText-модель на корпусе Araneum, использующая не только 3-граммы, но и 4- и 5-граммы.
- 05/01/2018 — Модели на fastText и имена собственные в частеречных тэгах: почитайте наш отчёт о проделанной работе за 2017 год.
- 09/08/2017 — Добавлена модель, обученная на одном из крупнейших русских веб-корпусов — Araneum Russicum Maximum (около 10 миллиардов слов). Кроме того, все модели переоценены на более консистентном тестовом сете RuSimLex965.
- 30/06/2017 — Существенно переработаны возможности визуализации. Теперь вы можете задавать несколько наборов слов: в визуализациях они будут раскрашены разными цветами. Если набор слов один, цвета будут соответствовать частям речи. Кроме того, одним кликом мыши можно визуализировать ваши данные в TensorFlow Embedding Projector.
- 09/03/2017 — На отдельной странице с моделями теперь можно скачать не только текущие модели, но и архивные, а также сравнить их друг с другом. Кроме того, мы добавили ссылки на русскоязычные тестовые сеты и на таблицу конверсии из тэгов Mystem в Universal PoS Tags.
- 12/02/2017 — Почитайте наш отчёт о проделанной работе за 2016 год и посмотрите новый скринкаст о работе с RusVectōrēs.
- 02/02/2017 — Существенно обновлены модели: новостной корпус теперь покрывает события вплоть до ноября 2016, дамп Википедии также обновлён до этой же даты. Кроме того, частеречные тэги переведены на стандарт Universal Tags, а в словарях моделей появились двусловные словосочетания (биграммы).
- 18/11/2016 — API дополнен возможностью делать запросы о семантической схожести пар слов. Формат запроса: https://rusvectores.org/MODEL/WORD1__WORD2/api/similarity/
- 22/10/2016 — Появились подсказки при вводе запроса. NB: подсказки не полностью покрывают лексикон моделей. Если слово не появляется в подсказках, это не обязательно значит, что модели его не знают: возможно, оно просто редкое и странное.
- 01/07/2016 — По соображениям безопасности, отключена возможность автоматически обучать модели на пользовательских корпусах. Тем не менее, если у вас есть интересный корпус, напишите нам, и мы обязательно обучим для вас модель.
- 07/04/2016 — Исходный код RusVectōrēs полностью выложен на Github под названием Webvectors.
- 04/04/2016 — Появилась возможность получать данные по API в формате json. Пример запроса — https://rusvectores.org/news/праздник/api/json/
- 15/03/2016 — На движке RusVectōrēs запущен веб-сервис с дистрибутивными моделями для английского и норвежского языков.
- 03/02/2016 — Исправлена ошибка, приводящая к невозможности обучить собственную модель.
- 22/12/2015 — Официально запущена версия RusVectōrēs 2.0: Christmas Edition.
- 16/12/2015 — Обновлена модель на корпусе новостей. Теперь она обучена на текстах вплоть до ноября 2015.
- 15/12/2015 — В «Похожие слова» добавлен фильтр «Часть речи запроса».
- 11/12/2015 — Реализован API, отдающий ближайшие десять соседей для данных слова и модели. Результат можно получить в двух форматах: json и csv. Пример: https://rusvectores.org/news/удар/api/csv/ или https://rusvectores.org/news/удар/api/json/