В ноябре 2018 года мы задались вопросом, кто же заходит на RusVectōrēs, и что же здесь самое интересное для аудитории? Отдельно стоял вопрос о том, как сайтом и, в частности, визуализациями пользуются лингвисты-теоретики, (известно, что исследователи в области NLP и DS главным образом скачивают модели). Мы запустили небольшой пользовательский опрос, постаравшись распространить его среди лингвистов. И вот что мы узнали (этот текст написан в основном студентами магистратуры по компьютерной лингвистике НИУ ВШЭ).
Посещаемость сайта RusVectōrēs — около 250 визитов в сутки (живых, не роботов). По будням на сайт заходит на порядок больше людей, чем в выходные. Так как подавляющее число пользователей из России (из Украины, занимающей второе место, объём трафика примерно в 21 раз меньше), в ночные часы наплыв посетителей значительно спадает. Кроме россиян и украинцев, дистрибутивными моделями для русского языка больше других интересуются белорусы, американцы, норвежцы и китайцы. Самые популярные модели по числу скачиваний обучены на корпусах Тайга, НКРЯ и Araneum. Заметим, что около 20% пользователей RusVectōrēs пользуются операционной системой Linux.
Большинство прошедших опрос (примерно 2/3) - студенты. Также среди опрошенных есть вузовские преподаватели, многие одновременно занимаются исследованиями и работают, и около трети от общего числа просто интересуются эмбеддингами.
При этом области знаний у подавляющего большинства опрошенных очень схожи: Natural Language Processing, Data Science и компьютерная лингвистика, теоретической лингвистикой занимаются примерно 17% опрошенных, а гуманитарными дисциплинами всего 13.8%.
Чаще всего знание о существовании RusVectōrēs передаётся от преподавателей студентам, но почти так же часто люди находят сайт сами в поисковиках или узнают о нём от коллег или однокурсников.
Две трети опрошенных скачивают модели и работают в своей среде, оставшейся трети для своих целей достаточно интерфейса сайта.
Соответственно, самым популярным разделом сайта оказались «Модели» далее по убыванию расположены «Похожие слова», «Различные операции», «Калькулятор» и (наименее популярные) «Визуализации». Также «Модели» заметно опередили все остальные разделы по степени полезности.
В целом, сайт представляется удобным для получения нужной информации — так считают 80% опрошенных, и примерно столько же человек (79%) совсем не используют существующие на сайте визуализации.
В то же время, все респонденты предложили нововведения в интерфейсе сайта. Так, больше половины опрошенных хотели бы легко определять близость слова к разным кластерам и использовать быстрые фильтры по частотности и частям речи. Почти такими же интересными оказались интерактивные графы из похожих слов, определение близости слова к центру кластера, в который оно входит, и возможность наложения на карту эмбеддингов данных семантической разметки НКРЯ. Большие семантические карты заинтересовали меньшинство респондентов. Мы постараемся реализовать те улучшения, которые получили наибольшую поддержку пользователей.
У нас ещё много планов по дальнейшему совершенствованию RusVectōrēs. Подписывайтесь на наш RSS и оставайтесь с нами!