Сотрудник лаборатории нейронных систем и глубокого обучения МФТИ Алексей Сорокин занял второе место на конкурсе GramEval-2020. Он разработал модель для автоматического определения морфологических и синтаксических характеристик слов в предложениях на русском языке.
Во время конкурса участники должны были создать системы, которые определяют морфологические характеристики слова (части речи), леммы слова и синтаксические отношения (зависимости). Алексей Сорокин разработал систему, основанную на предобученной языковой модели BERT для русского языка.
«Обычно языковая модель решает только задачу предсказания пропущенного слова, но ее можно дообучить на размеченных данных выполнять практически любую задачу обработки естественного языка. Мы это сделали еще в прошлом году: реализация была помещена в библиотеку DeepPavlov, — рассказывает Алексей. — В процессе соревнования выяснилось, что стандарты разметки отличаются от тех, которые были у меня, так что пришлось модифицировать выдаваемые признаки. Например, раньше я не размечал у прилагательного одушевленность, а сейчас потребовалось, и пришлось думать, как реализовать эту функцию. Также отличаются данные: моя исходная модель в основном училась на формальных текстах типа СМИ, а в выборке соревнования встречались стихи и соцсети. Пришлось дообучить модель на тех данных, которые предоставили организаторы».
В планах у Алексея — разработать систему, которая сможет не только показывать высокое качество на стандартных текстах, например, из СМИ, но и подстраиваться без потери точности под другие типы, например, стихи или тексты XVII–XIX веков.«Такие соревнования очень полезны: одно дело заботливо отлаживать модель, зная, что контрольная выборка плюс-минус похожа на настроенную, совсем другое — применить ее лишь к примерно понятной предметной области. Это как в спорте: результат на тренировочном стадионе и на незнакомой трассе пробега очень часто отличается. Так и здесь, большую часть времени я потратил на то, чтобы понять логику разметки организаторов, которая, по их собственному признанию, не всегда присутствовала. С другой стороны, результат абсолютно объективен и справедлив, поскольку все были в равных условиях. И увидеть своими глазами, что качество в 95% из статьи на реальных данных внезапно превращается в 80, дорогого стоит. На будущее хочется пожелать организаторам ответственнее подходить к задаче подготовки данных, потому что задача подобных соревнований — не просто понять, кто лучше пишет нейросети, а извлечь научные выводы. Впрочем, это мне в любом случае предстоит в будущих исследованиях, а соревнование здесь — хороший побудительный толчок», — добавил Алексей.
Конкурс проходил в рамках конференции Dialogue. Победитель определялся по следующим критериям:
- точность частеречных (POS) меток,
- точность морфологических признаков,
- LAS (точность определения синтаксического родителя и типа зависимости),
- точность лемматизации.