Михаил Бурцев — об экспериментах с Memory Transformer

23 июля в 18:00 руководитель проекта DeepPavlov Михаил Бурцев провел семинар, на котором рассказал про эксперименты с Memory Transformer.

Transformer – архитектура, которая использует механизм внимания для повышения скорости обучения. Она может достигать state-of-art результатов во многих задачах обработки естественного языка. Архитектура позволяет объединять информацию всех элементов последовательности в контекстно-зависимые представления. Однако механизм внимания серьезно мешает масштабированию модели для больших последовательностей. Улучшать Transformer модели можно за счет добавления обучаемой памяти для выборочного хранения как локальных, так и глобальных представлений последовательности.

На семинаре Михаил рассказал про два расширения модели Transformer: с добавлением токенов памяти для хранения нелокальных представлений и с созданием узкого места в памяти для хранения глобальной информации

Полный текст работы по ссылке. Запись семинара доступна по ссылке.