Transformer – архитектура, которая использует механизм внимания для повышения скорости обучения. Она может достигать state-of-art результатов во многих задачах обработки естественного языка. Архитектура позволяет объединять информацию всех элементов последовательности в контекстно-зависимые представления. Однако механизм внимания серьезно мешает масштабированию модели для больших последовательностей. Улучшать Transformer модели можно за счет добавления обучаемой памяти для выборочного хранения как локальных, так и глобальных представлений последовательности.
На семинаре Михаил рассказал про два расширения модели Transformer: с добавлением токенов памяти для хранения нелокальных представлений и с созданием узкого места в памяти для хранения глобальной информации
Полный текст работы по ссылке. Запись семинара доступна по ссылке.