Интересная статья от Google Research с новым семейством архитектур - Titans. Объединили attention и отдельный модуль долгосрочной памяти. Сделали 3 варианта архитектуры - память как контекст/gate/слой. В результате модельки тренируются быстро, хорошо масштабируются, работают на контексте до 2 млн токенов. Ну и, как это обычно принято, бьют другие модели по метрикам (кто ж будет публиковать не SOTA).
Paper
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview