New Yorko Times

Как появился attention

#coolstorybob #ml

Причины, по которым я порой смотрю доклады крутых чуваков даже на уже известные темы – это, во-первых, посмотреть, как люди презентуют, во-вторых, можно услышать всякие байки. И вообще эрудированных людей приятно слушать.

В этом вводном видео про трансформеры Andrej Karpathy упоминает статью 2015 года ”Neural Machine Translation by Jointly Learning to Align and Translate”, с которой все началось, и рассказывает про свою переписку с Dzmitry Bahdanau – первым автором. Дима написал Андрею длинный имейл с предысторией того, как он пришел к идее attention (вот этот момент в видео Karpathy). Про bottleneck между энкодером и декодером уже все знали, было много не самых удачных экспериментов. Потом Dzmitry задумался, а как же он сам переводит с одного языка на другой, и понял, что он постоянно прыгает взглядом между source-языком и target-языком. То есть чтоб произвести очередное слово в переводе (или понять, почему именно это слово стоит в готовом переводе), надо посмотреть на несколько слов в исходном предложении. Так Dzmitry смоделировал soft search через softmax – и это заработало прям с первой попытки. Что было дальше, вы знаете.

Кстати, сам термин “attention” предложил Bengio в одной из финальных правок статьи. Кто знает, как взлетела бы идея, если б не крутое запоминающееся название. Вот она мудрость отцов. Так и представляю: «так, Дима, покажи, что там навертел. О, так это ж Внимание!»