Зато есть интересные мысли на тему искуственного интеллекта в заметке Abstraction, Reasoning and Deep Learning: A Study of the "Look and Say" Sequence: https://arxiv.org/abs/2109.12755

Автор - бывший сотрудник IBM, много лет работавший над проектом Watson; сейчас он ушел в академию, стал профессором и интересуется теоретическими исследованиями в сфере ML/NLP.



По сути, вся статья - это рассуждение вокруг того, что нейросети любят демонстрировать нам competence without comprehension, на примере "Look and Say" последовательности. Краткое описание последовательности есть тут: https://mathworld.wolfram.com/LookandSaySequence.html . Чтобы научиться продолжать эту последовательность, многим людям достаточно просто посмотреть на несколько примеров, подумать и сделать логическое заключение о закономерности. Далее человек, который понял закономерность, может продолжать последовательность без ошибок, начиная с любого члена. Нейросети же (две небольшие LSTM и attention-based модельки) справляются с задачей так себе. Даже если они обучаются на миллионах примеров и формально достигают хорошей точности классификации, то иногда все равно непредсказуемым образом делают какие-то неадекватные ошибки, которые демонстрируют отсутствие понимания логики последовательности.

Автор связывает это с тем, что нейросети хорошо аппроксимируют непрерывные функции (распространенные архитектуры являются универсальными аппроксиматорами на данном классе функций), а вот если функция такова, что ее "сложно" приблизить с помощью непрерывной, начинаются серьезные проблемы. Под "сложностью" интуитивно понимается в первую очередь отсутствие логичного, однозначного способа такого приближения.

У меня была и другая мысль на эту тему: на мой взгляд, проблема трансформеров с numeracy задачами лежит не только и не столько в самой архитектуре, сколько в способе токенизации текста, состоящего из чисел/цифр. Так, стандартные токенизаторы из HuggingFace делают это довольно бессмысленным образом. Например, число, состоящее из 1й цифры и из 2х цифр могут оба кодироваться последовательностью из одного токена, а число, состоящее из 4х цифр - двумя токенами. С точки зрения понимания сути числа, в этом нет логики, и это может запутывать модель. Но тут автор использовал для токенизации какую-то простую функцию из Keras, которая, если я правильно поняла, должна кодировать каждую цифру одним токеном.



Под конец автор высказывает интересную, хотя и не законченную мысль, что проблему с неоднозначностью адекватного непрерывного приближения таких задач можно поискать в области топологии. Дело в том, что в топологических пространствах понятие непрерывности можно вводить более гибко, чем в метрических, вообще не используя концепцию расстояния. Например, с помощью топологического понятия непрерывности можно однозначно задать непрерывную функцию на конечном множестве точек, не заботясь о том, как эти точки вложены в R^n. А именно такая функция может лучше подойти для моделирования логической задачки типа Look and Say. Так что, возможно, если мы научим нейросети приближать функции на пространствах с какой-то более абстрактной топологией, не оглядываясь на метрику, то у нас получится решать более широкий класс задач. Однако, проблема заключается в том, что тогда придется придумать новый аналог градиентного спуска с обратным распространением ошибки (или вообще другой алгоритм обучения), ведь обычный backprop без метрики не работает.



P.S. На этом моменте я вспомнила, что Розенблат обучал свой перцептрон без градиентного спуска и даже, как говорят, придумал какой-то зародыш backprop-а без градиента, описанный в "Принципах нейродинамики" ( https://safari.ethz.ch/digitaltechnik/spring2018/lib/exe/fetch.php?media=neurodynamics1962rosenblatt.pdf ). Но, блин, "Принципы нейродинамики" - это сложно написанная колдовская книга из 60-х на 600 страницах, и у меня сейчас не настолько много времени и сил, чтобы выискивать там этот алгоритм. Мб кто-то знает более легко усваиваемое изложение материала данного манускрипта для современных техноведьмочек, живущих в ритме 2к22? 🤔🤔🤔



#объяснения_статей