Написала вчера ревью на ЛеКуна. Поверх Шмидхубера.
Почему и что случилось?
В споре AGI good/ AGI bad прибавилось аргументов: на OpenReview 27 июня стала доступна статья Яна ЛеКуна "A Path Towards Autonomous Machine Intelligence"
Статья начинается с любопытного примечания автора: "This document is not a technical nor scholarly paper in the traditional sense". В целом, обычно такие слова предвосхищают (наконец!) выражение собственной позиции, пропущенной через личный опыт. Что крайне интересно в случае Head of Fundamental AI Research.
В статье автор предлагает свое видение глобальной архитектуры нейросети, которая будет содержать репезентации мира, объектов и людей, будет способна планировать и обновляться.
Предлагаемая архитектура - иерархическая, в парадигме non-contrastive self-supervised learning.
Последние годы DL работы много опираются на интердисциплинарные исследования, особенно в теме нейронаук.
Поскольку одна из гипотез работы состоит в том, что животные и люди имеют модели мира где-то в их префронтальной коре, я внесу небольшой комментарий по общим вопросам верифицируемости и фальсифицируемости.
Проблема 1. Глубокое обучение в настоящее время использует терминологию, которая все еще эксплуатирует метафору "мозг-компьютер" или биологические явления (внимание, подкрепление, нейронные сети, зоопарк, память и т. д.). Это может создать иллюзию того, что известные конструкции можно перемещать в модели; однако это не так, поскольку у них самих часто возникают проблемы с фальсифицируемостью.
В dl, в отличие от принятого методологически порядка "сначала гипотеза - потом эксперимент", гипотезы следуют уже после эксперимента (а почему так вышло?), и вполне нормализовано использование только критерия верифицируемости (бенчмарки, методы интерпретации - заработало и ладно). Но в каких условиях мы должны протестировать модель, чтобы исследовать ее пределы, и нужна ли корректировка исходной гипотезы?
Проблема 2. В то же время междисциплинарный поиск новых идей в DL часто «сводится» к поиску не самой фальсифицируемой, достоверной и функциональной когнитивной схемы, а наиболее удобной для реализации.
Например, работа Канемана «Думай быстро и медленно» оказалась очень удобной для объяснения задач, которые в настоящее время выполняются хорошо, и задач, которые в настоящее время выполняются плохо (L1 L2 deep learning по Бенжио). Однако почему это не может быть удобным совпадением? Также по совпадению, схема модульности Джеффри Фодора не получила признания.
С точки зрения элиминативного материализма такие термины, как commonsense или reasoning, не существуют, но активно используются в дл. С другой стороны, измеримые функции, такие как inhibitory control и другие executive functions коры, вообще не учитываются в обосновании новых архитектур.
Вопрос в том, что методологически должно быть биологическим или нейронаучным обоснованием такой архитектуры, которая не будет наследовать проблемы всех дисциплин.
Возможные решения?
В то время как мы используем критерий верифицируемости, то работы, которые выделяются новыми фундаментальными подходами к междисциплинарным исследованиям, также должны иметь соображения о фальсифицируемости. Многое можно сделать именно для объединения усилий в междисциплинарной разработке такого аппарата, который позволил бы напрямую и оперативно направлять новые нейробиологические результаты на архитектурные гипотезы мл.
Мы требует от исследователей как можно полнее описывать возможные ограничения, ethical considerations, нецелевые применения и неправомерное использование (что действительно является правильным, это важная частью научной работы), но, тем не менее, на данный момент описание каких-либо условий фальсификации не требуется вообще.
Я искренне надеюсь, что это должно стать следующим серьезным направлением, улучшающим метододогию таких среьезных работ.
Почему и что случилось?
В споре AGI good/ AGI bad прибавилось аргументов: на OpenReview 27 июня стала доступна статья Яна ЛеКуна "A Path Towards Autonomous Machine Intelligence"
Статья начинается с любопытного примечания автора: "This document is not a technical nor scholarly paper in the traditional sense". В целом, обычно такие слова предвосхищают (наконец!) выражение собственной позиции, пропущенной через личный опыт. Что крайне интересно в случае Head of Fundamental AI Research.
В статье автор предлагает свое видение глобальной архитектуры нейросети, которая будет содержать репезентации мира, объектов и людей, будет способна планировать и обновляться.
Предлагаемая архитектура - иерархическая, в парадигме non-contrastive self-supervised learning.
Последние годы DL работы много опираются на интердисциплинарные исследования, особенно в теме нейронаук.
Поскольку одна из гипотез работы состоит в том, что животные и люди имеют модели мира где-то в их префронтальной коре, я внесу небольшой комментарий по общим вопросам верифицируемости и фальсифицируемости.
Проблема 1. Глубокое обучение в настоящее время использует терминологию, которая все еще эксплуатирует метафору "мозг-компьютер" или биологические явления (внимание, подкрепление, нейронные сети, зоопарк, память и т. д.). Это может создать иллюзию того, что известные конструкции можно перемещать в модели; однако это не так, поскольку у них самих часто возникают проблемы с фальсифицируемостью.
В dl, в отличие от принятого методологически порядка "сначала гипотеза - потом эксперимент", гипотезы следуют уже после эксперимента (а почему так вышло?), и вполне нормализовано использование только критерия верифицируемости (бенчмарки, методы интерпретации - заработало и ладно). Но в каких условиях мы должны протестировать модель, чтобы исследовать ее пределы, и нужна ли корректировка исходной гипотезы?
Проблема 2. В то же время междисциплинарный поиск новых идей в DL часто «сводится» к поиску не самой фальсифицируемой, достоверной и функциональной когнитивной схемы, а наиболее удобной для реализации.
Например, работа Канемана «Думай быстро и медленно» оказалась очень удобной для объяснения задач, которые в настоящее время выполняются хорошо, и задач, которые в настоящее время выполняются плохо (L1 L2 deep learning по Бенжио). Однако почему это не может быть удобным совпадением? Также по совпадению, схема модульности Джеффри Фодора не получила признания.
С точки зрения элиминативного материализма такие термины, как commonsense или reasoning, не существуют, но активно используются в дл. С другой стороны, измеримые функции, такие как inhibitory control и другие executive functions коры, вообще не учитываются в обосновании новых архитектур.
Вопрос в том, что методологически должно быть биологическим или нейронаучным обоснованием такой архитектуры, которая не будет наследовать проблемы всех дисциплин.
Возможные решения?
В то время как мы используем критерий верифицируемости, то работы, которые выделяются новыми фундаментальными подходами к междисциплинарным исследованиям, также должны иметь соображения о фальсифицируемости. Многое можно сделать именно для объединения усилий в междисциплинарной разработке такого аппарата, который позволил бы напрямую и оперативно направлять новые нейробиологические результаты на архитектурные гипотезы мл.
Мы требует от исследователей как можно полнее описывать возможные ограничения, ethical considerations, нецелевые применения и неправомерное использование (что действительно является правильным, это важная частью научной работы), но, тем не менее, на данный момент описание каких-либо условий фальсификации не требуется вообще.
Я искренне надеюсь, что это должно стать следующим серьезным направлением, улучшающим метододогию таких среьезных работ.