🧠 Создатели Claude стали лучше понимать, что происходит внутри «мозгов» языковых моделей



Исследователи Anthropic заявили, что изучили внутренние концепции своей модели Claude Sonnet. И что это один из самых подробных отчётов по пониманию языковых моделей (LLM).



🪅LLM принято воспринимать как «чёрный ящик» — мы не знаем, как они работают и не можем их толком интерпретировать. Это может создать в будущем много проблем, в том числе проблем безопасности.



В целом, «мысли» модели представляют собой огромный список чисел, нейронов. И сам по себе он нам ни о чём не говорит. Однако, как выяснили исследователи, каждая концепция представлена через множество нейронов, и каждый нейрон участвует в представлении множества концепций. Эти концепции кодируются признаками.



🪅Благодаря особой технике, учёные успешно извлекли миллионы признаков из среднего слоя Claude 3.0 Sonnet, создав приблизительную концептуальную карту. На ней можно увидеть признаки, соответствующие огромному числу сущностей, таких как города, люди, химические элементы, научные области и синтаксис языков программирования.



Исследователи также смогли измерить своего рода «расстояния» между признаками. Так, при исследовании признака, связанного с понятием «внутренний конфликт», были найдены признаки, связанные с расставаниями в отношениях и логическими несоответствиями. Это показывает, что внутренняя организация концепций в модели соответствует, по крайней мере отчасти, нашим человеческим представлениям о сходстве. Возможно именно поэтому Claude может делать аналогии и метафоры.