Читал сегодня утром исследование "TinyStories: На сколько маленькие языковые модели могут разговаривать согласованным языком". Очень интересно.



Это исследование показывает, как упрощенный набор данных (TinyStories), состоящий из коротких рассказов, которые включают только слова, в основном понятные 3-4-летним детям, можно использовать для обучения маленьких языковых моделей (SLM). Вот здесь можно посмотреть эти данные. Оказывается SLM, несмотря на то, что они намного меньше передовых моделей, все же могут создавать ясные, последовательные и грамотные рассказы. Они способны рассуждать и эффективно генерировать текст, даже с ограниченным вводом.



Еще один интересный момент - это то, как оценивались результаты работы моделей. Вместо традиционных методов бенчмаркинга, использовали GPT-4, чтобы "оценить" рассказы, созданные SLM, имитируя отношения ученик-учитель. Этот подход позволяет преодолеть ограничения стандартных способов, которые часто требующих очень структурированных результатов.



Исследователи наблюдали стадии появление языковых способностей в LM. Грамматические и синтаксические способности появляются раньше, чем способность генерировать последовательный и, в конечном итоге, творческий текст. Так что можно на реальном примере посмотреть, как AI может постепенно учиться.



Кстати, я узнал про TinyStories из этого проекта показывающего как обучать Llama2 прямо на вашем компьютере.



Midjourney prompt: Small language model learning in a fairytale world