
MathGLM: GPT умеет быть калькулятором
Один из самых спорных вопросов про GPT — насколько сильны её вычислительные способности. Или это всего лишь "стохастический попугай", который запомнил много всего и воспроизводит это в нужный момент?
У авторов MathGLM получилось обучить скромную 2B модель складывать, умножать, делить и потенциировать 9-значные (!) числа практически со стопроцентной точностью. При этом они внимательно следили, чтобы модель не видела ничего из теста заранее. Ещё авторы отдельно выделяют важность токенизатора (для чисел у них он char-level).
Лично я думаю, что трансформеры действительно могут выполнять точные вычисления, они ограничены лишь количеством своих слоёв и длиной контекста в chain-of-thought.
Статья
Один из самых спорных вопросов про GPT — насколько сильны её вычислительные способности. Или это всего лишь "стохастический попугай", который запомнил много всего и воспроизводит это в нужный момент?
У авторов MathGLM получилось обучить скромную 2B модель складывать, умножать, делить и потенциировать 9-значные (!) числа практически со стопроцентной точностью. При этом они внимательно следили, чтобы модель не видела ничего из теста заранее. Ещё авторы отдельно выделяют важность токенизатора (для чисел у них он char-level).
Лично я думаю, что трансформеры действительно могут выполнять точные вычисления, они ограничены лишь количеством своих слоёв и длиной контекста в chain-of-thought.
Статья