Emergent autonomous scientific research capabilities of large language models
Статья про создание системы, которая объединяет несколько больших языковых моделей для автономного проектирования, планирования и выполнения научных экспериментов. В ней демонстрируются научно-исследовательские возможности Агента на трех различных примерах, самым сложным из которых является успешное проведение катализируемых реакций.
Авторы затрагивают многие аспекты, но в детали я погружаться не буду, поэтому тезисно:
— нашли библиотеку, которая позволяет писать код на Python, а затем передавать команды на исполнение в специальный аппарат для проведения экспериментов (со смешиванием веществ)
— прикрутили к GPT-4 поиск в интернете, поиск по документации библиотеки, а также возможность запускать код на Python (чтобы исполнять "эксперименты")
— плюс, есть верхнеуровневый планировщик (тоже GPT-4), который анализирует исходный запрос и составляет "план исследований"
— протестировали, что GPT-4 хорошо справляется с простыми нехимическими задачами вроде создания определенных фигур на химической плате (правильно веществами заполнить ячейки)
— попробовали более сложную и прикладную задачу на проведение реакции, модель справилась, причём действовала достаточно логично
— далее дали несколько задачек на проведение экспериментов, однако для того, что выдавала модель, реальные эксперименты не проводились (мало ли что она там придумала..?).
— причём в ходе работы модель несколько раз писала код для химических уравнений, чтобы понять, сколько вещества нужно для реакции
— в том числе попросили сделать лекарство от рака. Модель подошла к анализу логично и методично: сначала она "посмотрела" в интернете текущие тенденции в открытии противораковых препаратов. Дальше модель выбрала молекулу, на основе которой будет моделировать лекарство, и написала код для его синтеза. Люди не запускали код (и анализа его адекватности я не увидел, то есть хз, что модель предложила синтезировать)
— кроме этого, попросили синтезировать несколько опасных веществ вроде наркотиков и ядов. И....
Вот тут самое интересное. Для каких то запросов модель сразу отказалась работать (например, героин или боевой яд Иприт). Для других начала гуглить, но поняла, что от нее хотят чего-то плохого, и ОТКАЗАЛАСЬ ПРОДОЛЖАТЬ РАБОТУ🙏 Но для некоторых запросов все же написала план исследования и код для синтеза веществ.
Вот это вот "отказалась" — это результат Alignment'а модели командой OpenAI, чтобы модель понимала, что её просят делать что-то не то, и уходила в отказ. Это прям очень клёво, что заметен результат процедуры алайнмента.
И в конце статьи авторы призывают все крупные компании, разрабатывающие LLMки, уделять первостепенное внимание безопасности моделей.
Статья про создание системы, которая объединяет несколько больших языковых моделей для автономного проектирования, планирования и выполнения научных экспериментов. В ней демонстрируются научно-исследовательские возможности Агента на трех различных примерах, самым сложным из которых является успешное проведение катализируемых реакций.
Авторы затрагивают многие аспекты, но в детали я погружаться не буду, поэтому тезисно:
— нашли библиотеку, которая позволяет писать код на Python, а затем передавать команды на исполнение в специальный аппарат для проведения экспериментов (со смешиванием веществ)
— прикрутили к GPT-4 поиск в интернете, поиск по документации библиотеки, а также возможность запускать код на Python (чтобы исполнять "эксперименты")
— плюс, есть верхнеуровневый планировщик (тоже GPT-4), который анализирует исходный запрос и составляет "план исследований"
— протестировали, что GPT-4 хорошо справляется с простыми нехимическими задачами вроде создания определенных фигур на химической плате (правильно веществами заполнить ячейки)
— попробовали более сложную и прикладную задачу на проведение реакции, модель справилась, причём действовала достаточно логично
— далее дали несколько задачек на проведение экспериментов, однако для того, что выдавала модель, реальные эксперименты не проводились (мало ли что она там придумала..?).
— причём в ходе работы модель несколько раз писала код для химических уравнений, чтобы понять, сколько вещества нужно для реакции
— в том числе попросили сделать лекарство от рака. Модель подошла к анализу логично и методично: сначала она "посмотрела" в интернете текущие тенденции в открытии противораковых препаратов. Дальше модель выбрала молекулу, на основе которой будет моделировать лекарство, и написала код для его синтеза. Люди не запускали код (и анализа его адекватности я не увидел, то есть хз, что модель предложила синтезировать)
— кроме этого, попросили синтезировать несколько опасных веществ вроде наркотиков и ядов. И....
Вот тут самое интересное. Для каких то запросов модель сразу отказалась работать (например, героин или боевой яд Иприт). Для других начала гуглить, но поняла, что от нее хотят чего-то плохого, и ОТКАЗАЛАСЬ ПРОДОЛЖАТЬ РАБОТУ
Вот это вот "отказалась" — это результат Alignment'а модели командой OpenAI, чтобы модель понимала, что её просят делать что-то не то, и уходила в отказ. Это прям очень клёво, что заметен результат процедуры алайнмента.
И в конце статьи авторы призывают все крупные компании, разрабатывающие LLMки, уделять первостепенное внимание безопасности моделей.