Зачем нужен программист, когда есть Devin?
Одним из обсуждаемых запусков в марте 2024 года стала нейросеть Devin от стартапа Cognition Labs. Она может самостоятельно создавать и развертывать приложения, вспоминать контекст на каждом шаге и самосовершенствоваться.
В компании говорят, что Devin умеет выполнять задачи разного уровня сложности, от поиска и исправления ошибок в кодовых базах до файнтюнинга LLM. Он может научиться использовать незнакомые для него технологии, если прочитает про них в статье.
Работает Devin примерно как реальный человек. Пользователь описывает ему задачу в чат-боте, а ИИ-инженер готовит подробный пошаговый план решения. Потом он приступает к реализации — пишет собственный код, исправляет его, проводит тесты и сообщает о ходе проекта в режиме реального времени. Если человеку что-то не понравилось, он может зайти в чат и дать ИИ команду исправить ситуацию.
Обозреватель Bloomberg пишет, что Devin действительно смог создать сайт с нуля за 5-10 минут и примерно за такое же время воссоздать веб-версию игры Pong. Пару раз автору приходилось подсказывать, как улучшить физику движения мяча в игре, и просить внести косметические изменения. Со всем этим Devin справился без проблем.
В тесте SWE-bench, где ИИ-ассистенты должны разбираться с проблемами из open-source проектов на GitHub, Devin (вроде как) смог правильно решить 13,86% задач без какой-либо помощи со стороны человека. Для сравнения, Claude 2 справился только с 4,80% проблем, а SWE-Llama-13b и GPT-4 — с 3,97% и 1,74% соответственно.
В Cognition говорят: секрет успеха их модели якобы в том, что она делает упор на «рассуждения». Обычно инструменты генеративного ИИ ориентируются на вероятность — то есть, например, предполагают, какое слово с наибольшей вероятностью будет следующим. Но Cognition считает, что именно умение ИИ рассуждать может «открыть новые возможности в широком спектре дисциплин».
Релиз сразу вызвал беспокойство у программистов. Кайл Шевлин, основатель и инженер-программист агентства Athagist, уже написал в X, что индустрия «пытается агрессивно заменить одну из немногих оставшихся работ, которая приносит законный доход среднему классу».
Но надо учитывать, что независимых тестов Devin пока не было — поэтому его реальная автономность под вопросом. Единственные бенчмарки были получены в рамках исследовательских тестирований самими его разработчиками. Да, цифра в 13,86% гораздо выше, чем у других решений, но это все еще очень немного — особенно по сравнению с опытным программистом, способным верно выполнить почти 100% задач.
Его можно использовать для несложных задач, но и в этом случае Devin не способен работать без постоянного человеческого надзора. По мнению технического директора Pixee.ai Аршана Дабирсиаги, Devin может справиться с очень небольшим спектром задач, и в кратковременной перспективе не сможет существенно повлиять на то, как строится работа разработчиков.
Также недавно в сети разошлось видео с говорящим названием Debunking Devin: «First AI Software Engineer» Upwork lie exposed! В нем в том числе сказано, что в демо-ролике решение Devin для Upwork на самом деле не соответствует требованиям заказчика (который просил инструкции по настройке, а не код), что Devin исправляет ошибки не в чужом исходном коде репозитория на GitHub, а в своих файлах, и что он выполняет бессмысленные команды и вносит плохие изменения в код.
На мой взгляд, проект пока что находится примерно на уровне GPT-Engineer — или даже хуже. В общем, кажется, что программистам можно немного расслабиться.
Одним из обсуждаемых запусков в марте 2024 года стала нейросеть Devin от стартапа Cognition Labs. Она может самостоятельно создавать и развертывать приложения, вспоминать контекст на каждом шаге и самосовершенствоваться.
В компании говорят, что Devin умеет выполнять задачи разного уровня сложности, от поиска и исправления ошибок в кодовых базах до файнтюнинга LLM. Он может научиться использовать незнакомые для него технологии, если прочитает про них в статье.
Работает Devin примерно как реальный человек. Пользователь описывает ему задачу в чат-боте, а ИИ-инженер готовит подробный пошаговый план решения. Потом он приступает к реализации — пишет собственный код, исправляет его, проводит тесты и сообщает о ходе проекта в режиме реального времени. Если человеку что-то не понравилось, он может зайти в чат и дать ИИ команду исправить ситуацию.
Обозреватель Bloomberg пишет, что Devin действительно смог создать сайт с нуля за 5-10 минут и примерно за такое же время воссоздать веб-версию игры Pong. Пару раз автору приходилось подсказывать, как улучшить физику движения мяча в игре, и просить внести косметические изменения. Со всем этим Devin справился без проблем.
В тесте SWE-bench, где ИИ-ассистенты должны разбираться с проблемами из open-source проектов на GitHub, Devin (вроде как) смог правильно решить 13,86% задач без какой-либо помощи со стороны человека. Для сравнения, Claude 2 справился только с 4,80% проблем, а SWE-Llama-13b и GPT-4 — с 3,97% и 1,74% соответственно.
В Cognition говорят: секрет успеха их модели якобы в том, что она делает упор на «рассуждения». Обычно инструменты генеративного ИИ ориентируются на вероятность — то есть, например, предполагают, какое слово с наибольшей вероятностью будет следующим. Но Cognition считает, что именно умение ИИ рассуждать может «открыть новые возможности в широком спектре дисциплин».
Релиз сразу вызвал беспокойство у программистов. Кайл Шевлин, основатель и инженер-программист агентства Athagist, уже написал в X, что индустрия «пытается агрессивно заменить одну из немногих оставшихся работ, которая приносит законный доход среднему классу».
Но надо учитывать, что независимых тестов Devin пока не было — поэтому его реальная автономность под вопросом. Единственные бенчмарки были получены в рамках исследовательских тестирований самими его разработчиками. Да, цифра в 13,86% гораздо выше, чем у других решений, но это все еще очень немного — особенно по сравнению с опытным программистом, способным верно выполнить почти 100% задач.
Его можно использовать для несложных задач, но и в этом случае Devin не способен работать без постоянного человеческого надзора. По мнению технического директора Pixee.ai Аршана Дабирсиаги, Devin может справиться с очень небольшим спектром задач, и в кратковременной перспективе не сможет существенно повлиять на то, как строится работа разработчиков.
Также недавно в сети разошлось видео с говорящим названием Debunking Devin: «First AI Software Engineer» Upwork lie exposed! В нем в том числе сказано, что в демо-ролике решение Devin для Upwork на самом деле не соответствует требованиям заказчика (который просил инструкции по настройке, а не код), что Devin исправляет ошибки не в чужом исходном коде репозитория на GitHub, а в своих файлах, и что он выполняет бессмысленные команды и вносит плохие изменения в код.
На мой взгляд, проект пока что находится примерно на уровне GPT-Engineer — или даже хуже. В общем, кажется, что программистам можно немного расслабиться.