Как меня уже задолбал миф о том, что для того, чтобы делать интересные исследования, в том числе публиковаться на конференциях А* (NeurIPS, ICLR, ICML, ECCV, EMNLP, AAAI и т.д.), обязательно нужны сотни GPU/TPU, а еще что туда практически невозможно попасть.
По всей видимости, миф порождается тем, что знания об этих конференциях и вообще ML-исследованиях многие люди получают исключительно из новостей про наиболее хайповые статьи и демонстрации к ним.
На самом деле на каждой из этих конференций рассказывается/показывается несколько сотен (в случае NeurIPS больше двух тысяч) статей самого разного характера, при чем типичный acceptance rate обычно составляет около 20% и выше.
Часть статей на конференциях, посвященных определенной предметной области - например, текст или речь - вообще сосредоточена не на моделях машинного обучения, а на анализе области и уклоняется, соответственно, в компьютерную лингвистику или анализ звуковых сигналов; но даже среди тех статей, которые посвящены именно построению и анализу моделей машинного обучения, немало таких, которые сделаны с использованием всего нескольких либо нескольких десятков GPU. Вы же не думаете, что у каждого из тысяч исследовательских коллективов, которые прошли на эти конференции, были фермы из тысячи вычилителей?
Моя статья про Artificial Text Detection вообще была сделана на одной старой игровой видеокарте 1080ti... статья про Acceptability Judgements была сделана с использованием той же самой видеокарты плюс парочке других... статья про TDA in Speech опять была сделана на той же самой видеокарте плюс видеокарте из ноутбука. Для написания статей такого типа, как эти, большие вычислительные мощности просто не обязательны, 1-3 видеокарты достаточно.
Все популярные глубокие модели с кодом, открытым для исследований, имеют несколько версий, с несколькими возможными размерами, отчего можно проверять свои гипотезы не только на больших моделях, но и на сравнительно небольших. В научном исследовании не обязательно сразу делать что-то, что можно выпустить в продакшн и убить всех конкуретнов. Достаточно просто ставить и проверять интересные гипотезы. Далеко не все типы гипотез требуют модели максимального размера для того, чтобы их проверить и обсудить. Но зато многие инсайты, полученные из анализа небольших моделей, впоследствии получается отмасштабировать на большие (теми коллективами, у которых достаточно компьюта) либо впоследствии придумать что-то ещё, вдохновившись ими.
А если кто-то читает только статьи вида "мы абучили бальшую мадель и ана делает брррр", "мы падабрали прампты для чат гпт", "мы сабрали датасеты" (хотя чтобы действительно хороший датасет собрать, нужна работа мозга), "мы ускорили мадель на адин процент" и больше ничего, то примите мои соболезнования и посмотрите разборы по тегу #объяснения_статей .
За м*т, как говорится, извини.
По всей видимости, миф порождается тем, что знания об этих конференциях и вообще ML-исследованиях многие люди получают исключительно из новостей про наиболее хайповые статьи и демонстрации к ним.
На самом деле на каждой из этих конференций рассказывается/показывается несколько сотен (в случае NeurIPS больше двух тысяч) статей самого разного характера, при чем типичный acceptance rate обычно составляет около 20% и выше.
Часть статей на конференциях, посвященных определенной предметной области - например, текст или речь - вообще сосредоточена не на моделях машинного обучения, а на анализе области и уклоняется, соответственно, в компьютерную лингвистику или анализ звуковых сигналов; но даже среди тех статей, которые посвящены именно построению и анализу моделей машинного обучения, немало таких, которые сделаны с использованием всего нескольких либо нескольких десятков GPU. Вы же не думаете, что у каждого из тысяч исследовательских коллективов, которые прошли на эти конференции, были фермы из тысячи вычилителей?
Моя статья про Artificial Text Detection вообще была сделана на одной старой игровой видеокарте 1080ti... статья про Acceptability Judgements была сделана с использованием той же самой видеокарты плюс парочке других... статья про TDA in Speech опять была сделана на той же самой видеокарте плюс видеокарте из ноутбука. Для написания статей такого типа, как эти, большие вычислительные мощности просто не обязательны, 1-3 видеокарты достаточно.
Все популярные глубокие модели с кодом, открытым для исследований, имеют несколько версий, с несколькими возможными размерами, отчего можно проверять свои гипотезы не только на больших моделях, но и на сравнительно небольших. В научном исследовании не обязательно сразу делать что-то, что можно выпустить в продакшн и убить всех конкуретнов. Достаточно просто ставить и проверять интересные гипотезы. Далеко не все типы гипотез требуют модели максимального размера для того, чтобы их проверить и обсудить. Но зато многие инсайты, полученные из анализа небольших моделей, впоследствии получается отмасштабировать на большие (теми коллективами, у которых достаточно компьюта) либо впоследствии придумать что-то ещё, вдохновившись ими.
А если кто-то читает только статьи вида "мы абучили бальшую мадель и ана делает брррр", "мы падабрали прампты для чат гпт", "мы сабрали датасеты" (хотя чтобы действительно хороший датасет собрать, нужна работа мозга), "мы ускорили мадель на адин процент" и больше ничего, то примите мои соболезнования и посмотрите разборы по тегу #объяснения_статей .
За м*т, как говорится, извини.