Больших языковых моделей много не бывает: воркшоп BigScience завершает обучение самой большой, открытой и коллаборативной генеративной модели — BigScienceLLM на 176 млрд параметров. Аккуратно на 1 млрд параметров больше, чем у OpenAI :)
В Твиттере модели можно следить за ее обучением: 111 дней обучения прошли без проишествий и NaN, и желаемый лосс получен раньше: поэтому было принято решение еще немножко поучить) Сейчас модель обучена на 102%
Подсмотреть в Tensorboard обучения модели: https://huggingface.co/bigscience/tr11-176B-ml-logs/tensorboard
Модель удивляет меня, прежден всего, соотношением языков: сначала более-менее ожидаемо
English (30.3%), Chinese (17.7%), French (13.1%), Code (13%), Spanish (10.7%), Portuguese (5%), Arabic (3.3%), Vietnamese (2.5%), Catalan (1.1%), Indonesian (1.1%), Basque (0.2%)
а дальше начинается
Indic languages: Assamese (0.01%), Odia (0.04%), Gujarati (0.04%), Marathi (0.05%), Punjabi (0.05%), Kannada (0.06%), Nepali (0.07%), Telugu (0.09%), Malayalam (0.1%), Urdu (0.1%), Tamil (0.2%), Bengali (0.5%), Hindi (0.7%),
Niger-Congo languages: Chi Tumbuka (0.00002%), Kikuyu (0.00004%), Bambara (0.00004%), Akan (0.00007%), Xitsonga (0.00007%), Sesotho (0.00007%), Chi Chewa (0.0001%), Twi (0.0001%), Setswana (0.0002%), Lingala (0.0002%), Northern Sotho (0.0002%), Fon (0.0002%), Kirundi (0.0003%), Wolof (0.0004%), Luganda (0.0004%), Chi Shona (0.001%), Isi Zulu (0.001%), Igbo (0.001%), Xhosa (0.001%), Kinyarwanda (0.003%), Yoruba (0.006%), Swahili (0.02%)
Take-away points:
1) Многоязычность — это супер! Мы это давно знали, уже когда обучали mGPT. Но оставляем много вопросов сам выбор языков. Привнесут ли разницу малоресурсные языки в таком микроскопическом соотношении? И почему выбраны не репрезентативные выборки по языкам мира, а именно индо-арийские и нигеро-конголезские?
2) Код — это теперь "еще один язык" в мультиязычных моделях. Оооок
Что думаете об этом?
Github Twitter
В Твиттере модели можно следить за ее обучением: 111 дней обучения прошли без проишествий и NaN, и желаемый лосс получен раньше: поэтому было принято решение еще немножко поучить) Сейчас модель обучена на 102%
Подсмотреть в Tensorboard обучения модели: https://huggingface.co/bigscience/tr11-176B-ml-logs/tensorboard
Модель удивляет меня, прежден всего, соотношением языков: сначала более-менее ожидаемо
English (30.3%), Chinese (17.7%), French (13.1%), Code (13%), Spanish (10.7%), Portuguese (5%), Arabic (3.3%), Vietnamese (2.5%), Catalan (1.1%), Indonesian (1.1%), Basque (0.2%)
а дальше начинается
Indic languages: Assamese (0.01%), Odia (0.04%), Gujarati (0.04%), Marathi (0.05%), Punjabi (0.05%), Kannada (0.06%), Nepali (0.07%), Telugu (0.09%), Malayalam (0.1%), Urdu (0.1%), Tamil (0.2%), Bengali (0.5%), Hindi (0.7%),
Niger-Congo languages: Chi Tumbuka (0.00002%), Kikuyu (0.00004%), Bambara (0.00004%), Akan (0.00007%), Xitsonga (0.00007%), Sesotho (0.00007%), Chi Chewa (0.0001%), Twi (0.0001%), Setswana (0.0002%), Lingala (0.0002%), Northern Sotho (0.0002%), Fon (0.0002%), Kirundi (0.0003%), Wolof (0.0004%), Luganda (0.0004%), Chi Shona (0.001%), Isi Zulu (0.001%), Igbo (0.001%), Xhosa (0.001%), Kinyarwanda (0.003%), Yoruba (0.006%), Swahili (0.02%)
Take-away points:
1) Многоязычность — это супер! Мы это давно знали, уже когда обучали mGPT. Но оставляем много вопросов сам выбор языков. Привнесут ли разницу малоресурсные языки в таком микроскопическом соотношении? И почему выбраны не репрезентативные выборки по языкам мира, а именно индо-арийские и нигеро-конголезские?
2) Код — это теперь "еще один язык" в мультиязычных моделях. Оооок
Что думаете об этом?
Github Twitter