AI и Технологии

👨‍🏫 Оказывается ОpenAI обучила GPT-4 на миллионе часов видео с YouTube

The New York Times пишет, что в 2021 году OpenAI отчаянно нуждалась в данных для обучения GPT-4 и перевела в текст более миллиона часов видео с YouTube. Специально для этого компания разработала нейросеть Whisper. По данным NYT, в OpenAI понимали, что это сомнительный с юридической точки зрения способ, но сочли его допустимым.

На днях WSJ рассказал о том, что разработчики LLM исчерпали запасы полезных данных в интернете, которые можно было бы использовать для обучения AI. Теперь им приходится использовать синтетические наборы данных или брать любую информацию, до которой они могут дотянуться, независимо от того, есть у них на это разрешение или нет.

@AiMedium