🗂 Исследование: 30% обучающего датасета для распознавания эмоций по тексту GoEmotions от Google содержит ошибки. Отчет опубликовали исследователи компании Surge AI.
Набор включает 58 000 англоязычных комментариев пользователей Reddit, распределенных на 27 категорий эмоций. Разработчики Surge AI выявили, что 308 из 1000 случайных сообщений промаркированы ошибочно.
🗣 Исследователи заявили, что основной проблемой датасета является отсутствие дополнительных метаданных комментариев. По их словам, «язык не живет в вакууме», поэтому без указания родительского поста невозможно понять контекст ответа.
————————————————
@DeepTechNET - Канал про тренды из мира IT, технологий, нейросетей и бизнеса.
Набор включает 58 000 англоязычных комментариев пользователей Reddit, распределенных на 27 категорий эмоций. Разработчики Surge AI выявили, что 308 из 1000 случайных сообщений промаркированы ошибочно.
🗣 Исследователи заявили, что основной проблемой датасета является отсутствие дополнительных метаданных комментариев. По их словам, «язык не живет в вакууме», поэтому без указания родительского поста невозможно понять контекст ответа.
————————————————
@DeepTechNET - Канал про тренды из мира IT, технологий, нейросетей и бизнеса.