В OpenAI придумали новую систему вознаграждения для роботов.



Если раньше большинство стратегий обучения роботов (и людей) сводились к оценке с точки зрения числа удачных и неудачных попыток, то сегодня новый алгоритм от OpenAI полностью меняет этот подход. Алгоритм рассматривает каждую неудачную попытку не как поражение, а как шаг на пути к успеху.



Читать полностью: http://amp.gs/x5Ft