что-то на DL-ском

2 метода для semi-supervised learning

Авторы стать предлагают решения для обучения с недостатком размеченных данных.

Первый метод под названием П-model.

Алгоритм: Тренируем нейронную сеть с одним из способов dropout-а, (z) тренируем вторую сеть с использованием другого dropout-а (z'). Находим loss для размеченных данных посредством cross-entropy, складываем с loss-ом для неразмеченных данных посредством squared difference, умножая на вес ramp-up function.

Второй метод улучшает результаты, и получил он название Temporal ensembling.

🐸 Во-первых он снижает количество времени для трейна за счет того, что теперь наш алгоритм будет основываться на на 2 неронках, а на 1.

🐸 Во-вторых за счет тренировки без обновления веса, результат второй сети будут более зашумленные при использовании П-model

Алгоритм:

Все то же самое, но теперь мы берем как результат z' предыдущий output модели (шаг тренировки - 1). А вернее он находится формулой αZ + (1 − α)z/(1 − α^t), t – шаг обучения (возводим в степень для нормализации startup bias, так как на первом шаге z'=0). α – ensembling momentum

Подробнее в статье