Рецепт тюна FRED-T5 от маэстро @inkoziev



Все после релиза просят, поэтому Илья любезно поделился.



Пример кода для файнтюна модели FRED T5 XL средствами transformers.Trainer на задаче читчата: https://gist.github.com/Koziev/b54e3759bd5eb198832a36e7cec82e51



Файл с данными: https://disk.yandex.ru/d/esx80z4utAGXGQ

Это русскоязычные диалоги из проекта OpenAssistent (https://huggingface.co/datasets/OpenAssistant/oasst1)

Данных специально немного, чтобы обучение было быстрым. На моей RTX 3090 управилось за полчаса. К ним можно долить еще русскоязычных данных, например отсюда https://huggingface.co/datasets/Den4ikAI/russian_instructions_2 или отсюда https://github.com/IlyaGusev/rulm/tree/master/self_instruct и т.д.



Запускать на 1 гпушке примерно так:



python finetune_chitchat_fredt5_with_trainer.py \

--optim "adafactor" \

--learning_rate 1e-4 \

--lr_scheduler_type constant \

--per_gpu_train_batch_size 1 \

--gradient_checkpointing 0 \

--gradient_accumulation_steps 16 \

--num_train_epochs 1 \

--report_to tensorboard \

--logging_strategy steps \

--logging_steps 500 \

--output_dir ~/polygon/chatbot/tmp/fredt5_chitchat \

--save_strategy no



пути конечно надо поправить на свои.



Код инференс из отфайнтюненной модели: https://gist.github.com/Koziev/e2f03ccdff1c83781092135e0364fec8



Удачи :)