Нейросети помогают в изучении генома человека



Вы не поверите, но я снова про биоинформатику. Нравится мне эта тема, ничего не могу поделать.



На AI Journey Ольга Кардымон и Михаил Бурцев из Института искусственного интеллекта AIRI рассказали про GENA-LM — первую нейросетевую модель, обученную на полной сборке генома человека. Сейчас объясню, почему это круто.



В чём суть



Для начала маленькая справка из курса школьной биологии. Геном — это совокупность наследственного материала, заключённого в клетку. У человека и большинства других живых организмов он построен из ДНК — длинной цепи, которую можно представить как «текст», закодированный чередованием 4 «букв» — нуклеотидов.



Размер генома человека — более 3 млрд таких символов. Если распечатать этот «текст» на бумаге, получится 78 000 страниц. Однако только 1500 страниц (менее 2% генома) используются организмом для кодирования генов, с которых образуются молекулы РНК, участвующие в синтезе белков. Именно эту последовательность исследователи изучили лучше всего.



Про остальные 98% генома до сих пор очень мало известно. Долгое время считалось, что эта информация вообще бесполезна. Но затем исследователи выяснили, что именно там скрыты элементы, которые регулируют работу человеческих генов. Нейросети могут помочь в изучении этих участков.



Как работает GENA-LM



Как отметил один из авторов доклада Михаил Бурцев, эволюция описала живые организмы при помощи ДНК подобно тому, как люди описывают мир вокруг при помощи слов. А значит, для изучения генома можно применять NLP-модели.



Именно так поступили авторы проекта DNABERT, которые использовали методы обработки естественного языка для расшифровки последовательностей ДНК. В качестве основы они взяли популярную языковую модель BERT, но вместо текстов «скормили» ей данные о геноме.



Создатели GENA-LM усовершенствовали эту идею. Они применили алгоритм BPE (Byte Pair Encoding, кодирование пар байтов) для токенизации входных данных. Проще говоря, объединили часто встречающиеся группы символов в токены и добавили в «словарь». Это позволило сократить размер входных данных, что, в свою очередь, дало возможность обрабатывать значительно более длинные последовательности нуклеотидов.



Для сравнения, если DNABERT может обрабатывать не более 512 нуклеотидов за один раз, то GENA-LM принимает на вход до 4000 нуклеотидов.



Другое преимущество GENA-LM в том, что модель обучали на наиболее полной сборке генома человека.



Где это можно применять



Окей, а зачем это всё вообще нужно? На самом деле у такой модели очень много полезных применений. С её помощью можно:



🧬Определить, являются ли полученные при секвенировании генов сигналы мутацией, или это просто ошибка оборудования

🧬Выявить класс патогенности мутации

🧬Определить, является ли мутация причиной того или иного заболевания

🧬Узнать, включается ли у пациента тот метаболический путь, который снижает эффективность отдельной группы антибиотиков

🧬Предсказывать экспрессию генов



И это, конечно, далеко не всё, что умеет GENA-ML. Но, кажется, пост и так уже получился длинным.



Кстати, модель может потестить любой желающий. Вот ссылки на HuggingFace и на GitHub.