(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIO webinar on bioinformatics:

👨‍🔬 Семен Стешин “Lo-Hi: Practical ML Drug Discovery Benchmark”

⌚️ Четверг 19 Октября, 18.00 (Moscow time)

Add to Google Calendar

ML модели сложно сравнить по качеству между собой. Особенно сложно сравнивать молекулярные модели, в которых проверка одного предсказания может стоить несколько тысяч долларов и занимает несколько месяцев.

Семен расскажет про свою новую работу с NeurIPS 2023 “Lo-Hi: Practical ML Drug Discovery Benchmark” в которой он рассматривает две задачи — Hit Identification и Lead Optimization — и сравнивает ML модели для предсказания молекулярных свойств. Он расскажет как разделять датасеты с помощью линейного программирования, чтобы избежать утечек теста, и расскажет про простую библиотеку для сплитинга.

Вы узнаете:

- Работает ли ML в химии или он просто заучивает трейн.

- Умеет ли ML различать небольшие модификации молекул.

- Какие модели лучше подходят для поиска новых молекул. Какие лучше подходят для оптимизации (это разные модели).

- Почему существующие бенчмарки не позволяют выбрать модели для реальных задач.

- Где граница между модификацией существующего лекарства и по-настоящему новой молекулой.

Приглашаются все причастные к разработке лекарств и все фрустрированные утечками теста в биохимическом ML. Доклад ~30 минут.

Тред в Твиттере: https://twitter.com/ZdarovaAll/status/1712085059073605929

Статья: https://arxiv.org/abs/2310.06399

Библиотека: https://github.com/SteshinSS/lohi_splitter

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://t.me/sberlogabio/63561

📹 Video: https://youtu.be/1IUHAtiyPso?si=zq4Lad-I5RUXq4w8