
🚀 @SBERLOGABIO webinar on bioinformatics:
👨🔬 Семен Стешин “Lo-Hi: Practical ML Drug Discovery Benchmark”
⌚️ Четверг 19 Октября, 18.00 (Moscow time)
Add to Google Calendar
ML модели сложно сравнить по качеству между собой. Особенно сложно сравнивать молекулярные модели, в которых проверка одного предсказания может стоить несколько тысяч долларов и занимает несколько месяцев.
Семен расскажет про свою новую работу с NeurIPS 2023 “Lo-Hi: Practical ML Drug Discovery Benchmark” в которой он рассматривает две задачи — Hit Identification и Lead Optimization — и сравнивает ML модели для предсказания молекулярных свойств. Он расскажет как разделять датасеты с помощью линейного программирования, чтобы избежать утечек теста, и расскажет про простую библиотеку для сплитинга.
Вы узнаете:
- Работает ли ML в химии или он просто заучивает трейн.
- Умеет ли ML различать небольшие модификации молекул.
- Какие модели лучше подходят для поиска новых молекул. Какие лучше подходят для оптимизации (это разные модели).
- Почему существующие бенчмарки не позволяют выбрать модели для реальных задач.
- Где граница между модификацией существующего лекарства и по-настоящему новой молекулой.
Приглашаются все причастные к разработке лекарств и все фрустрированные утечками теста в биохимическом ML. Доклад ~30 минут.
Тред в Твиттере: https://twitter.com/ZdarovaAll/status/1712085059073605929
Статья: https://arxiv.org/abs/2310.06399
Библиотека: https://github.com/SteshinSS/lohi_splitter
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: https://t.me/sberlogabio/63561
📹 Video: https://youtu.be/1IUHAtiyPso?si=zq4Lad-I5RUXq4w8
👨🔬 Семен Стешин “Lo-Hi: Practical ML Drug Discovery Benchmark”
⌚️ Четверг 19 Октября, 18.00 (Moscow time)
Add to Google Calendar
ML модели сложно сравнить по качеству между собой. Особенно сложно сравнивать молекулярные модели, в которых проверка одного предсказания может стоить несколько тысяч долларов и занимает несколько месяцев.
Семен расскажет про свою новую работу с NeurIPS 2023 “Lo-Hi: Practical ML Drug Discovery Benchmark” в которой он рассматривает две задачи — Hit Identification и Lead Optimization — и сравнивает ML модели для предсказания молекулярных свойств. Он расскажет как разделять датасеты с помощью линейного программирования, чтобы избежать утечек теста, и расскажет про простую библиотеку для сплитинга.
Вы узнаете:
- Работает ли ML в химии или он просто заучивает трейн.
- Умеет ли ML различать небольшие модификации молекул.
- Какие модели лучше подходят для поиска новых молекул. Какие лучше подходят для оптимизации (это разные модели).
- Почему существующие бенчмарки не позволяют выбрать модели для реальных задач.
- Где граница между модификацией существующего лекарства и по-настоящему новой молекулой.
Приглашаются все причастные к разработке лекарств и все фрустрированные утечками теста в биохимическом ML. Доклад ~30 минут.
Тред в Твиттере: https://twitter.com/ZdarovaAll/status/1712085059073605929
Статья: https://arxiv.org/abs/2310.06399
Библиотека: https://github.com/SteshinSS/lohi_splitter
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: https://t.me/sberlogabio/63561
📹 Video: https://youtu.be/1IUHAtiyPso?si=zq4Lad-I5RUXq4w8