Прямо сейчас алгоритмы машинного обучения автоматизируют рутину врачей, ускоряют разработку новых препаратов и диагностируют болезни на ранней стадии. Специально для Indicator.Ru выпускник Школы анализа данных Яндекса, сотрудник калифорнийского стартапа Herophilus Алексей Рогожников объяснил, что общего у искусственного интеллекта с медициной и как из математики попасть в биотехнологии.Из математики в биотех Люди приходят в биотех разными путями: кто-то увлекается биологией с детства, а меня всегда тянуло к математике и теоретической физике. После окончания Школы анализа данных я участвовал в совместных проектах Яндекса и CERN, потом занимался синтезом речи и распознаванием лиц в Samsung Research. Именно в ШАДе понял, что решение прикладных задач может быть увлекательным. Биотех — практическая отрасль, каждый второй стартап или пытается победить болезни, которые кажутся неизлечимыми, или, как минимум, борется за повышение качества жизни. Вот простой пример, который объясняет, зачем в биотехе математика: база данных Европейского института биоинформатики содержит около 40 петабайт данных о генах, белках и молекулах, и этот объем ежегодно удваивается. Такой массив невозможно обработать вручную — на помощь приходит машинное обучение. Сегодня именно компьютерные алгоритмы решают сложные проблемы в медицинских исследованиях. К примеру, компьютерное зрение, одна из отраслей машинного обучения, уже меняет процесс разработки новых лекарств. Оно позволяет буквально взглянуть на клетку в целом: алгоритм различает отдельные клетки по внешнему виду. Система автоматически тестирует тысячи веществ в разных дозировках на тысячах клеток и если под воздействием одного из них клетки визуально изменились, стали похожи на здоровые, алгоритм делает вывод, что у тестируемого соединения есть терапевтический потенциал. Недавно ученые Массачусетского технологического института применили алгоритмы глубокого обучения (deep learning) для поиска эффективных лекарств против коронавирусной инфекции. Для этого они обучили нейросеть, которая прогнозирует синергию комбинации препаратов, моделируя структурные особенности изучаемых соединений и характерных для болезни биологических мишеней. В последние годы активно развиваются большие лингвистические модели, генерирующие связный и правдоподобный текст (пожалуй, самый известный российский пример — созданная в Яндексе YaLM). Теперь их используют и для анализа белковых последовательностей. Ведь ДНК, РНК и белки — это тоже последовательность символов, почему бы не обрабатывать их похожим образом? Модели и подходы, которые извлекают информацию из текста и определяют его эмоциональный окрас, также неплохо различают разные группы белков по их аминокислотным последовательностям. Машинное обучение для органоидов Мы в Herophilus выращиваем органоиды для тестирования лекарств против болезней центральной нервной системы, например, болезней Паркинсона и Альцгеймера. Органоиды — это, по сути, маленькие кусочки мозга в пробирке. Чтобы создать органоид, нужно взять любые донорские клетки и репрограммировать их в стволовые, из которых уже можно выращивать органоиды, имеющие донорский генотип. В отличие от клеточных культур, в состав органоидов входит множество разных типов клеток, поэтому они довольно точно моделируют ткань мозга. Это делает их перспективной моделью для исследования заболеваний центральной нервной системой и проверки того, как работают различные терапевтические препараты. Машинное обучение подключается уже на стадии выращивания органоида: микроскоп регулярно его фотографирует, а алгоритмы анализируют полученные изображения. Это позволяет отслеживать изменения органоидов, их размер и структуру, чтобы убедиться, что процесс роста не нарушен и органоид получается таким, какой нужен. Когда мы приступаем непосредственно к поиску лекарств, без компьютерного зрения тоже не обойтись. Оно помогает детектировать изменение характеристик больного органоида — например, у туберозного склероза отличия обнаруживаются на уровне организации ткани. Необходимо найти препарат, который сможет обратить изменения, при этом ничего не сломав в самом органоиде. Чтобы искать лекарства эффективно, нужно точно знать, какие именно клетки поражены и каким образом. Для этого применяется более глубокий метод анализа — поклеточное секвенирование, который позволяет увидеть, что в конкретном типе клеток есть расхождение в экспрессии определенных белков. Далее исследователи ищут способ отрегулировать уровень белка, влияя непосредственно на уровень экспрессии различных генов. Если нашли ген, который надо подавить, чтобы состояние пришло в норму, начинается следующий этап. Здесь подбирают молекулы, способные связываться с соответствующим белком и блокировать его функцию. Это существенно снижает пространство поиска кандидатов в лекарства. Наконец, каждое вещество необходимо проверить — здесь модель компьютерного зрения поможет понять, что органоид в целом похож на здоровый, а его нейронная активность стала ближе к норме. На что еще стоит обратить внимание Органоиды — лишь небольшая часть бурно растущей отрасли. В 2020 году аналитики оценивали объем всего рынка биотехнологий в 752,88 млрд долларов. Стартапы в России и мире разрабатывают решения, которые помогают как медикам, так и пациентам. К примеру, бостонский стартап PathAI специализируется на диагностике и лечении рака. Его алгоритмы находят биомаркеры заболевания и прогнозируют реакцию конкретного пациента на различные виды терапии, что позволяет составить персональный план лечения. Российский проект iPavlov Smart Clinic Platform призван способствовать принятию верных врачебных решений. Для этого он использует компьютерное зрение, автоматизирующее анализ ЭКГ и компьютерной томографии. Atomwise решает проблему разработки новых лекарств. Обучившись на результатах взаимодействия миллионов молекул, его алгоритмы предсказывают эффективность того или иного препарата-кандидата, а также предлагают варианты возможных лекарств против конкретных заболеваний. Наконец, команда Spring Discovery поставила перед собой амбициозную цель — победить старение. С помощью алгоритмов машинного обучения этот стартап исследует накапливающиеся с возрастом повреждения организма, чтобы устранить их и увеличить продолжительность полноценной жизни. И это лишь самый поверхностный слой лавины, который вскоре накроет медицину. Работая вместе с медиками и биологами, алгоритмы машинного обучения смогут обеспечить прорывы во многих областях и сделают жизнь миллионов людей комфортнее.