Использование алгоритмов ИИ и блокчейна в медицинских исследованиях
Использование алгоритмов ИИ и блокчейна в медицинских исследованиях
Энг Лим Го (Интервью) – технический директор HPE по искусственному интеллекту.
Технология роевого обучения предполагает совместное машинное обучение на разнесенных узлах сети за счет обмена информацией и комбинирования полученных выводов с помощью смарт-контрактов блокчейн.
В какой степени сейчас ИИ используется в медицине?
Сегодня ИИ широко используется в самых разных областях медицины. Например, для выявления заболеваний и постановки диагноза, поиска и производства новых лекарственных средств, для диагностики с помощью медицинских снимков, в персонализированной медицине, при модификации поведения на основе машинного обучения, в «умных» медицинских картах, в клинических испытаниях и исследованиях, при сборе данных по принципу краудсорсинга, в лучевой терапии и при прогнозировании вспышек эпидемий.
Как удалось, используя алгоритмы ИИ, обойти правила защиты данных при обмене ими в медицинских исследованиях между странами?
Правила защиты данных должны соблюдаться, их нельзя игнорировать. Решение заключается в том, чтобы передавать алгоритмы к точкам хранения данных, а не наоборот. Это именно то, что мы можем сделать с помощью роевого обучения. В этом случае нет необходимости в перемещении данных между разными юрисдикциями. Это в некоторой степени освобождает от трудностей, связанных с соблюдением требований о трансграничной передаче данных.
Прошу несколько слов о технологии Swarm Learning, разработанной HPE.
Технология роевого обучения предполагает совместное машинное обучение на разнесенных узлах сети за счет обмена информацией и комбинирования полученных выводов с помощью смарт-контрактов блокчейн.
Какие особенности обмена информацией между различными узлами сети нужно учитывать в дополнении к специфике самих инструментов «машинного обучения»?
С помощью роевого обучения сами данные никогда не перемещаются за пределы рабочего периметра владельца данных – узлы обмениваются только выводами, полученными на основе обработанных данных. Машинное обучение происходит локально, в точке расположения источника данных.
Правильно ли я понял, что алгоритмы ИИ, не копируя ничего между площадками, обрабатывают данные на каждой из них и только результаты такой обработки высылаются в центральную систему? Таким образом конфиденциальная информация находится исключительно на исходных позициях?
Преимущество роевого обучения заключается в том, что здесь нет центрального узла, который собирает данные. Роевая сеть выступает в роли объединяющего элемента, в котором происходит обмен результатами обработки и анализа напрямую между всеми участниками обучения. Не существует ответственного лица, которое собирает все выводы или результаты. Таким образом, конфиденциальные данные остаются в источнике, и все участники роевого обучения имеют равный функционал.
Все-таки, существует ли что-то типа «центрального звена» или результирующие данные попадают в блокчейн и в равной степени доступны всем участникам исследования?
Центрального звена не существует. Обмен выводами и распространение комбинированного результата осуществляется через блокчейн с равным доступом для всех участников.
Такое обучение происходит на основе правил, которых все партнеры должны заранее согласовать, причем этот набор правил фиксируется в блокчейне. Насколько сложно бывает согласовать такие правила?
Процесс согласования никогда не бывает простым. Однако за счет «прозрачности» в происходящих процессах – без наличия центрального звена, которое контролирует или имеет единоличную власть над результатами – согласование проходит легче.
Блокчейн используется для того, чтобы не было возможности некоторым партнерам изменять заранее согласованные ими правила?
Да, всё верно. Ни один участник не может изменить согласованные ранее условия блокчейна. Более того, у участников нет поводов для нарушения правил.
Результаты обучения каждого узла собираются как параметры через блокчейн и обрабатывается системой. Кто из партнеров имеет приоритетный доступ к обработанным результатам?
У всех участников одинаковый приоритет. Конечно, на каждом этапе обучения существует лидер, который объединяет результаты. Однако никто из участников не может самостоятельно занять руководящую позицию, поскольку выбор лидера полностью случаен и динамичен.
Если медицинское исследование уже началось, но появляются еще партнеры, которые хотят участвовать в этом исследовании. Они должны согласиться с уже оговоренными правилами работы, или все партнеры вновь собираются и согласовывают новые правила?
Правила имеют одинаковую силу для всех участников. Включение новых партнеров во время цикла обучения возможно в динамике. Сначала происходит подключение «опоздавших» участников, и после этого происходит обмен результатами, согласно правилам присоединения к системе. Если все участники хотят определить новые правила, создается новая система и цикл обучения начинается заново. Кстати, такая схема также действует, если становятся доступны дополнительные наборы данных, которые необходимо учесть.
Каково максимальное число узлов в работающей системе или оно определяется только вычислительной мощностью системы?
До сих пор мы не сталкивались с ограничивающими факторами по максимальному числу узлов. Это в основном зависит от пропускной способности сетей между узлами и размерами самих моделей. На эффективность модели в большей мере может повлиять вычислительная мощность, необходимая для ее работы. К примеру, чем эффективнее модель, тем проще требования к локальным вычислительным ресурсам. Опять же, с помощью роевого обучения расширяется набор исходных данных во всех локациях. При этом нет необходимости переноса информации на центральную платформу, где «озеро данных» или пропускная способность могут оказаться узким местом.
Вашей системой было, например, проанализировано около 100 000 рентгеновских снимков грудной клетки. Сколько человек должны быть источниками медицинских данных, чтобы эти алгоритмы начали давать адекватные результаты? Ведь, для работы ИИ должны быть предоставлены именно Большие Данные.
Всё верно. Чем объемнее массив данных, на основе которого проходит обучение, тем лучше его результаты, они будут с меньшим количеством ошибок. У вас всегда должен быть статистически значимый объем выборки для получения качественных результатов. И здесь можно отметить ключевое преимущество роевого обучения: даже если у вас нет достаточно большого набора данных, вы все равно можете достичь оптимальных результатов, используя результаты других участников.
Исследование также показало, что Swarm Learning дает значительно более точные результаты по сравнению с обучением узлов по отдельности. Чем вы объясните такие результаты? Только увеличением объема данных для обучения?
Да, объем данных действительно вырос. Взгляните на это под таким углом: представьте один узел, который является центральной точкой сбора данных. Если у вас есть другая точка, которая также собирает данные, но не делится ими, комбинация таких независимых систем станет «суперсетом», то есть расширенным массивом данных. Ведь сейчас на практике мы не можем собрать все необходимые данные на одной площадке для обучения, особенно в случае с конфиденциальными медицинскими и по своей природе децентрализованными данными.
Журнал IT-News [№ 07/2021]
Источник: https://www.it-world.ru
Оригинал: https://www.it-world.ru/it-news/thoughts/176146.html