ИИ так же хорошо диагностирует болезни, как и люди
Первый систематический обзор и метаанализ подобного рода показывают, что искусственный интеллект (ИИ) так же хорош для диагностики заболеваний, как и медицинские работники. Однако необходимы более качественные исследования.
Новое исследование показывает, что искусственный интеллект и медицинские работники одинаково эффективны при диагностике болезней на основе медицинских изображений.В новой статье исследуются существующие доказательства в попытке определить, может ли ИИ диагностировать болезни так же эффективно, как и медицинские работники.
Насколько известно авторам, то есть обширной группе исследователей во главе с профессором Аластером Деннистоном из Университетской больницы Бирмингема NHS Foundation Trust в Соединенном Королевстве, это первый систематический обзор, в котором сравнивается эффективность искусственного интеллекта с медицинскими работниками при всех заболеваниях.
Профессор Деннистон и его команда провели поиск в нескольких медицинских базах данных по всем исследованиям, опубликованным в период с 1 января 2012 года по 6 июня 2019 года. Команда опубликовала результаты своего анализа в журнале. Цифровое здоровье Lancet.
ИИ наравне с профессионалами в области здравоохранения
Исследователи искали исследования, в которых сравнивалась диагностическая эффективность алгоритмов глубокого обучения с эффективностью медицинских работников, которые ставили диагноз на основе медицинских изображений.
Они изучили качество отчетов в указанных исследованиях, их клиническую ценность и дизайн исследований.
Кроме того, когда дело дошло до оценки диагностической эффективности ИИ по сравнению с показателями специалистов в области здравоохранения, исследователи рассмотрели два результата: специфичность и чувствительность.
«Чувствительность» определяет вероятность того, что диагностический инструмент даст положительный результат у людей, страдающих этим заболеванием. Специфичность относится к точности диагностического теста, который дополняет показатель чувствительности.
В процессе отбора было получено только 14 исследований, качество которых было достаточно высоким, чтобы их можно было включить в анализ. Профессор Деннистон объясняет: «Мы просмотрели более 20 500 статей, но менее 1% из них были достаточно надежными по своему дизайну и сообщали, что независимые рецензенты полностью доверяли их утверждениям».
«Более того, только 25 исследований подтвердили модели ИИ извне (с использованием медицинских изображений из другой популяции), и только 14 исследований сравнили эффективность ИИ и специалистов в области здравоохранения с использованием одной и той же тестовой выборки».
«В рамках этой горстки высококачественных исследований мы обнаружили, что глубокое обучение действительно может обнаруживать различные заболевания, от рака до глазных болезней, так же точно, как и специалисты в области здравоохранения. Но важно отметить, что искусственный интеллект не намного превосходит человеческую диагностику ».
Проф. Аластер Деннистон
В частности, анализ показал, что ИИ может правильно диагностировать болезнь в 87% случаев, тогда как обнаружение специалистами здравоохранения дало точность 86%. Специфичность алгоритмов глубокого обучения составила 93% по сравнению с человеческими - 91%.
Предубеждения могут преувеличивать производительность ИИ
Профессор Деннистон и его коллеги также обращают внимание на несколько ограничений, которые они обнаружили в исследованиях, посвященных диагностической эффективности ИИ.
Во-первых, большинство исследований изучают ИИ и диагностическую точность медицинских работников в изолированной обстановке, которая не имитирует обычную клиническую практику - например, лишая врачей дополнительной клинической информации, которая им обычно нужна для постановки диагноза.
Во-вторых, говорят исследователи, в большинстве исследований сравнивались только наборы данных, тогда как качественные исследования диагностической эффективности потребовали бы таких сравнений на людях.
Кроме того, по словам авторов, все исследования страдали от плохой отчетности, когда в анализе не учитывалась информация, которая отсутствовала в указанных наборах данных. «В большинстве [исследований] не сообщалось, отсутствовали ли какие-либо данные, какую долю они представляли, и как отсутствующие данные учитывались в анализе», - пишут авторы.
Дополнительные ограничения включают непоследовательную терминологию, нечеткую установку пороговых значений для анализа чувствительности и специфичности, а также отсутствие валидации вне выборки.
«Существует внутреннее противоречие между желанием использовать новые, потенциально спасающие жизнь средства диагностики и настоятельной необходимостью разработать высококачественные доказательства, которые могут принести пользу пациентам и системам здравоохранения в клинической практике», - комментирует первый автор доктор Сяосюань Лю из Бирмингемский университет.
«Главный урок нашей работы заключается в том, что в искусственном интеллекте, как и в любой другой сфере здравоохранения, важен хороший дизайн исследования. Без этого вы легко можете внести предвзятость, которая исказит ваши результаты. Эти предубеждения могут привести к преувеличенным заявлениям о хорошей производительности инструментов искусственного интеллекта, которые не применяются в реальном мире ».
Доктор Сяосюань Лю
«Доказательства того, как алгоритмы искусственного интеллекта изменят исходы лечения пациентов, должны быть получены из сравнений с альтернативными диагностическими тестами в рандомизированных контролируемых испытаниях», - добавляет соавтор доктор Ливия Фэйс из офтальмологической клиники Мурфилдс, Лондон, Великобритания.
«До сих пор почти нет таких испытаний, в которых диагностические решения, принимаемые алгоритмом ИИ, используются, чтобы увидеть, что затем происходит с результатами, которые действительно важны для пациентов, такими как своевременное лечение, время до выписки из больницы или даже показатели выживаемости».