ИИ так же хорошо диагностирует болезни, как и люди

Первый систематический обзор и метаанализ подобного рода показывают, что искусственный интеллект (ИИ) так же хорош для диагностики заболеваний, как и медицинские работники. Однако необходимы более качественные исследования.

Новое исследование показывает, что искусственный интеллект и медицинские работники одинаково эффективны при диагностике болезней на основе медицинских изображений.

В новой статье исследуются существующие доказательства в попытке определить, может ли ИИ диагностировать болезни так же эффективно, как и медицинские работники.

Насколько известно авторам, то есть обширной группе исследователей во главе с профессором Аластером Деннистоном из Университетской больницы Бирмингема NHS Foundation Trust в Соединенном Королевстве, это первый систематический обзор, в котором сравнивается эффективность искусственного интеллекта с медицинскими работниками при всех заболеваниях.

Профессор Деннистон и его команда провели поиск в нескольких медицинских базах данных по всем исследованиям, опубликованным в период с 1 января 2012 года по 6 июня 2019 года. Команда опубликовала результаты своего анализа в журнале. Цифровое здоровье Lancet.

ИИ наравне с профессионалами в области здравоохранения

Исследователи искали исследования, в которых сравнивалась диагностическая эффективность алгоритмов глубокого обучения с эффективностью медицинских работников, которые ставили диагноз на основе медицинских изображений.

Они изучили качество отчетов в указанных исследованиях, их клиническую ценность и дизайн исследований.

Кроме того, когда дело дошло до оценки диагностической эффективности ИИ по сравнению с показателями специалистов в области здравоохранения, исследователи рассмотрели два результата: специфичность и чувствительность.

«Чувствительность» определяет вероятность того, что диагностический инструмент даст положительный результат у людей, страдающих этим заболеванием. Специфичность относится к точности диагностического теста, который дополняет показатель чувствительности.

В процессе отбора было получено только 14 исследований, качество которых было достаточно высоким, чтобы их можно было включить в анализ. Профессор Деннистон объясняет: «Мы просмотрели более 20 500 статей, но менее 1% из них были достаточно надежными по своему дизайну и сообщали, что независимые рецензенты полностью доверяли их утверждениям».

«Более того, только 25 исследований подтвердили модели ИИ извне (с использованием медицинских изображений из другой популяции), и только 14 исследований сравнили эффективность ИИ и специалистов в области здравоохранения с использованием одной и той же тестовой выборки».

«В рамках этой горстки высококачественных исследований мы обнаружили, что глубокое обучение действительно может обнаруживать различные заболевания, от рака до глазных болезней, так же точно, как и специалисты в области здравоохранения. Но важно отметить, что искусственный интеллект не намного превосходит человеческую диагностику ».

Проф. Аластер Деннистон

В частности, анализ показал, что ИИ может правильно диагностировать болезнь в 87% случаев, тогда как обнаружение специалистами здравоохранения дало точность 86%. Специфичность алгоритмов глубокого обучения составила 93% по сравнению с человеческими - 91%.

Предубеждения могут преувеличивать производительность ИИ

Профессор Деннистон и его коллеги также обращают внимание на несколько ограничений, которые они обнаружили в исследованиях, посвященных диагностической эффективности ИИ.

Во-первых, большинство исследований изучают ИИ и диагностическую точность медицинских работников в изолированной обстановке, которая не имитирует обычную клиническую практику - например, лишая врачей дополнительной клинической информации, которая им обычно нужна для постановки диагноза.

Во-вторых, говорят исследователи, в большинстве исследований сравнивались только наборы данных, тогда как качественные исследования диагностической эффективности потребовали бы таких сравнений на людях.

Кроме того, по словам авторов, все исследования страдали от плохой отчетности, когда в анализе не учитывалась информация, которая отсутствовала в указанных наборах данных. «В большинстве [исследований] не сообщалось, отсутствовали ли какие-либо данные, какую долю они представляли, и как отсутствующие данные учитывались в анализе», - пишут авторы.

Дополнительные ограничения включают непоследовательную терминологию, нечеткую установку пороговых значений для анализа чувствительности и специфичности, а также отсутствие валидации вне выборки.

«Существует внутреннее противоречие между желанием использовать новые, потенциально спасающие жизнь средства диагностики и настоятельной необходимостью разработать высококачественные доказательства, которые могут принести пользу пациентам и системам здравоохранения в клинической практике», - комментирует первый автор доктор Сяосюань Лю из Бирмингемский университет.

«Главный урок нашей работы заключается в том, что в искусственном интеллекте, как и в любой другой сфере здравоохранения, важен хороший дизайн исследования. Без этого вы легко можете внести предвзятость, которая исказит ваши результаты. Эти предубеждения могут привести к преувеличенным заявлениям о хорошей производительности инструментов искусственного интеллекта, которые не применяются в реальном мире ».

Доктор Сяосюань Лю

«Доказательства того, как алгоритмы искусственного интеллекта изменят исходы лечения пациентов, должны быть получены из сравнений с альтернативными диагностическими тестами в рандомизированных контролируемых испытаниях», - добавляет соавтор доктор Ливия Фэйс из офтальмологической клиники Мурфилдс, Лондон, Великобритания.

«До сих пор почти нет таких испытаний, в которых диагностические решения, принимаемые алгоритмом ИИ, используются, чтобы увидеть, что затем происходит с результатами, которые действительно важны для пациентов, такими как своевременное лечение, время до выписки из больницы или даже показатели выживаемости».

none:  муковисцидоз боль в спине респираторный