エムスリーテックブログ

エムスリー(m3)のエンジニア・開発メンバーによる技術ブログです

肺動脈性肺高血圧症(PAH)を検出するAIを開発し、論文化しました

こんにちは、AI・機械学習チーム(AIチーム)の農見(@rookzeno)です。最近、私が開発したAIの論文が公開されたので、今回はそれを紹介をします。

発表された論文はこちらです

bmcpulmmed.biomedcentral.com

この論文では、

  • 胸部X線 (レントゲン) から肺動脈性肺高血圧症(PAH)を検出するAIを開発しました。
  • AIと医師を比較した結果、AIの方が医師よりもPAHの検出力が優れていました。
  • このAIを使うことでのPAHを早期に発見できることが期待されます。

この研究は千葉大学の今井 俊先生、坂尾 誠一郎先生と共同で行い、今井先生に執筆していただきました。ありがとうございます。

また関連記事として、前回AIチームが発表した同じくレントゲンから病気を予測する論文も紹介しておきます。

www.m3tech.blog

肺動脈性肺高血圧症(PAH)のAIを作成した理由

肺動脈性肺高血圧症(PAH)は指定難病の1つで診断が遅れることが課題とされている病気です。PAHは診断が遅いほど5年生存率が低下するのですが、レントゲンから早期に発見することが難しく症状が進んでから発見されることが多いです。そこでAIにより早期発見できるようになればPAHのリスクを減らせると思い、このAIを開発しました。

データセット、実験設定

データセットには519枚(405人)の胸部X線画像 、259枚(145人)がPAHの兆候あり、260枚(260人)がPAHの兆候なしを用意しました。

まず全データを4:1の割合でtrainデータとtestデータに分割しました。その際は患者さん単位で分けて、同じ人は同じデータに入るようにしました*1。その後、4-Fold Cross-Validationを用いてtrainデータとvalidデータに分割して4つのモデルを作成しました。作成したモデルでtestデータを推論し、4つのモデルの平均をtestデータのスコアとしました。長々と書かれていますが、学習時には参照しない test セットを分離して、正当な精度検証を行ったということです。

このAI推論のデータと放射線科医と呼吸器科医(平たく言えば専門家)の推論データを比較しました。

結果

AI予測のROC曲線と、医師が実際に同じデータを診断した場合の感度と特異度を赤い点で示したものが以下となります。赤い点一つが一人の医師に対応します。

全ての赤い点はAI予測のROC曲線の下にあり、AIの予測の方が良いと言えます。

少しAUCが高すぎないかと思った方がいそうですが、それはその通りです。今回のタスクは健康な人とPAHの病気を分けるというのが比較的簡単なタスクであったのでAUCが高くなりました。今後の発展を考えると、心肥大のような似たような病気とPAHをきっちり分けられるAIを作っていきたいと考えています。

Grad-CAMを使ってAIがどの部分に注目してるかも出してみました。この図を見るとAIは右上肺野と心臓周辺領域に焦点を当てています。心臓周辺は重要部位なのでもちろんですが、右上肺野もPAHでは鬱血が生じる部分であり、ちゃんと見て判断してると思われました。

感想

メインの話ではないですが、エムスリーでも大学や企業と共同研究を行って論文化もできます!実際の臨床データでAIを作れる機会は多くないと思うので、エムスリーで臨床AIの経験を積んでみるのも良いかなと思いました。

We're hiring!

AI・機械学習チームでは、統計や機械学習を用いて様々な医療課題に取り組んでいます。興味を持った方は、次のリンクからご応募お待ちしています! インターンも通年募集中です!

jobs.m3.com

*1:2つの同じ人の画像があったとして片方を学習していると、もう片方のデータは当てやすくなるので分けました