MedTxt-RR: 読影レポート (Radiology Reports) コーパス

医療言語処理研究を加速するための公開読影レポートデータセット

医療AIを用いて,単純X線(レントゲン),CT,MRIなどの医用画像から読影レポートを自動生成する研究が盛んになっていますが,肝心の読影レポートの品質を評価する方法は確立されていません.その原因は,同じ医学的内容でも医師によって表記がゆれたり,逆に異なる医学的内容でも文章としては似ていたりすることにあります.しかし,医療現場では一つの画像に対して一つの読影レポートしか作成されないため,医療機関に保存されている読影レポートをただ単に集めただけでは,同じ医学的内容に対して人間がどのような書き方をするのかを十分に知ることができません.そこで,ソーシャル・コンピューティング研究室では,「CT画像から肺癌の進行度をTNM分類 (*1) によって判定する」という一つの要素に絞り,医学的内容に応じてどのような表現方法が存在するのかを収集するために,同一のCT画像に対して複数名の読影医に読影レポートを作成していただくという新しい方法でデータセットを作成しました (*2).本サイトでは,データセットのサンプルを“公開読影レポートデータセット”と名付けて公開していますので,ご自由にご利用ください.

*1 TNM分類:癌の進行度(病期,ステージ)を決定するために広く用いられている方法です.癌のサイズと周囲臓器への浸潤度(T因子),リンパ節転移(N 因子),遠隔転移(M因子) の3つの因子を評価し,これらの因子を組み合わせることによって癌の進行度を決定します.例えば,T因子がT1c,N因子がN0,M因子がM0となる癌の進行度をTNM分類で表現すると「T1cN0M0」となります.

*2 Radiopaedia で無料公開されている肺癌CT画像を15個選び,それぞれに対して9名の読影医に読影レポートを作成していただき,計135文書を収集しています.

ダウンロード

プライバシーポリシー

本サイトに記入された個人情報は,サイト運営に必要となる連絡,サイトの評価,サイト上での表示,本サイトで提供するサービスの必要に限り使用し,それ以外の用途には使用しません.

免責事項

本成果物は,可能な限り細心の注意を払って開発しました.しかし,完全な信頼性や堅牢性を保証しているわけではありません.結果的に本成果物を使用して何らかの問題が発生した場合,提供元である奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室は一切の責任を負いかねます.ご使用になる場合には自己責任でご活用いただくようお願いいたします.

クリエイティブ・コモンズ・ライセンス

本成果物は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。