RadNLP (Natural Language Processing for Radiology) は,放射線医学への自然言語処理の応用を扱うシェアード・タスク (shared task) です。国立情報学研究所による国際学会 NTCIR-18 の一部 (core task) として開催されます。
主催者がタスクとデータを公開し,広く参加者の皆さまから解法を募集することで,オープンな医療データの整備と知見の蓄積をめざします。
RadNLP 2024は,読影レポート (画像診断報告書) から,肺癌のステージ (進行度) を正しく判定することを題材とします。
肺癌の治療方針は,そのステージによって異なるため,ステージの正確な判定は重要です。ステージの判定には,CTやPETなどの医用画像が主に用いられるため,読影レポート中の情報が役立ちます。
ところが,読影レポート自体にはステージの判定が直接記載されていないことが多く¹,診療や研究の際には,人手であらためて情報抽出しなければなりません。
そこでRadNLP 2024では,肺癌のステージを自然言語処理によって読影レポートから自動判定することで,肺癌の診療や研究に役立つような手法の開発を目指します。
RadNLP 2024で使用する読影レポートはすべて,初回治療前の肺癌を診断したものです(治療開始後のものは含まれていません)。
また,これらの読影レポートは実際の医療機関から取得したものではなく,Radiopaedia で公開されている画像を診断して本タスクのために作成したものです(個人情報は含まれていません)²。
このため本タスクの参加者はどなたでも,複雑な申請手続きを行うことなく無料でデータセットを利用できます。
2 Nakamura Y et al. Clinical Comparable Corpus Describing the Same Subjects with Different Expressions. Stud Health Technol Inform 2022:290:253-257.
RadNLP 2024では,英語・日本語の2か国語の読影レポートを使用します。各言語ごとに,English track, Japanese trackという独立した2つのtrackとして開催いたします:
参加登録時に,English track と Japanese track のどちらかをお選びください(両方にご参加いただくことも可能です)。
また RadNLP 2024では,sub task, main task の2つのタスクを開催いたします。両方にご参加いただいても,どちらか片方のみのご参加でも構いません:
[NEW!] 読影レポートを,トピックごとに以下の8つの異なる区間に分割していくタスクです:
より専門的には,マルチラベル文単位二値分類タスクとなります。
つまり,分割は文単位で行うものとし,あるトピックの区間が一続きでなく飛び飛びになったり,同じ文が2つ以上のトピックに該当したりすることもありえます。
回答時には,各文が上記 (i) 〜 (viii) に該当するかどうかを判定し,該当すれは「1」,該当しなければ「0」と解答してください。つまり,1文につき8個の判定を行ってください。
なお全ての文は,(i) にのみ該当するか,もしくは (ii) 〜 (viii) のうち1つまたは複数に該当するかのいずれかとなります。
Sub Taskのデータは,以下の2種類からなります:
Sub Taskのサンプルデータは,以下から入手・閲覧いただけます:
[NEW] Sub Taskでは,以下の9種類の評価指標を算出し,このうち★印のものをリーダーボードの並べ替えに用います:
読影レポートごとに,T因子・N因子・M因子をそれぞれ正しく判定するタスクです。
なお,RadNLP 2024の肺癌ステージング基準は,日本肺癌学会による肺癌取扱い規約第8版に準拠していますが,国際対がん連合 (UICC) によるTNM分類第8版とほぼ同一の基準です。
Main Taskのデータは,以下の2種類からなります:
Main Taskのサンプルデータは,以下から入手・閲覧いただけます:
[NEW] Main Taskでは,以下の8種類の評価指標を算出し,このうち★印のものをリーダーボードの並べ替えに用います:
radnlp2024_sample_ja_main_task/5033297.txt
参加登録は,以下の方法で行っていただくことができます。
1. メールアドレスをご準備のうえ,以下のリンクにアクセスしてください。
3. 『オンライン参加登録フォーム』中の質問12で「Yes」を選択のうえ,質問13で 🌐 English track, 🇯🇵 Japanese track のうち参加されるものを1つまたは2つお選びください。
* 🔶 Main task, 🔹 sub task への参加 / 不参加は,参加登録時には決めていただく必要はありません。
* いずれの track でも,運営チームやNTCIR事務局からの連絡は英語で行われますのでご注意ください 。
Sub task は Main task の補助として設定しています。
前回の NTCIR-17 MedNLP-SC では,今回の Main task にあたる肺癌ステージングのみを実施しました。
しかし,当時の最先端といわれる解法を用いてもまだ成績向上の余地が残りました (つまり,Main task はそれなりに高難度でした)。
そこで今回は,読影レポート単位の教師ラベルに加えて文単位の教師ラベルを追加で提供することにより,参加者の方々により多彩な解法を試していただけると考えています。
この文単位の教師ラベルを用いたタスクが今回の Sub task となります。
はい,問題ありません。同じ方が2つ以上の異なるチームに所属されていても構いません。
はい,問題ありません。片方の言語の track のデータセットを,もう片方の言語の track の解法に使用していただいても構いません。
もし使用された場合は,論文を提出される際に,その詳細について明記していただくようお願いいたします。
RadNLP 2024 は,参加者の皆さまにしていただいた工夫をもとに,新たな知見を生み出し,共有することを目的としております。ご協力いただけましたら幸いです。
はい,問題ありません。RadNLP 2024 のデータセットとして私達が配布するデータセットのほかに,別の資源 (モデル,辞書,コーパス,データセットなど) を追加でご使用いただくことに特に制限はありません。
もし使用された場合は,論文を提出される際に,その詳細について明記していただくようお願いいたします。
RadNLP 2024 は,参加者の皆さまにしていただいた工夫をもとに,新たな知見を生み出し,共有することを目的としております。ご協力いただけましたら幸いです。
なお,個人情報が含まれる資源を利用される際には,個人情報保護について十分なご配慮をお願いいたします。
いいえ,1回で問題ありません。
English track と Japanese track に両方参加された場合でも,NTCIRにご投稿いただく論文は,1チームにつき1本となります。
またNTCIR conferenceでのご発表も,1チームにつき1回となります。
いいえ,1回で問題ありません。
Main task と Sub task を両方解かれた場合でも,NTCIRにご投稿いただく論文は,1チームにつき1本となります。
またNTCIR conferenceでのご発表も,1チームにつき1回となります。
上記のほかにご不明点がありましたら,お気軽にこちらからご連絡ください。
東京大学医学部附属病院 22世紀医療センターコンピュータ画像診断学/予防医学講座
東京大学医学部放射線医学講座
奈良先端科学技術大学院大学 情報科学領域 ソーシャル・コンピューティング研究室
筑波大学 図書館情報メディア系 情報循環分野
奈良先端科学技術大学院大学 情報科学領域 ソーシャル・コンピューティング研究室
東京大学大学院医学系研究科 生体物理医学専攻
東京大学大学院医学系研究科 生体物理医学専攻
自治医科大学データサイエンスセンター
東京大学医学部附属病院 放射線科
東京大学医学部放射線医学講座
奈良先端科学技術大学院大学 情報科学領域 ソーシャル・コンピューティング研究室
奈良先端科学技術大学院大学 情報科学領域 ソーシャル・コンピューティング研究室
九州大学
京都大学大学院 医学系研究科 高度医用画像学講座
Institute of Diagnostic and Interventional Radiology, University Hospital Zurich
Department of Quantitative Biomedicine, University of Zurich
私達はこれまで,読影レポートを題材とする shared task を2回開催しており,このRadNLP 2024が3回目となります:
radnlp [at] googlegroups.com までメールにてご連絡ください ([at] を半角アットマークに変換してください)。
Designed with WordPress