Real-MedNLP

近年，医療記録が紙に代わって電子化されることが多くなり，医療分野における情報処理技術の重要性が高まっています．しかし，日本語や中国語をはじめとした非英語圏では匿名化された医療テキストデータがまだ多くありません．私たちはこのような状況で，4つの医療自然言語処理 (MedNLP) タスク（MedNLP-1, MedNLP-2, MedNLPDoc, MedWeb）を提案してきました．今回はさらにMedNLPを実現可能な技術に昇華するため，Real-MedNLPを提案します．

NEWS

このワークショップについて

Real-MedNLPは実際の医療文書（症例報告，読影所見）を用いた医療言語処理シェアードタスク・ワークショップです.
本タスクが様々な医療サービスを支援する実用システムの開発を促進することを目指します.

Real-MedNLPタスクには2 種類のコーパスに基づくトラック（MedTxt-CR Track, MedTxt-RR Track）があり，それぞれ３つのサブタスクから構成されます.

データセット

MedTxt-CRコーパス

CiNiiで公開されているオープンアクセスの症例報告のデータセットです．出版物をオープンアクセスにする医学会の数は限られています．各医学会の出版方針による偏りをなくすため，実際の患者や疾患の頻度に基づいて症例報告を選択しました．

トレーニングセット：100文書
テストセット：100文書

症例報告とは，患者のために書かれた医学研究論文の一種です．症例報告は症例の経過または対象疾患の歴史のほとんどをカバーしており，各医学会には通常、症例報告の提出トラックがあるため，症例報告の数は他の論文よりも多くなっています．これらの利点を考慮すると，症例報告は有望な情報リソースであると言えます．さらに，症例報告の形式は医療報告書の一種である退院サマリーの形式と類似しているため，症例報告分析の手法は退院サマリー分析に拡張することができます．

MedTxt-RRコーパス

肺癌CT画像15症例に対し，それぞれに9 人の放射線科医が作成した合計135件の読影所見のデータセットです．

トレーニングセット：72文書
テストセット：63文書

読影所見とは，放射線科医によって書かれた一種の臨床文書です．基本的には1枚のレントゲン画像に着目し，その画像から予想される所見をすべて記載します．読影所見を分析する際の最大の問題の 1 つとして，表現が多様な一方で，通常は 1 つの画像に対して 1 つの報告しか作成されないため，特定の医療機関からの報告を集めるだけでは，同じ診断に対してどのように文章を書くのかを十分に理解できない点でした．本タスクでは，この問題を解決するために，複数人の医師が同一画像に対して個別に所見を執筆することで，多様な表現を含む所見データを構築しました．

タスク概要

少ないリソースでの固有表現抽出 (Named Entity Recognition; NER)

医療言語処理においてデファクトスタンダードなサイズとなっている100∼200文書程度のコーパスを用いた，医療言語処理の最も基本的な情報抽出であるNERに関するサブタスクです.

サブタスク 1：100程度の極めて小規模なサンプルでのNER

72文書からなるトレーニングセットを用いたNER
標準的な少ないリソースでの教師付き学習に相当

サブタスク 2：ガイドラインを用いたNER

アノテーション・ガイドラインにおける各タグについての例文を用いたNER
アノテーション・ガイドラインから学ぶことが多い人間のアノテーターのトレーニングを模擬

<article id="JP0217-29" title="著明な好酸球増多を伴った非昏睡型急性肝不全の一例">
【症例】<TIMEX3 type="AGE">５３歳</TIMEX3>女性
【主訴】<d certainty="positive">発熱</d>
【経過】<TIMEX3 type="DATE">Ｘ－２年</TIMEX3>に<d certainty="positive">皮疹</d>を契機に当院皮膚科を<cc state="executed">受診</cc>し，<d certainty="positive">水泡性類天庖瘡</d>と診断された．
<m-key state="executed">プレドニゾロン　（ＰＳＬ）</m-key>　<m-val>１ｍｇ／ｋｇ／ｄａｙ</m-val>を導入され，<TIMEX3 type="TIME">以降</TIMEX3><m-key state="executed">免疫調整薬</m-key>を併用し，<m-key state="executed">ＰＳＬ</m-key><c>漸減</c>の上で管理されていた．
<TIMEX3 type="DATE">Ｘ年８月</TIMEX3>に<m-key state="executed">ＰＳＬ</m-key><m-val>６ｍｇ／ｄａｙ</m-val>まで<c>減量</c>した時点で<m-key state="negated">ＰＳＬ</m-key>を自己中断されたが<d certainty="negative">皮疹の増悪</d>は認められなかった．
<TIMEX3 type="DATE">９月９日</TIMEX3>より<d certainty="positive">倦怠感</d>を自覚，<TIMEX3 type="DATE">１０日</TIMEX3>に<f>３８℃</f>の<d certainty="positive">発熱</d>が<c>出現</c>したため，当院を<cc state="executed">受診</cc>した．
...(後略)...
</article>

2021-10-22　本ワークショップと無関係なページをアノテーションガイドラインから削除しました

2021-12-20　数カ所のアノテーションミスを修正しました

応用 (Applications)

実用的な観点からコーパストラックごとに設計された応用サブタスクです．

サブタスク 3：応用

[MedTxt-CR Track] Adverse Drug Event detection (ADE)

症例報告から薬物有害事象 (ADE) 情報を抽出してテーブルを作成

[MedTxt-RR Track] Case Identiﬁcation (CI)

同一症例について記載された読影所見を同定

スケジュール

~~データセット配布開始（参加登録チームにメールで送信）~~
~~September 1，2021 December 1，2021: タスク参加登録締切~~
~~September-November 2021: 予備テスト (Dry Run)~~ ※本タスクはパイロットタスクのため，予備テストは実施しないことにしました
~~January 10-17, 2022: サブタスク 1・2　本テスト~~
- ~~January 10, 2022: テストデータ公開 (the organizer to participants)~~
- ~~January 17, 2022: テスト結果提出締切 (participants to the organizer)~~
~~January 18-25, 2022: サブタスク 3 （ADE・CI）本テスト~~
- ~~January 18, 2022: テストデータ公開 (the organizer to participants)~~
- ~~January 25, 2022: テスト結果提出締切 (participants to the organizer)~~
~~February 1，2022: 評価結果の返送~~
~~February 1，2022: タスク概要論文一部公開~~
~~March 1，2022: タスク参加者論文（ドラフト）提出締切~~
~~May 1，2022: タスク参加者論文・タスク概要論文　提出最終締切~~
June 14-17，2022: NTCIR-16 カンファレンス（オンライン) ［プログラム］［参加登録］
- June 17, 2022: Real-MedNLP Session

参加申込

NTCIR-16 ホームページからお申し込みください

FAQ

Q.1　Subtask 1 と2の主な違いは何ですか？

Subtask 1 では，参加者は配布された学習データセットを用いてモデルを教師あり学習することができます．Subtask 2では，参加者はアノテーションガイドライン中の例文を使用することができますが，Subtask 1 用に配布された学習データセットを使用することはできません．
どちらのサブタスクでも，参加者は任意の外部リソースを使用することは可能です（つまり，半教師あり学習はOK）．

Q.2　Subtask 1 と2のテストセットのフォーマットを教えてください．

テストデータセットとして，タグをすべて取り除いたクリアなレポートを提供します．参加者はトレーニングデータのように，テストデータにタグを付与してください．

Q.3　Subtask 1 と2は評価はどのように行いますか？

Subtask 1 と2では，エンティティレベルとエンティティ＋属性レベル（ジョイント）の 2 レベルの評価を行う予定です．ジョイント評価では，エンティティと属性の両方が一致すれば正解とし，属性は一致するがエンティティが一致しない場合は不正解とします．エンティティの属性を取り扱うかどうかは任意ですが，実用的な観点からエンティティと属性の両方を認識することをおすすめします．

Q.4　Subtask 1 と2の評価指標には何を使いますか？

Subtask 1 と2 では，precision, recall, F1 (micro, macro) など，さまざまな評価指標を採用する予定です．詳細は後日発表いたします．

Q.5 　ADEチャレンジにはNERは含まれていますか？

いいえ，ADEチャレンジにはNERは含まれていません．ADEチャレンジのために，タグ付きのレポートを提供します．提出ファイルでは，”articleID,” “tag,” “text” が与えられますので，”ADEval”の値を回答していただきます．

Q.6　CIチャレンジの評価指標には何を使いますか？

CIチャレンジはクラスタリングタスクですので，正規化相互情報量を用いる予定です．

Q.7　Formal run の期間（テストセットのリリースから最終結果の提出まで）を教えてください．

Formal run の期間は，テストセットのリリース直後の1週間です．

Q.8　3つのsubtaskのスケジュールは同じですか？

3 つのsubtask のスケジュールは基本的には同じですが，Subtask 3 のADEチャレンジのテストセットに使うレポートはSubtask 1と2のNERの答えであるため，データの提供タイミングとFormal run の期間をずらします．Formal run の流れは次の通りです：Subtask 1とSubtask 2 のテストセットの提供・Formal run・結果提出（1週間）-> Subtask 3 のテストセットの提供・Formal run・結果提出（1週間）．

Q.9　Subtask 1 と2では，すべてのタイプのエンティティを認識する必要がありますか？

いいえ，Subtask 1 と2の評価では，以下のタグセットのみを対象とする予定です：

CR: <d>, <a>, <timex3>, <t-test>, <t-key>, <t-val>, <m-key>, <m-val>
RR: <d>, <a>, <timex3>, <t-test>

主催

荒牧英治（奈良先端科学技術大学院）
若宮翔子（奈良先端科学技術大学院）
矢田竣太郎（奈良先端科学技術大学院）
中村優太（東京大学）

協力

謝辞

MedTxt-RR Track とアノテーションは JST AIP-PRISMの支援を受けたものである．MedTxt-CR Track は JST AIP 日独仏AI研究のKEEPHA プロジェクト (JPMJCR20G9) の支援を受けたものである．

スポンサー募集

Real-MedNLP ではスポンサーを募集しています．Real-MedNLP に協賛にご興味のある方は，メールにてお問い合わせください．
なお，スポンサーもタスクに参加可能です．