MedNLP-CHAT

更新情報

2025/6/16 MedNLP-CHAT タスクで使用したデータセットを公開しました
2025/6/12 MedNLP-CHAT タスクのセッションが無事終了しました．ご参加いただきありがとうございました！
2025/6/10 NTCIR-18 の会議論文集が公開されました
2025/5/28 NTCIR-18 のプログラムが公開されました．MedNLP-CHAT タスクのセッションは DAY-3 の6/12に開催されます．
2025/2/1 タスク概要論文のドラフトを参加チームに公開しました
2025/2/1 フォーマルランの評価結果を返送しました
2025/1/17 テストデータを公開し，フォーマルランを開始しました
2024/12/2 訓練データの最終版を公開しました（タスク参加登録者限定）
2024/12/2 サンプルデータを更新しました（訓練データの10QAペアから構成されています）
2024/12/1 データセットの説明を更新しました
2024/11/30 ドイツデータセットの訓練データを公開しました（タスク参加登録者限定）
2024/11/8 MedNLP-CHATについて，タスク概要，データセットの説明を更新しました
2024/11/7 スケジュールを更新しました
2024/9/9 日本データセットの訓練データを公開しました（タスク参加登録者限定）
2024/9/9 タスク概要とデータセットの説明を更新しました
2024/8/15 ドイツデータセットの説明を更新しサンプルデータを公開しました
2024/8/15 日本データセットのサンプルデータを更新しました（客観ラベルのnoteを追加）
2024/7/16 日本データセットのサンプルデータを更新しました
2024/7/12 タスク概要とデータセットの説明を更新しました
2024/7/9 日本データセットのサンプルデータを公開しました

MedNLP-CHATについて

医療チャットボットサービスは，医療・ヘルスケア分野の人材問題に対する有望な解決策です．しかし，チャットボットの使用による潜在的なリスクはよく知られていません．
医療自然言語処理（Medical Natural Language Processing）におけるAIチャット（MedNLP-CHAT）は，NTCIR-18のコアタスクの1つであり，医療チャットボットを医学的，法的，倫理的な観点から評価することを目的としています．このシェアードタスクでは，参加者は与えられた医療に関する質問とそれに対するチャットボットの回答を分析し，その回答が医学的，法的，または倫理的なリスクを生じさせる可能性があるかどうか（バイナリ）を判断する必要があります．

タスク概要

医療に関する質問に対するチャットボットの回答が適切かどうかを判定するタスクです．判定は複数の観点から行います．

入力
- 質問とそれに対するチャットボットの回答のペア

出力
- 専門家（医療従事者，法律家，倫理学者）による回答の客観評価：バイナリクラス（TRUE or FALSE）
  - 医学的リスク
  - 倫理的リスク
  - 法的リスク
- 一般人（クラウドソーシング）による回答の主観評価（日本データセットのみ）：-2から2の5段階評価の分布
  - 流暢さ
  - 有用さ
  - 無害さ

データセット

1データは，質問 (question)，回答 (answer)，回答へのラベルから構成されます．
回答へのラベルには，客観ラベル (risks) と主観ラベル (fluency, helplessness, harmlessness) があります．
客観ラベル (risk) は，専門家（医療従事者，法律家，倫理学者）が判定し，TRUE（リスクあり＝不適切），または，FALSE（リスクなし＝適切）を判定しています．TRUE の場合については，その理由をNoteに記載しています（Noteは日本データセットのみ）．

主観ラベルは，一般人（クラウドソーシング）による5段階評価となっており，一般の回答のばらつきも重要と考えたため，5段階評価の分布を含んでいます．例えば，fluency（流暢さ）なら，非常に非流暢 (-2)，非流暢 (-1)，普通 (0)，流暢 (+1)，非常に流暢 (+2) まであり，クラウドソーシングで得た回答の人数が格納されています．この分布を推定するタスクとなります．主観ラベルは，日本データセットのみで定義されています．

詳しいデータの仕様はREADMEや，今後公開されるoverview paperをご覧ください．

医療制度および法制度
標準治療で可能な医療の範囲および法的・倫理的リスクは，各国の医療および法制度により異なります．そのため，日本の制度に基づいて判断された日本データセットと，ドイツの制度に基づいて判断されたドイツデータセットの2つのデータセットを用意しました．

対応言語
日本データセットの日本語Q&Aペアおよびドイツデータセットのドイツ語Q&Aペアは，それぞれ英語とフランス語に翻訳されています．

データ詳細

質問 (question)，回答 (answer)，回答へのラベルから構成されます．回答へのラベルには，日本の法律や医療ガイドラインに準拠して専門家が付与した客観ラベル (medicalRisk, ethicalRisk, legalRisk) と，一般人が付与した主観ラベル (fluency, helplessness, harmlessness) があります [詳細はこちら]．
データサイズ：（質問，回答，回答ラベル）を１ペアとして約200ペアを構築しています．うち，半分を訓練データとしてタスク参加者に配布します．
- 質問と回答ともに，チャットボットの回答を参考に，人間が作成しています．
- 回答ラベルは，質問応答の回答に対する評価です．専門家による日本の法律や医療ガイドラインに準拠した回答の客観評価 (medicalRisk, ethicalRisk, legalRisk) の3ラベルと，一般人による回答の主観評価 (fluency, helpfulness, harmlessness) の3ラベルからなります．
言語：
- Step 1. 日本語とドイツ語のデータをそれぞれ作成．
- Step 2. 他言語に翻訳．訓練データとテストデータは人手で翻訳しています．日本語ソースのデータは英語とフランス語に，ドイツ語ソースのデータは英語とフランス語に翻訳されています．