更新情報
- 2024/12/2 サンプルデータを更新しました(訓練データの10QAペアから構成されています)
- 2024/12/1 データセットの説明を更新しました
- 2024/11/30 ドイツデータセットの訓練データを公開しました(タスク参加登録者限定)
- 2024/11/8 MedNLP-CHATについて,タスク概要,データセットの説明を更新しました
- 2024/11/7 スケジュールを更新しました
- 2024/9/9 日本データセットの訓練データを公開しました(タスク参加登録者限定)
- 2024/9/9 タスク概要とデータセットの説明を更新しました
- 2024/8/15 ドイツデータセットの説明を更新しサンプルデータを公開しました
- 2024/8/15 日本データセットのサンプルデータを更新しました(客観ラベルのnoteを追加)
- 2024/7/16 日本データセットのサンプルデータを更新しました
- 2024/7/12 タスク概要とデータセットの説明を更新しました
- 2024/7/9 日本データセットのサンプルデータを公開しました
MedNLP-CHATについて
医療チャットボットサービスは,医療・ヘルスケア分野の人材問題に対する有望な解決策です.しかし,チャットボットの使用による潜在的なリスクはよく知られていません.
医療自然言語処理(Medical Natural Language Processing)におけるAIチャット(MedNLP-CHAT)は,NTCIR-18のコアタスクの1つであり,医療チャットボットを医学的,法的,倫理的な観点から評価することを目的としています.このシェアードタスクでは,参加者は与えられた医療に関する質問とそれに対するチャットボットの回答を分析し,その回答が医学的,法的,または倫理的なリスクを生じさせる可能性があるかどうか(バイナリ)を判断する必要があります.
タスク概要
- 入力
- 質問とそれに対するチャットボットの回答のペア
- 出力
- 専門家(医療従事者,法律家,倫理学者)による回答の客観評価:バイナリクラス(TRUE or FALSE)
- 医学的リスク
- 倫理的リスク
- 法的リスク
- 一般人(クラウドソーシング)による回答の主観評価(日本データセットのみ):-2から2の5段階評価の分布
- 流暢さ
- 有用さ
- 無害さ
- 専門家(医療従事者,法律家,倫理学者)による回答の客観評価:バイナリクラス(TRUE or FALSE)
データセット
1データは,質問 (question),回答 (answer),回答へのラベルから構成されます.
回答へのラベルには,客観ラベル (risks) と主観ラベル (fluency, helplessness, harmlessness) があります.
客観ラベル (risk) は,専門家(医療従事者,法律家,倫理学者)が判定し,TRUE(リスクあり=不適切),または ,FALSE(リスクなし=適切)を判定しています.TRUE の場合については,その理由をNoteに記載しています(Noteは日本データセットのみ).
主観ラベルは,一般人(クラウドソーシング)による5段階評価となっており,一般の回答のばらつきも重要と考えたため,5段階評価の分布を含んでいます.例えば,fluency(流暢さ)なら,非常に非流暢 (-2),非流暢 (-1),普通 (0),流暢 (+1),非常に流暢 (+2) まであり,クラウドソーシングで得た回答の人数が格納されています.この分布を推定するタスクとなります.主観ラベルは,日本データセットのみで定義されています.
詳しいデータの仕様はREADMEや,今後公開されるoverview paperをご覧ください.
医療制度および法制度
標準治療で可能な医療の範囲および法的・倫理的リスクは,各国の医療および法制度により異なります.そのため,日本の制度に基づいて判断された日本データセットと,ドイツの制度に基づいて判断されたドイツデータセットの2つのデータセットを用意しました.
対応言語
日本データセットの日本語Q&Aペアおよびドイツデータセットのドイツ語Q&Aペアは,それぞれ英語とフランス語に翻訳されています.
データ詳細
- 質問 (question),回答 (answer),回答へのラベルから構成されます.回答へのラベルには,日本の法律や医療ガイドラインに準拠して専門家が付与した客観ラベル (medicalRisk, ethicalRisk, legalRisk) と,一般人が付与した主観ラベル (fluency, helplessness, harmlessness) があります [詳細はこちら].
- データサイズ:(質問,回答,回答ラベル)を1ペアとして約200ペアを構築しています.うち,半分を訓練データとしてタスク参加者に配布します.
- 質問と回答ともに,チャットボットの回答を参考に,人間が作成しています.
- 回答ラベルは,質問応答の回答に対する評価です.専門家による日本の法律や医療ガイドラインに準拠した回答の客観評価 (medicalRisk, ethicalRisk, legalRisk) の3ラベルと,一般人による回答の主観評価 (fluency, helpfulness, harmlessness) の3ラベルからなります.
- 言語:
- Step 1. 日本語とドイツ語のデータをそれぞれ作成.
- Step 2. 他言語に翻訳.訓練データとテストデータは人手で翻訳しています.日本語ソースのデータは英語とフランス語に,ドイツ語ソースのデータは英語とフランス語に翻訳されています.
サンプルデータ
参加登録
スケジュール
-
2024年3月: キックオフイベント -
2024年5月 -> 7月: サンプルデータセット公開 -
2024年8月 -> 9月: 訓練データセット公開(日本データセット) -
2024年9月 -> 11月: 訓練データセット公開(ドイツデータセット) - [NEW] 2024年12月1日: 訓練データセット公開(最終版)
- [NEW] 2025年1月17日: 参加登録締切
- [NEW] 2025年1月17日: テストデータ配布
-
2024年11月〜2025年1月2025年1月17日〜24日: 本テスト期間 - 2025年2月1日: 評価結果の参加者への返送
- 2025年2月1日: タスク概要論文一部公開(ドラフト)
- 2025年3月1日: タスク参加者論文(ドラフト)提出締切
- 2025年5月1日: タスク参加者論文・タスク概要論文 提出最終締切
- 2025年6月10日〜13日 NTCIR-18 カンファレンス (NII, 東京)
主催者
アドバイザ
標葉 隆馬, Ph.D.(大阪大学)