更新情報
- 2024/9/9 日本ドメインの訓練データセットを公開しました(タスク参加登録者限定)
- 2024/9/9 タスク概要とデータセットの説明を更新しました
- 2024/8/15 ドイツドメインデータセットの説明を更新しサンプルデータを公開しました
- 2024/8/15 日本ドメインのサンプルデータを更新しました(客観ラベルのnoteを追加)
- 2024/7/16 日本ドメインのサンプルデータを更新しました
- 2024/7/12 タスク概要とデータセットの説明を更新しました
- 2024/7/9 日本ドメインのサンプルデータを公開しました
MedNLP-CHATについて
医療自然言語処理(Medical Natural Language Processing)におけるAIチャット(MedNLP-CHAT)は,NTCIR-18のコアタスクの1つであり,医療チャットボットを様々な観点に基づいて評価することを目的としています.
医療チャットボットサービスは,医療・ヘルスケアにおける人材問題の有望な解決策です.しかし,医療チャットボットのリスクはあまりよく知られていません.MedNLP-CHATでは,医療チャットボットによる質問応答を,医学的リスク,法的リスク,倫理的リスクの客観的な観点から,そして,質問の品質,回答の流暢さ,有用性,有害性の主観的な観点から評価するためのテストベッドを作成しています.
タスク概要
標準治療で可能な医療の範囲,法律や倫理などのリスクは,国ごとの医療システムで異なっています.
そこで,本データでは,日本の医療体系で判定したデータ(日本ドメイン)とドイツの医療体系で判定したデータ(ドイツドメイン)の2つを用意しています.ただし,主観ラベルは日本ドメインのみなど,異なる点があります.
- 入力
- 質問とそれに対するチャットボットの回答のペア
- 出力
- 専門家(医療従事者,法律家,倫理学者)による回答の客観評価:バイナリクラス(TRUE or FALSE)
- 医学的リスク
- 倫理的リスク
- 法的リスク
- 一般人(クラウドソーシング)による回答の主観評価:5段階評価の分布(日本ドメインのみ)
- 流暢さ
- 有用さ
- 無害さ
- 専門家(医療従事者,法律家,倫理学者)による回答の客観評価:バイナリクラス(TRUE or FALSE)
データセット
1データは,質問 (question),回答 (answer),回答へのラベルから構成されます.
回答へのラベルには,客観ラベル (risks) と主観ラベル (fluency, helplessness, harmlessness) があります.
客観ラベル (risk) は,専門家(医療従事者,法律家,倫理学者)が判定し,TRUE(リスクあり=不適切),または ,FALSE(リスクなし=適切)を判定しています.TRUE の場合については,その理由をNoteに記載しています(Noteは日本ドメインデータのみで,ドイツドメインデータにはNoteはありません).
主観ラベルについては,一般人(クラウドソーシング)による5段階評価となっており,一般の回答のばらつきも重要と考えたため,5段階評価の分布を載せています.例えば,fluency(流暢さ)なら,非常に流暢 (+2),流暢 (+1),普通 (0),非流暢 (-1),非常に非流暢 (-2) まであり,クラウドソーシングで得た回答の人数が格納されています.この分布を推定するタスクとなります(主観ラベルも 日本ドメインデータのみとなる予定です).
詳しいデータの仕様はREADMEや,今後公開されるoverview paperをご覧ください.
対応言語
日本ドメインデータ,ドイツドメインデータとも多言語に翻訳しています.
日本ドメインデータは,日本語だけでなく英語,フランス語,ドイツ語に翻訳しています.
ドイツドメインデータは,ドイツ語だけでなく英語,フランス語に翻訳しています.
日本ドメインデータセット
- 質問 (question),回答 (answer),回答へのラベルから構成されます.回答へのラベルには,日本の法律や医療ガイドラインに準拠して専門家が付与した客観ラベル (medical, ethics, and legal risks) と,一般人が付与した主観ラベル (fluency, helplessness, and harmlessness) があります [詳細はこちら].
- データサイズ:(質問,回答,回答ラベル)を1ペアとして200ペアの構築を準備しています.うち,半分を訓練データとしてタスク参加者に配布しています.
- 質問と回答ともに,チャットボットの回答を参考に,人間が作成しています.
- 回答ラベルは,質問応答の回答に対する評価です.専門家による日本の法律や医療ガイドラインに準拠した回答の客観評価 (medical risk, ethical risk, and legal risk) の3ラベルと,一般人による回答の主観評価 (fluency, helpfulness, and harmlessness) の3ラベルからなります.
- 言語:日本語,英語,ドイツ語,フランス語
(なお,英語,ドイツ語,フランス語は,日本語を人手で翻訳したものです.ただし,サンプルデータはDeepLを用いて翻訳しています.)
ドイツドメインデータセット
- 質問 (question),回答 (answer),回答へのラベルから構成されます.
- データサイズ:(質問,回答,回答ラベル)を1ペアとして200ペアの構築を準備しています.うち,半分を訓練データとして9月に公開予定です.
- 言語: ドイツ語,英語,フランス語
なお,英語とフランス語はドイツ語を人手で翻訳したものです.ただしサンプルデータはDeepLを用いて翻訳しています.
参加登録
スケジュール
-
2024年3月: キックオフイベント -
2024年5月 -> 7月: サンプルデータセット公開 -
2024年8月 -> 9月: 訓練データセット公開(日本ドメイン) - 2024年9月: 訓練データセット公開(ドイツドメイン)
- 2024年11月〜2025年1月: 本テスト期間
- 2025年1月: 評価結果の参加者への返送
- 2025年2月:タスク概要論文一部公開(ドラフト)
- 2025年3月: タスク参加者論文(ドラフト)提出締切
- 2025年5月: タスク参加者論文・タスク概要論文 提出最終締切
- 2025年6月 10日〜13日 NTCIR-18 カンファレンス (NII, 東京)
主催者
アドバイザ
標葉 隆馬, Ph.D.(大阪大学)