MedNLP-CHAT

更新情報

MedNLP-CHATについて

医療チャットボットサービスは,医療・ヘルスケア分野の人材問題に対する有望な解決策です.しかし,チャットボットの使用による潜在的なリスクはよく知られていません.
医療自然言語処理(Medical Natural Language Processing)におけるAIチャット(MedNLP-CHAT)は,NTCIR-18のコアタスクの1つであり,医療チャットボットを医学的,法的,倫理的な観点から評価することを目的としています.このシェアードタスクでは,参加者は与えられた医療に関する質問とそれに対するチャットボットの回答を分析し,その回答が医学的,法的,または倫理的なリスクを生じさせる可能性があるかどうか(バイナリ)を判断する必要があります.

タスク概要

医療に関する質問に対するチャットボットの回答が適切かどうかを判定するタスクです.判定は複数の観点から行います.
  • 入力
    • 質問とそれに対するチャットボットの回答のペア
  • 出力
    • 専門家(医療従事者,法律家,倫理学者)による回答の客観評価:バイナリクラス(TRUE or FALSE)
      • 医学的リスク
      • 倫理的リスク
      • 法的リスク
    • 一般人(クラウドソーシング)による回答の主観評価(日本データセットのみ):-2から2の5段階評価の分布
      • 流暢さ
      • 有用さ
      • 無害さ

データセット

1データは,質問 (question),回答 (answer),回答へのラベルから構成されます.
回答へのラベルには,客観ラベル (risks) と主観ラベル (fluency, helplessness, harmlessness) があります.
客観ラベル (risk) は,専門家(医療従事者,法律家,倫理学者)が判定し,TRUE(リスクあり=不適切),または ,FALSE(リスクなし=適切)を判定しています.TRUE の場合については,その理由をNoteに記載しています(Noteは日本データセットのみ).

主観ラベルは,一般人(クラウドソーシング)による5段階評価となっており,一般の回答のばらつきも重要と考えたため,5段階評価の分布を含んでいます.例えば,fluency(流暢さ)なら,非常に非流暢 (-2),非流暢 (-1),普通 (0),流暢 (+1),非常に流暢 (+2) まであり,クラウドソーシングで得た回答の人数が格納されています.この分布を推定するタスクとなります.主観ラベルは,日本データセットのみで定義されています.

詳しいデータの仕様はREADMEや,今後公開されるoverview paperをご覧ください.

医療制度および法制度
標準治療で可能な医療の範囲および法的・倫理的リスクは,各国の医療および法制度により異なります.そのため,日本の制度に基づいて判断された日本データセットと,ドイツの制度に基づいて判断されたドイツデータセットの2つのデータセットを用意しました.

対応言語
日本データセットの日本語Q&Aペアおよびドイツデータセットのドイツ語Q&Aペアは,それぞれ多言語に翻訳されています.
日本データセットは,英語,フランス語とドイツ語に,ドイツデータセットは,英語とフランス語にそれぞれ翻訳されています.

データ詳細

  • 質問 (question),回答 (answer),回答へのラベルから構成されます.回答へのラベルには,日本の法律や医療ガイドラインに準拠して専門家が付与した客観ラベル (medical, ethics, and legal risks) と,一般人が付与した主観ラベル (fluency, helplessness, and harmlessness) があります [詳細はこちら].
  • データサイズ:(質問,回答,回答ラベル)を1ペアとして約200ペアを構築しています.うち,半分を訓練データとしてタスク参加者に配布します.
    • 質問と回答ともに,チャットボットの回答を参考に,人間が作成しています.
    • 回答ラベルは,質問応答の回答に対する評価です.専門家による日本の法律や医療ガイドラインに準拠した回答の客観評価 (medical risk, ethical risk, and legal risk) の3ラベルと,一般人による回答の主観評価 (fluency, helpfulness, and harmlessness) の3ラベルからなります.
  • 言語:
    • Step 1. 日本語とドイツ語のデータをそれぞれ作成.
    • Step 2. 他言語に翻訳.なお,サンプルデータはDeepLを用いて翻訳しています.訓練データとテストデータは人手で翻訳しています.日本語ソースのデータは英語,フランス語,ドイツ語に,ドイツ語ソースのデータは英語とフランス語に翻訳されています.

サンプルデータ

日本データセット

日本データセットの例(英訳付き)

ドイツデータセット

参加登録

スケジュール

主催者

荒牧 英治, Ph.D.(奈良先端大)
若宮 翔子, Ph.D.(奈良先端大)
矢田 竣太郎, Ph.D.(奈良先端大)
久田 祥平(奈良先端大)
西山 智弘(奈良先端大)
Lisa Raithel, Ph.D. (DFKI, Germany, TU Berlin, Germany)
Roland Roller, Ph.D. (DFKI, Germany)
Philippe Thomas, Ph.D. (DFKI, Germany)
Hui-Syuan Yeh (Université Paris-Saclay, CNRS, LISN, France)
Pierre Zweigenbaum‬, Ph.D. (Université Paris-Saclay, CNRS, LISN, France)

アドバイザ

標葉 隆馬, Ph.D.(大阪大学)