MedNLP-CHAT

更新情報

MedNLP-CHATについて

医療自然言語処理(Medical Natural Language Processing)におけるAIチャット(MedNLP-CHAT)は,NTCIR-18のコアタスクの1つであり,医療チャットボットを様々な観点に基づいて評価することを目的としています.

医療チャットボットサービスは,医療・ヘルスケアにおける人材問題の有望な解決策です.しかし,医療チャットボットのリスクはあまりよく知られていません.MedNLP-CHATでは,医療チャットボットによる質問応答を,医学的リスク,法的リスク,倫理的リスクの客観的な観点から,そして,質問の品質,回答の流暢さ,有用性,有害性の主観的な観点から評価するためのテストベッドを作成しています.

タスク概要

医療に関する質問に対するチャットボットの回答が適切かどうかを判定するタスクです.判定は複数の観点から行います.
標準治療で可能な医療の範囲,法律や倫理などのリスクは,国ごとの医療システムで異なっています.
そこで,本データでは,日本の医療体系で判定したデータ(日本ドメイン)とドイツの医療体系で判定したデータ(ドイツドメイン)の2つを用意しています.ただし,主観ラベルは日本ドメインのみなど,異なる点があります.
  • 入力
    • 質問とそれに対するチャットボットの回答のペア
  • 出力
    • 専門家(医療従事者,法律家,倫理学者)による回答の客観評価:バイナリクラス(TRUE or FALSE)
      • 医学的リスク
      • 倫理的リスク
      • 法的リスク
    • 一般人(クラウドソーシング)による回答の主観評価:5段階評価の分布(日本ドメインのみ)
      • 流暢さ
      • 有用さ
      • 無害さ

データセット

1データは,質問 (question),回答 (answer),回答へのラベルから構成されます.
回答へのラベルには,客観ラベル (risks) と主観ラベル (fluency, helplessness, harmlessness) があります.
客観ラベル (risk) は,専門家(医療従事者,法律家,倫理学者)が判定し,TRUE(リスクあり=不適切),または ,FALSE(リスクなし=適切)を判定しています.TRUE の場合については,その理由をNoteに記載しています(Noteは日本ドメインデータのみで,ドイツドメインデータにはNoteはありません).
主観ラベルについては,一般人(クラウドソーシング)による5段階評価となっており,一般の回答のばらつきも重要と考えたため,5段階評価の分布を載せています.例えば,fluency(流暢さ)なら,非常に流暢 (+2),流暢 (+1),普通 (0),非流暢 (-1),非常に非流暢 (-2) まであり,クラウドソーシングで得た回答の人数が格納されています.この分布を推定するタスクとなります(主観ラベルも 日本ドメインデータのみとなる予定です).

詳しいデータの仕様はREADMEや,今後公開されるoverview paperをご覧ください.

対応言語
日本ドメインデータ,ドイツドメインデータとも多言語に翻訳しています.
日本ドメインデータは,日本語だけでなく英語,フランス語,ドイツ語に翻訳しています.
ドイツドメインデータは,ドイツ語だけでなく英語,フランス語に翻訳しています.

日本ドメインデータセット

  • 質問 (question),回答 (answer),回答へのラベルから構成されます.回答へのラベルには,日本の法律や医療ガイドラインに準拠して専門家が付与した客観ラベル (medical, ethics, and legal risks) と,一般人が付与した主観ラベル (fluency, helplessness, and harmlessness) があります [詳細はこちら].
  • データサイズ:(質問,回答,回答ラベル)を1ペアとして200ペアの構築を準備しています.うち,半分を訓練データとしてタスク参加者に配布しています.
    • 質問と回答ともに,チャットボットの回答を参考に,人間が作成しています.
    • 回答ラベルは,質問応答の回答に対する評価です.専門家による日本の法律や医療ガイドラインに準拠した回答の客観評価 (medical risk, ethical risk, and legal risk) の3ラベルと,一般人による回答の主観評価 (fluency, helpfulness, and harmlessness) の3ラベルからなります.
  • 言語:日本語,英語,ドイツ語,フランス語
    (なお,英語,ドイツ語,フランス語は,日本語を人手で翻訳したものです.ただし,サンプルデータはDeepLを用いて翻訳しています.)
Japan domain データセットの例(英訳付き)

ドイツドメインデータセット

  • 質問 (question),回答 (answer),回答へのラベルから構成されます.
  • データサイズ:(質問,回答,回答ラベル)を1ペアとして200ペアの構築を準備しています.うち,半分を訓練データとして9月に公開予定です.
  • 言語: ドイツ語,英語,フランス語
    なお,英語とフランス語はドイツ語を人手で翻訳したものです.ただしサンプルデータはDeepLを用いて翻訳しています.

参加登録

スケジュール

主催者

荒牧 英治, Ph.D.(奈良先端大)
若宮 翔子, Ph.D.(奈良先端大)
矢田 竣太郎, Ph.D.(奈良先端大)
久田 祥平(奈良先端大)
西山 智弘(奈良先端大)
Lisa Raithel, Ph.D. (DFKI, Germany, TU Berlin, Germany)
Roland Roller, Ph.D. (DFKI, Germany)
Philippe Thomas, Ph.D. (DFKI, Germany)
Hui-Syuan Yeh (Université Paris-Saclay, CNRS, LISN, France)
Pierre Zweigenbaum‬, Ph.D. (Université Paris-Saclay, CNRS, LISN, France)

アドバイザ

標葉 隆馬, Ph.D.(大阪大学)