コンテンツへスキップ

MedTxt-CR: 症例報告 (Case Reports) コーパス

 J-Stageでオープンアクセス公開されている症例報告論文PDFからOCR抽出したテキストのコーパスです.

病名や部位名などがアノテーションされており,固有表現抽出の評価用データセットとして使用可能です.また,アノテーションを維持したまま英語にも翻訳されたパラレルコーパスにもなっています.

掲載論文誌から再配布許可を得た部分(148件)を Real-MedNLP Test Collection から配布していますのでご利用ください.

作成手順

  1. 論文PDF収集: J-Stage でオープンアクセス公開されている論文のうち,クエリ「症例」で検索して得られた文献PDFを収集
  2. OCRによるテキスト抽出: OCRソフトウェアを用いて論文からテキストを抽出 → 3148件
  3. 非文除去: 本文以外のテキスト(タイトル・著者名・ヘッダー・フッター・ページ番号・参考文献・図・表・キャプション・英文要旨),およびOCR エラーにより日本語として理解できない文字列を目視で発見し,除去
  4. 文整形: 1 行1文となるように整形
  5. 頻出病名の記事に絞り込み: 一般的な病名について外部コーパスでの出現頻度にそって文書数をバランス(万病辞書の頻度情報を利用)
    • その他の条件:
      • 本文の文字数1500字以内
      • 報告症例が比較的最近(2010年以降)と思われるもの
  6. 単語・フレーズレベルOCRエラーが多い文書を除外 → 224件
  7. 単語・フレーズレベルのOCRエラーを,元の論文PDFを見ながら復元
  8. 発行元学会に問い合わせ,アノテーションを付与して再配布する許諾が得られたものを公開 → 148件

NERアノテーション

以下の医療表現エンティティをXMLタグ形式で付与した(カッコ内はタグ名).

  • 病名/症状 Disease (d)
  • 臓器/部位 Anatomical part (a)
  • 特徴/尺度 Feature (f)
  • 変化 Change (c)
  • 時間表現 TIMEX3
  • 検査 Test: [検査名 TestTest (t-test), 検査項目 TestKey (t-key), 検査値 TestVal (t-val)]
  • 薬品 Medicine: [薬品名 MedicineKey (m-key), 薬品値 MedicineVal (m-val)]
  • 処置 Remedy (r)
  • クリニカルコンテキスト ClinicalContext (cc)
  • 保留 Pending (p)

アノテーション仕様は下記論文に従った.

矢田 竣太郎, 田中 リベカ, Fei Cheng, 荒牧 英治, 黒橋 禎夫:汎用的な臨床医学テキストアノテーション仕様およびガイドラインの策定:重篤肺疾患ドメインに着目して,自然言語処理,29(4), pp. 1165-1197, 2022 (2022/12/15) [OPEN ACCESS]

Shuntaro Yada, Ayami Joh, Ribeka Tanaka, Fei Cheng, Eiji Aramaki and Sadao Kurohashi: Towards a Versatile Medical-Annotation Guideline Feasible Without Heavy Medical Knowledge: Starting From Critical Lung Diseases, In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020) (Poster), 4565‑4572, 2020. [OPEN ACCESS]

参考文献

本コーパスを利用された方は,以下を引用してください.

Shuntaro Yada, Yuta Nakamura, Shoko Wakamiya, Eiji Aramaki: Real-MedNLP: Overview of REAL document-based MEDical Natural Language Processing Task, In Proceedings of the 16th NTCIR Conference on Evaluation of Information Access Technologies (NTCIR-16), pp. 285-296, 2022 [PDF]