MedTxt-CR: 症例報告 (Case Reports) コーパス

J-Stageでオープンアクセス公開されている症例報告論文PDFからOCR抽出したテキストのコーパスです．

病名や部位名などがアノテーションされており，固有表現抽出の評価用データセットとして使用可能です．また，アノテーションを維持したまま英語にも翻訳されたパラレルコーパスにもなっています．

掲載論文誌から再配布許可を得た部分（148件）を Real-MedNLP Test Collection から配布していますのでご利用ください．

作成手順

論文PDF収集: J-Stage でオープンアクセス公開されている論文のうち，クエリ「症例」で検索して得られた文献PDFを収集
OCRによるテキスト抽出: OCRソフトウェアを用いて論文からテキストを抽出 → 3148件
非文除去: 本文以外のテキスト（タイトル・著者名・ヘッダー・フッター・ページ番号・参考文献・図・表・キャプション・英文要旨），およびOCR エラーにより日本語として理解できない文字列を目視で発見し，除去
文整形: 1 行1文となるように整形
頻出病名の記事に絞り込み: 一般的な病名について外部コーパスでの出現頻度にそって文書数をバランス（万病辞書の頻度情報を利用）
- その他の条件：
  - 本文の文字数1500字以内
  - 報告症例が比較的最近（2010年以降）と思われるもの
単語・フレーズレベルOCRエラーが多い文書を除外 → 224件
単語・フレーズレベルのOCRエラーを，元の論文PDFを見ながら復元
発行元学会に問い合わせ，アノテーションを付与して再配布する許諾が得られたものを公開 → 148件

NERアノテーション

以下の医療表現エンティティをXMLタグ形式で付与した（カッコ内はタグ名）．

病名/症状 Disease (d)
臓器/部位 Anatomical part (a)
特徴/尺度 Feature (f)
変化 Change (c)
時間表現 TIMEX3
検査 Test: [検査名 TestTest (t-test), 検査項目 TestKey (t-key), 検査値 TestVal (t-val)]
薬品 Medicine: [薬品名 MedicineKey (m-key), 薬品値 MedicineVal (m-val)]
処置 Remedy (r)
クリニカルコンテキスト ClinicalContext (cc)
保留 Pending (p)

アノテーション仕様は下記論文に従った．

矢田竣太郎, 田中リベカ, Fei Cheng, 荒牧英治, 黒橋禎夫：汎用的な臨床医学テキストアノテーション仕様およびガイドラインの策定：重篤肺疾患ドメインに着目して，自然言語処理，29(4), pp. 1165-1197, 2022 (2022/12/15) [OPEN ACCESS]

Shuntaro Yada, Ayami Joh, Ribeka Tanaka, Fei Cheng, Eiji Aramaki and Sadao Kurohashi: Towards a Versatile Medical-Annotation Guideline Feasible Without Heavy Medical Knowledge: Starting From Critical Lung Diseases, In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020) (Poster), 4565‑4572, 2020. [OPEN ACCESS]

参考文献

本コーパスを利用された方は，以下を引用してください．

Shuntaro Yada, Yuta Nakamura, Shoko Wakamiya, Eiji Aramaki: Real-MedNLP: Overview of REAL document-based MEDical Natural Language Processing Task, In Proceedings of the 16th NTCIR Conference on Evaluation of Information Access Technologies (NTCIR-16), pp. 285-296, 2022 [PDF]