J-Stageでオープンアクセス公開されている症例報告論文PDFからOCR抽出したテキストのコーパスです.
病名や部位名などがアノテーションされており,固有表現抽出の評価用データセットとして使用可能です.また,アノテーションを維持したまま英語にも翻訳されたパラレルコーパスにもなっています.
作成手順
- 論文PDF収集: J-Stage でオープンアクセス公開されている論文のうち,クエリ「症例」で検索して得られた文献PDFを収集
- OCRによるテキスト抽出: OCRソフトウェアを用いて論文からテキストを抽出 → 3148件
- 非文除去: 本文以外のテキスト(タイトル・著者名・ヘッダー・フッター・ページ番号・参考文献・図・表・キャプション・英文要旨),およびOCR エラーにより日本語として理解できない文字列を目視で発見し,除去
- 文整形: 1 行1文となるように整形
- 頻出病名の記事に絞り込み: 一般的な病名について外部コーパスでの出現頻度にそって文書数をバランス(万病辞書の頻度情報を利用)
- その他の条件:
- 本文の文字数1500字以内
- 報告症例が比較的最近(2010年以降)と思われるもの
- その他の条件:
- 単語・フレーズレベルOCRエラーが多い文書を除外 → 224件
- 単語・フレーズレベルのOCRエラーを,元の論文PDFを見ながら復元
- 発行元学会に問い合わせ,アノテーションを付与して再配布する許諾が得られたものを公開 → 148件
NERアノテーション
以下の医療表現エンティティをXMLタグ形式で付与した(カッコ内はタグ名).
- 病名/症状 Disease (d)
- 臓器/部位 Anatomical part (a)
- 特徴/尺度 Feature (f)
- 変化 Change (c)
- 時間表現 TIMEX3
- 検査 Test: [検査名 TestTest (t-test), 検査項目 TestKey (t-key), 検査値 TestVal (t-val)]
- 薬品 Medicine: [薬品名 MedicineKey (m-key), 薬品値 MedicineVal (m-val)]
- 処置 Remedy (r)
- クリニカルコンテキスト ClinicalContext (cc)
- 保留 Pending (p)
アノテーション仕様は下記論文に従った.
矢田 竣太郎, 田中 リベカ, Fei Cheng, 荒牧 英治, 黒橋 禎夫:汎用的な臨床医学テキストアノテーション仕様およびガイドラインの策定:重篤肺疾患ドメインに着目して,自然言語処理,29(4), pp. 1165-1197, 2022 (2022/12/15) [OPEN ACCESS]
Shuntaro Yada, Ayami Joh, Ribeka Tanaka, Fei Cheng, Eiji Aramaki and Sadao Kurohashi: Towards a Versatile Medical-Annotation Guideline Feasible Without Heavy Medical Knowledge: Starting From Critical Lung Diseases, In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020) (Poster), 4565‑4572, 2020. [OPEN ACCESS]
参考文献
本コーパスを利用された方は,以下を引用してください.
Shuntaro Yada, Yuta Nakamura, Shoko Wakamiya, Eiji Aramaki: Real-MedNLP: Overview of REAL document-based MEDical Natural Language Processing Task, In Proceedings of the 16th NTCIR Conference on Evaluation of Information Access Technologies (NTCIR-16), pp. 285-296, 2022 [PDF]