J-MedStd CR: 症例報告 (Case Reports) コーパス

J-Stageでオープンアクセス公開されている症例報告論文PDFからOCR抽出したテキストのコーパスです.提供するデータは以下の通りです.

  • OCR抽出テキスト全文書(3148件)←OCRエラーによる非文を削除
  • 東大病院頻出病名サブセット(227件)←単語レベルのOCRエラー修正・NERアノテーション済み

利用希望の方はぜひ本研究室(下記メールアドレス)までお問い合わせください
socialcomputing-office [at] is.naist.jp

J-Stageの利用規約・著作権規定により本サイトでの一般公開ができませんが,申請いただくことで無償でご利用いただけます.各データの詳細を以下にまとめます.

OCR抽出テキスト全文書

作業手順

  1. 非文除去: OCR エラーにより,日本語として理解できない文字列を目視で発見し,除去する
    • タイトル・著者名・ヘッダー・フッター・ページ番号・参考文献・図・表・キャプション・英文要旨も除去
  2. 文整形: 1 行1文となるように整形する

データ形式

1つの症例報告が下記のような構造のXML形式でファイル化されている.

<ROOT>
<PERSON ID="JP0022" SEX="MALE|FEMALE" AGE="XX" CATEGORY="糖尿病">・・・患者情報
<ARTICLE ID="JP0022" DATE="2012-12-29" TITLE="〜〜の報告">・・・・・・・・文書情報
・・・本文・・・
</ARTICLE>
</PERSON>
<ROOT>

属性値であるSEXやAGEなどが不明な場合は”-1″を与えている.

文書例(HTMLで整形したもの)– 和田 琢ほか「アバタセプト投与後に肺間質影が増悪した関節リウマチの1例」日本臨床免疫学会会誌, 35(5), 433-438, 2012.

統計データ

東大病院頻出病名サブセット

作業手順

  1. 東京大学附属病院の診療録に出現する病名のうち,出現頻度上位25%の病名を含むものを抽出
    • 扱われる病名の分布を頻出
  2. 単語・フレーズレベルOCRエラーが多い文書を除外
  3. 単語・フレーズレベルのOCRエラーを,元のPDFを見ながら復元

NERアノテーション

以下の医療表現エンティティをXMLタグ形式で付与した(カッコ内はタグ名).

  • 病名/症状 Disease (d)
  • 臓器/部位 Anatomical part (a)
  • 特徴/尺度 Feature (f)
  • 変化 Change (c)
  • 時間表現 TIMEX3
  • 検査 Test: [検査名 TestTest (t-test), 検査項目 TestKey (t-key), 検査値 TestVal (t-val)]
  • 薬品 Medicine: [薬品名 MedicineKey (m-key), 薬品値 MedicineVal (m-val)]
  • 処置 Remedy (r)
  • クリニカルコンテキスト ClinicalContext (cc)
  • 保留 Pending (p)

アノテーション仕様は下記論文に従った.

Yada, S., Joh, A., Tanaka, R., Cheng, F., Aramaki, E., & Kurohashi, S. (2020). Towards a Versatile Medical-Annotation Guideline Feasible Without Heavy Medical Knowledge: Starting From Critical Lung DiseasesProceedings of The 12th Language Resources and Evaluation Conference, 4567–4574.

文書例(HTMLで整形したもの)– 吉永晃大「腸脛靭帯摩擦症候群を疑った変形性膝関節症患者: 膝外側部痛に対するプレーティングアプローチによる介入の一症例」理学療法学Supplement, 46S1(0), H2-208_1-H2-208_1, 2019.

統計データ

タグごとの総出現頻度
文書に含まれるタグ数の記述統計量