MedTxt-CR: 症例報告 (Case Reports) コーパス

 J-Stageでオープンアクセス公開されている症例報告論文PDFからOCR抽出したテキストのコーパスです.提供するデータは以下の通りです.

 

  • OCR抽出テキスト全文書(3148件)←OCRエラーによる非文を削除
  • 頻度バランスサブセット(224件)←単語レベルのOCRエラー修正・NERアノテーション済み

利用希望の方はぜひ本研究室(下記メールアドレス)までお問い合わせください
socialcomputing-office [at] is.naist.jp

J-Stageの利用規約・著作権規定により本サイトでの一般公開ができませんが,申請いただくことで無償でご利用いただけます.各データの詳細を以下にまとめます.

また,近日中に,本ページでの再配布の許可が得られたデータをダウンロード可能にする予定です.

OCR抽出テキスト全文書

作業手順

  1. 非文除去: OCR エラーにより,日本語として理解できない文字列を目視で発見し,除去する
    • タイトル・著者名・ヘッダー・フッター・ページ番号・参考文献・図・表・キャプション・英文要旨も除去
  2. 文整形: 1 行1文となるように整形する

データ形式

1つの症例報告が下記のような構造のXML形式でファイル化されている.

<ROOT>
<PERSON ID="22" SEX="MALE|FEMALE" AGE="XX" CATEGORY="糖尿病"> ……患者情報
  <ARTICLE ID="22-1" DATE="2012-12-29" TITLE="〜〜の報告"> ……記事情報
  ……本文……
  </ARTICLE>
</PERSON>
<ROOT>

 属性値であるSEXやAGEなどが不明な場合は”-1″を与えている.

 

 

文書例(HTMLで整形したもの)– 和田 琢ほか「アバタセプト投与後に肺間質影が増悪した関節リウマチの1例」日本臨床免疫学会会誌, 35(5), 433-438, 2012.

統計データ

頻度バランスサブセット

作業手順

  1. 一般的な病名について実際に出現頻度にそって文書数をバランス
    • その他の条件:
      • 本文の文字数1500字以内
      • 報告症例が比較的最近(2010年以降)と思われるもの
  2. 単語・フレーズレベルOCRエラーが多い文書を除外
  3. 単語・フレーズレベルのOCRエラーを,元の論文PDFを見ながら復元

NERアノテーション

以下の医療表現エンティティをXMLタグ形式で付与した(カッコ内はタグ名).

  • 病名/症状 Disease (d)
  • 臓器/部位 Anatomical part (a)
  • 特徴/尺度 Feature (f)
  • 変化 Change (c)
  • 時間表現 TIMEX3
  • 検査 Test: [検査名 TestTest (t-test), 検査項目 TestKey (t-key), 検査値 TestVal (t-val)]
  • 薬品 Medicine: [薬品名 MedicineKey (m-key), 薬品値 MedicineVal (m-val)]
  • 処置 Remedy (r)
  • クリニカルコンテキスト ClinicalContext (cc)
  • 保留 Pending (p)

アノテーション仕様は下記論文に従った.

Yada, S., Joh, A., Tanaka, R., Cheng, F., Aramaki, E., & Kurohashi, S. (2020). Towards a Versatile Medical-Annotation Guideline Feasible Without Heavy Medical Knowledge: Starting From Critical Lung DiseasesProceedings of The 12th Language Resources and Evaluation Conference, 4567–4574.

 

 

文書例(HTMLで整形したもの)– 吉永晃大「腸脛靭帯摩擦症候群を疑った変形性膝関節症患者: 膝外側部痛に対するプレーティングアプローチによる介入の一症例」理学療法学Supplement, 46S1(0), H2-208_1-H2-208_1, 2019.

統計データ

(下記数値は227ファイルあったときのものです.近日中に修正予定です)

 

 

タグごとの総出現頻度

 

 

文書に含まれるタグ数の記述統計量