万病辞書

臨床現場で実際に使われる病名を解析するための大規模な病名辞書

医療文書から病名を抽出する処理は,これまで医療言語処理分野の研究では盛んに行われてきました.病名抽出にはICDのような標準規格で規定された病名を用いることがほとんどでした.しかし,実際の医療現場では,正式名称ではなく略記や英語名を用いることが少なくありません.そのため,定型的な病名コードだけでは症状や病名に関する情報をすべて抽出したいといった要望には応えることができません. そこで,ソーシャル・コンピューティング研究室では,医療従事者が記載した電子カルテや退院サマリから,症状や病名に関連する語を広く抽出したデータを作成し,“万病辞書”と名付けました. 本サイトでは,万病辞書ならびに関連データを公開していますので,ご自由にご利用ください.

アンケート

万病辞書について,ご意見・ご要望がございましたら,下記よりご回答ください.
お答えいただいた内容は,今後の万病辞書の改善のための貴重な資料として使わせていただきます.

アンケート(別ページに移動します)

ダウンロード

万病辞書データ

  • MANBYO_201907 (更新日:2019/07/04.ダウンロードファイル:zip (14.5MB)(辞書ファイル:xlsx (15.6MB),README: md, pdf))
  • MANBYO_201905 (更新日:2019/05/27.ダウンロードファイル:zip (14.6MB)(辞書ファイル:xlsx (15.6MB),README: md, pdf))
  • MANBYO_201810 (更新日:2018/10/12.ダウンロードファイル:zip (4.5MB)(辞書ファイル:xlsx (4.5MB),README: md, pdf))
  • MANBYO_201806 (更新日:2018/06/08.ダウンロードファイル:zip (3.4MB)(辞書ファイル:xlsx (3.1MB),README: md))

Mecab用辞書データ

万病辞書データを形態素解析器MeCab で利用できる形式へ変換した辞書です.

ドキュメント

仕様

万病辞書の抜粋

オリジナルデータ

万病辞書 (MANBYO_201905以降) の構成
詳細はデータに含まれるREADMEをご覧ください.

カラム名 説明
出現形 電子カルテや退院サマリから抽出された症状・病名
(例:11β−水酸化酵素欠損症, 18常染色体異常等)
ICD10コード 出現形に対応する,ICD10対応標準病名マスター (*1) に記載されているICD10コード.ただし,次の場合には -1を付与:1) 4つ以上のコードが存在する場合(3つまでは全て付与),2) 断⽚的な情報のみで判断が困難な場合,3) コードが存在していない場合
標準病名 出現形に対応する,ICD10対応標準病名マスター (*1) に記載されているICD10対応標準病名
信頼度LEVEL S: ICD10対応標準病名マスター (*1) に記載されている症状・病名(約25,000件)
  A: 2名以上の医療従事者が同じコードを付与した症状・病名
  B: 2名以上の医療従事者が相談してコードを付与した症状・病名
  C: 1名の医療従事者がコードを付与した症状・病名
  D: 計算機が自動的に割り当てた症状・病名
  E: 新規に追加された症状・病名のうち,万病辞書に収載済み病名のICD コードと標準病名を元に,計算機が自動的に割り当てた症状・病名
  F: 新規に追加された症状・病名のうち,万病辞書に収載済み病名のICD コードと標準病名を元に,計算機が自動的に割り当てられなかった症状・病名
しゅつげんけい;icd=ICD10コード;lv=信頼度LEVEL/freq=頻度LEVEL;標準病名 ICD10コードや標準病名などから作成した複合文字列のラベル

*1: ICD10対応標準病名マスター (V4.04 2018年4月1日改訂) を利用

信頼度レベルごとの件数(MANBYO_201907)

データラベルは「信頼度LEVEL; 件数; パーセンテージ」を表しています.

信頼度レベルごとの件数

オンラインデモ

万病辞書内のデータをオンラインで閲覧することができます.下記のフォームに症状や病名を入力し,検索ボタンを押してください.
検索

万病検索

万病辞書内のデータを検索することができるWebサービスです.

万病検索

MeCab用辞書の利用手順

1. 形態素解析器MeCab のインストール(参考:Mecab公式サイト本研究室でまとめた手順

  • 形態素解析器Mecab をお使いのマシンにインストールしてください.
    なお,Windows環境をお使いの場合は,必ず「SHIFT-JIS」を選択してください.  
  • Mecabが存在するディレクトリを環境変数のpathに追加してください.

2. 辞書データの読み込み

辞書データ(.dicファイル)をCドライブの直下等に配置してください.

3. 形態素解析の実行

コマンドプロンプト上で,辞書データを配置したディレクトリへ移動し,”mecab -u 辞書ファイル名” と入力してください.ユーザ辞書として辞書ファイルを読み込んで,Mecab が立ち上がります. 症状や病名を含むテキストを入力すると,万病辞書を適用した形態素解析結果が表示されます.

例えば,「今朝から片頭痛があり、胃がむかむかする。」というテキストを辞書データを読み込んで解析(”mecab -u MANBYO_201905_Dic-sjis.dic” を実行)すると ,下記のように「片頭痛」と「胃がむかむかする」の解析結果に万病辞書の情報が付与されます.

万病辞書を用いた解析結果

「片頭痛」の解析結果の見方は下記の通りです.

  • へんずつう;icd=G439;lv=S/freq=高頻度;片頭痛:<しゅつげんけい;icd=ICDコード;lv=信頼度LEVEL/freq=頻度LEVEL;標準病名>ラベル
  • へんずつう:<しゅつげんけい(読み)>
  • へんずつう:<しゅつげんけい(発音)>
  • 18403:<頻度>

謝辞

「万病辞書」は主に厚生労働科学研究費補助金「カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築,及び,自動構造化機能を有した入力機構の開発」(研究代表者:荒牧英治)のサポートにて,奈良先端科学技術大学院大学と東京大学医学部附属病院により構築されました.

プライバシーポリシー

奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室(以下,本研究室)が提供する成果物のプライバシーポリシーを定めます. 使用される方は,本規約を熟読し,内容をご理解いただいた後に,使用を開始していただくようお願いいたします.

免責事項

成果物は,可能な限り細心の注意を払って開発しました. しかし,完全な信頼性や堅牢性を保証しているわけではありません. 結果的に本アプリ及びデータを使用して何らかの問題が発生した場合,提供元である本研究室は一切の責任を負いかねます. ご使用になる場合には自己責任でご活用いただくようお願いいたします.