百薬辞書

臨床現場で実際に使われる医薬品名を解析するための大規模な医薬品名辞書

医療文書から病名や医薬品名を抽出する処理は,これまで医療言語処理分野の研究では盛んに行われてきました.しかし,実際の医療現場では,医薬品の一般名ではなく略記や英語名を用いることが少なくありません.そのため,定型的な一般名だけでは医薬品に関する情報をすべて抽出したいといった要望には応えることができません.そこで,ソーシャル・コンピューティング研究室では,医薬品に関連する語を広く抽出したデータを作成し,“百薬辞書”と名付けました.本サイトでは,百薬辞書ならびに関連データを公開していますので,ご自由にご利用ください.

ダウンロード

百薬辞書データ  

  • 準備中

Mecab用辞書データ

百薬辞書データを形態素解析器Mecabで利用できる形式へ変換した辞書です.

  • 準備中 

仕様

百薬辞書の抜粋

百薬辞書の構成

カラム名 説明
出現形 本研究室で収集した医療文書から抽出された医薬品名(全角)
出現形よみ 出現形のよみ
一般名 出現形に対応する医薬品の一般名(全角)
KEGG文書ID KEGG: Kyoto Encyclopedia of Genes and Genome DRUG データベースにおけるID
頻度レベル 本研究室で収集した医療文書における出現形の使用頻度に基づき5%区切りで付与した20段階のレベル

MeCab用辞書の利用手順

1. 形態素解析器MeCab のインストール(参考:Mecab公式サイト本研究室でまとめた手順

  • 形態素解析器Mecab をお使いのマシンにインストールしてください.  
  • Mecabが存在するディレクトリを環境変数のpathに追加してください.

2. 辞書データの読み込み
辞書データ(.dicファイル)をCドライブの直下等に配置してください.

3. 形態素解析の実行
コマンドプロンプト上で,辞書データを配置したディレクトリへ移動し,”mecab -u 辞書ファイル名” と入力してください.ユーザ辞書として辞書ファイルを読み込んで,Mecab が立ち上がります. 医薬品名を含むテキストを入力すると,百薬辞書を適用した形態素解析結果が表示されます.
例えば,「ステロイドを処方」というテキストを辞書データを読み込んで解析(”mecab -u HYAKUYAKU-utf8_v202007.dic” を実行)すると ,下記のように「ステロイド」の解析結果に百薬辞書の情報が付与されます.

プライバシーポリシー

奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室(以下,本研究室)が提供する成果物のプライバシーポリシーを定めます. 使用される方は,本規約を熟読し,内容をご理解いただいた後に,使用を開始していただくようお願いいたします.

免責事項

成果物は,可能な限り細心の注意を払って開発しました. しかし,完全な信頼性や堅牢性を保証しているわけではありません. 結果的に本アプリ及びデータを使用して何らかの問題が発生した場合,提供元である本研究室は一切の責任を負いかねます. ご使用になる場合には自己責任でご活用いただくようお願いいたします.