コンテンツへスキップ

リアルワールドテキスト処理の深化によるデータ駆動型探薬 

 我々は自然言語処理を用いて医薬品の新たな使用法の探索を行なっています

 NLP探薬:従来は困難であった大規模な電子カルテ・テキストの遡及的調査を自然言語処理によって自動化し、有効な薬剤の組み合わせ(シナジー効果)や予期せぬ副作用(有害事象),さらには適応拡大に繋がる可能性のある情報を抽出しています.

NLP探薬の仕組み

医薬品に関する情報とは,突き詰めれば「ある薬剤(または薬剤の組み合わせ)の投与によって,特定のイベントが発生したかどうか」という情報の蓄積に他なりません.たとえば,ある薬剤Xが症状Aに効果があるとされる場合,それはXを投与された患者群と投与されていない群との間で,症状Aの発生頻度に統計的な差が認められたことを意味します.このような情報は,時間経過に伴うイベントの発生割合を可視化する「カプランマイヤー図」として表現されることが一般的です.この方法は,臨床試験や観察研究の基本形として広く用いられています.

しかし,現実の医療現場では,複雑な問いが日々生まれています.たとえば,「抗がん剤Xは高い効果を示す一方で,副作用Aを引き起こすが,併用薬Yを加えることでその副作用を軽減できるのではないか」といった問いです.このような仮説を検証するためには,XとYを併用した群とXのみを投与した群を比較する必要があります.ただし,ここで問題となるのは,両群の患者背景が一致しているとは限らないという点です.たとえば,重症度の高い患者にYが多く投与されている場合,X+Y群とXのみ群とで公平な比較が難しくなります.こうした交絡因子の影響を排除するために,統計的な「疫学的調整」が必要となりますが,この調整の結果,比較可能な症例数が大幅に減少してしまうこともあります.したがって,こうした比較研究を成立させるためには,初期段階で大量の患者データを確保する必要が生じます.

さらに難しいのは,「Xの副作用を最も抑えるYを探索したい」といったオープンクエスチョン型の問いです.この種の問題に対しては,前向きの臨床試験(RCT)を実施するには,組み合わせの数が膨大となり,現実的ではありません.一方,電子カルテに記録された実臨床のデータ(リアルワールドデータ)を活用すれば,理論上,後ろ向き調査によって広範な仮説検証が可能です.しかしそのためには,自由記述のテキストから「イベント発生」を抽出し,背景調整を含む疫学的解析を行うという複雑な処理が必要になります.

この課題を解決するため,私たちは自然言語処理(NLP)による自動抽出技術疫学的調整の半自動化を組み合わせたフレームワーク「NLP探薬」を構築しました.これにより,大規模な電子カルテテキストに記録された情報から,有効な薬剤の組み合わせ,副作用の軽減,あるいは適応拡大の可能性といった多様な知見を,効率的かつ同時に抽出することが可能になります.本フレームワークは,特定の仮説に依存せず,データ駆動型で医薬品情報を探索・検証できる柔軟性があるため,今後の創薬研究や副作用軽減戦略に新たな道を開くものと期待しています.

自然言語処理による有害事象シグナルの自動抽出と効果検証の半自動化

自然言語処理技術(Natural Language Processing; NLP)を用いて、有害事象の発生シグナルを自動で抽出する技術を開発しました。これに加え、統計的な交絡調整を組み合わせることで、医薬品の効果検証を半自動で実施できるようになりました。

ツールとフレームワークの構成
この「NLP探薬」フレームワークは、以下の3要素から構成されています:

  1. データベース:電子カルテの自由記述テキストおよびDPC(Diagnosis Procedure Combination)データ等から構成
  2. 言語処理:テキスト解析技術(奈良先端科学技術大学院大学(NAIST)グループが開発)
  3. 疫学的調整:統計的因果推論に基づく効果検証(東京大学グループが開発)

なお、1. の医療データベースそのものは非公開ですが、2. の言語処理技術については、MedTXTNER というツールとして一般公開しています。

成果と適用可能性

本研究で提案するフレームワークは,基本的にあらゆる種類の患者情報の抽出に適用可能であり,理論上はどのような情報でも取得することができます.特に,電子カルテが情報源である点に着目すると,電子カルテにしか記載されない可能性のある情報の抽出に活用するのが,より有効なアプローチといえるでしょう.たとえば,むくみしびれといった感覚症状は,画像や検査値からは把握しづらく,患者の主観的な訴えとして電子カルテの自由記述に記録されることが多くあります.こうした記載を自然言語処理によって抽出することで,従来は困難であった新たな分析や調査が可能になります.

CRESTプロジェクト「NLP探薬」では,特にがん領域における副作用情報の抽出に重点を置いて,研究を推進しています.2024年にNLP探薬フレームワークができて以降,多くの研究成果を上げています.

対象疾患ジャーナルIF書誌情報
がんPLOS ONE2.9Yada S, Nishiyama T, Wakamiya S, Kawazoe Y, Imai S, Hori S, Aramaki E*. (2024) Utility analysis and demonstration of real-world clinical texts: A case study on Japanese cancer-related EHRs. PLOS ONE 19(9): e0310432.
抗がん剤関連の有害事象(末梢神経障害,口内炎,味覚異常,食欲不振)npj Digital Medicine15.3Kawazoe Y*, Shimamoto K, Seki T, Tsuchiya M, Shinohara E, Yada S, Wakamiya S, Imai S, Hori S, Aramaki E. Post-marketing surveillance of anticancer drugs using natural language processing of electronic medical records. npj Digit. Med. 7, 315 (2024).
有害事象検出Journal of Medical Internet Research (JMIR)5.8Nishioka S, Watabe S, Yanagisawa Y, Sayama K, Kizaki H, Imai S, Someya M, Taniguchi R, Yada S, Aramaki E, Hori S*. Adverse Event Signal Detection Using Patients’ Concerns in Pharmaceutical Care Records: Evaluation of Deep Learning Models, J Med Internet Res 2024;26:e55794.
B型肝炎Journal of Pharmaceutical Health Care and Sciences1.2Yanagisawa Y, Imai S*, Kizaki H, Hori S. A cross-sectional survey of hepatitis B virus screening in patients who received immunosuppressive therapy for rheumatoid arthritis in Japan. J Pharm Health Care Sci 10, 18 (2024).
心室性不整脈・心停止Journal of Infection14.3Mitsuboshi S, Imai S*, Kizaki H, Hori S. Concomitant use of lansoprazole and ceftriaxone is associated with an increased risk of ventricular arrhythmias and cardiac arrest in a large Japanese hospital database. J Infect., 2024 Jun 17:106202.
低カルシウム血症JCO Clinical Cancer Informatics3.3Ikegami K, Imai S, Yasumuro O, Tsuchiya M, Henmi N, Suzuki M, Hayashi K, Miura C, Abe H, Kizaki H, Funakoshi R, Sato Y, Hori S*. External Validation and Update of the Risk Prediction Model for Denosumab-Induced Hypocalcemia Developed From a Hospital-Based Administrative Database. JCO Clinical Cancer Informatics. 2024:8.
乳がんPLOS ONE2.9Watabe S, Watanabe T, Yada S, Aramaki E, Yajima H, Kizaki H, Hori S*. (2024) Exploring a method for extracting concerns of multiple breast cancer patients in the domain of patient narratives using BERT and its optimization by domain adaptation using masked language modeling. PLOS ONE 19(9): e0305496.
急性腎障害Pharmacotherapy2.9Mitsuboshi S, Imai S*, Kizaki H, Hori S. Association between gastroprotective agents and acute kidney injury in patients receiving non-steroidal anti-inflammatory drugs: Analysis of a Japanese hospital-based database. Pharmacotherapy.2024 Nov;44(11):851-860.
低カルシウム血症Maturitas3.9Kamimura Y, Ikegami K, Imai S, Kizaki H, Hori S*. Exploration of factors affecting denosumab-induced hypocalcemia in male patients with osteoporosis using a hospital-based administrative claims database. Maturitas. 108190, December 28, 2024.
好中球減少症の回復遅延(膵臓がん)Journal of Cancer3.3Yoshida N, Imai S, Kawakami K, Yokokawa T, Nakamura M, Aoyama T, Shimizu H, Naito R, Teramae M, Tsuchiya M, Kizaki H, Ozaka M, Sasahira N, Yamaguchi M, Hori S*. Factors Affecting Delayed Recovery from Neutropenia in Patients with Pancreatic Cancer Receiving Gemcitabine plus Nab-Paclitaxel. J Cancer 2025; 16(5):1413-1419.
有害事象(前立腺がん外来)JMIR Cancer3.3Yanagisawa Y, Watabe S, Yokoyama S, Sayama K, Kizaki H, Tsuchiya M, Imai S, Someya M, Taniguchi R, Yada S, Aramaki E, Hori S*. Identifying Adverse Events in Outpatients With Prostate Cancer Using Pharmaceutical Care Records in Community Pharmacies: Application of Named Entity Recognition. JMIR Cancer. 2025 Mar 11; 11: e69663.
急性腎障害Pharmacoepidemiology and Drug Safety2.4Mitsuboshi S, Imai S*, Tsuchiya M, Kizaki H, Hori S. Accuracy of Diagnostic Coding for Acute Kidney Injury in Japan-Analysis of a Japanese Hospital-Based Database. Pharmacoepidemiol Drug Saf. 2025 Apr;34(4):e70146.
アンスラサイクリン誘発性心毒性Scientific Reports4.3Kawazoe Y*, Tsuchiya M, Shimamoto K, Seki T, Shinohara E, Yada S, Wakamiya S, Imai S, Aramaki E, Hori S.: Natural language processing of electronic medical records identifies cardioprotective agents for anthracycline induced cardiotoxicity. Sci Rep 15, 6678 (2025).
高血圧(チロシンキナーゼ阻害薬関連)Cancer Reports1.5Nakanishi S, Ikegami K, Imai S, Kizaki H, Hori S*. Incidence Status and Factors Associated With Tyrosine Kinase Inhibitor-Induced Hypertension in Patients With Renal Cell Carcinoma. Cancer Rep (Hoboken). 2025 May;8(5):e70219.
低カルシウム血症(デノスマブ関連)Biological and Pharmaceutical Bulletin1.7Ikegami K, Tsuchiya M, Imai S, Fujita Y, Yasumuro O, Kizaki H, Funakoshi R, Sato Y, Hori S*. Validation of Risk Prediction System for Denosumab-Induced Hypocalcemia with an External Clinical Dataset. Biol Pharm Bull. 2025;48(6):860-863.

メンバー

医療言語処理基盤の開発

NAISTグループ

荒牧 英治・奈良先端科学技術大学院大学・先端科学技術研究科・教授

若宮 翔子・奈良先端科学技術大学院大学・先端科学技術研究科・准教授

矢田 竣太郎・奈良先端科学技術大学院大学・先端科学技術研究科・客員准教授

西山 智弘・奈良先端科学技術大学院大学・先端科学技術研究科・助教

工藤 紀子・奈良先端科学技術大学院大学・先端科学技術研究科・博士研究員

藤牧 貴子・奈良先端科学技術大学院大学・先端科学技術研究科・博士研究員

シナジー薬のin silico探索と医療言語処理基盤の高度化

東京大学グループ

河添 悦昌・東京大学大学院医学系研究科・医療AI開発学講座・特任准教授(講座長)

篠原 恵美子・東京大学大学院医学系研究科・医療AI開発学講座・特任助教

嶋本 公徳・東京大学大学院医学系研究科・医療AI開発学講座・特任研究員

松居 宏樹・東京大学院医学系研究科・公共健康医学専攻疫学保健学講座・助教

薬学的探薬シーズの抽出と候補薬の効果検証

慶應大グループ

堀 里子慶應義塾大学薬学部・医薬品情報学講座・教授

今井 俊吾・慶應義塾大学薬学部・医薬品情報学講座・准教授

土屋 雅美・慶應義塾大学薬学部・医薬品情報学講座・特任講師

木崎 速人・慶應義塾大学薬学部・医薬品情報学講座・助教

金 倫基・慶應義塾大学薬学部・創薬研究センター・教授

FAQ

A:一部,オープンソースとして公開している部分は公開可能です.

A:原理的には可能です.しかし,NLP探薬は,電子カルテテキストから情報を抽出する技術をベースとしており,そもそも,電子カルテテキストに存在しない情報を捉えることはできません.したがって,あらゆる研究に適用可能ですが,得られる情報の信頼性は用途に依存します.

A:大規模データの方が効果が大きいとは思いますが,どのような規模でも実施可能です.

News