テキストデータマイニングの活用事例
シュプリンガーネイチャーのジャーナルコンテンツやテキストデータマイニングAPIは、BenevolentAIのAIを活用した創薬プロセスを支えています。
BenevolentAIは、AIを活用して臨床段階の新薬開発を手掛けるAI創薬の代表的企業です。AIプラットフォーム、科学的専門性、ウェットラボなど複数の強みを生かし、従来の手法による創薬よりも高い臨床効果が期待できる新薬候補の開発に取り組んでいます。これまでにも、科学的に実証された新発見を次々に達成した実績のある企業です。創薬パイプライン計画も着々と成長していて、同社のBenevolentAI PlatformTMを活用して、標的の発見から臨床研究まで幅広いステージを網羅する20以上の計画を社内で進めているほか、製薬会社のアストラゼネカや有力な研究機関、慈善機関などとも良好な提携関係を維持しています。本社はロンドン。ケンブリッジ(英国)に研究所、ニューヨークにも事業所があります。
BenevolentAIで情報・データ関連分野担当のシニアバイスプレジデントを務めるMark Davies氏は、同社が所有するデータの内容や形式の適切性の確保を担当しています。データの質は、同社のプラットフォームが機能を十分に発揮して創薬に貢献するための基盤となるものです。Davies氏が管理するデータには、特許関連データ、提携機関のデータ、大手出版社が発行するSTMジャーナルのコンテンツなどが含まれています。
同社のプラットフォームには数千万本の公開論文、特許、臨床試験、その他重要な情報源から膨大な情報が集まります。BenevolentAIの研究者はその幅広いデータとそれを支えるツールやテクノロジーを活用して、仮説を検証するための質問をし、新しい標的を素早く特定し、疾患治療への有効性が期待できる医薬品を設計しています。
COVID-19による世界的パンデミックの初期段階で、BenevolentAIの研究チームはイーライリリーのバリシチニブのリポジショニングがCOVID-19の治療に有効である可能性があることを発見しました。この情報を受けてイーライリリーは臨床試験を行い、その結果、米国食品医薬品局(FDA)は人工呼吸器装着患者用のレムデシビルと合わせて、バリシチニブの緊急使用を許可しました。COV-Barrier試験で入院患者にバリシチニブを投与すると死亡が38%減少することが明らかになり、UK RECOVERY試験のデータからもバリシチニブの救命効果が確認されました。このとき、BenevolentAIがバリシチニブの治療効果の可能性を特定するまでに要した期間はわずか2日間でした。
BenevolentAIは業界でも珍しく、AIを活用した仮説駆導型の創薬アプローチを採用しています。そのため、従来型の創薬企業や機関に比べて成功(あるいは失敗)するまでの期間が短く、開発の早い段階で最適な標的を特定することが可能で、不適切な投資や、長期にわたる開発が最終的に失敗に終わるといった事態を避けることができます。
シュプリンガーネイチャーとの連携
BenevolentAIは2018年にシュプリンガーネイチャーとの提携を開始し、現在に至っています。シュプリンガーネイチャーは世界最大級の学術出版社であり、業界を代表する数々のジャーナルを出版して膨大な数の査読済み論文を掲載し、多くの読者を獲得しています。BenevolentAIはシュプリンガーネイチャーのテキストデータマイニング(TDM)APIを使って購読中のジャーナルのコンテンツをプラットフォームに取り込んでいますが、そのデータの形式が統一されていること、機械で読み取り可能であること、業界標準形式であることが極めて重要だとDavis氏は述べています。
「当社のチームが必要なデータを必要なときにすぐ入手できなくてはなりません。それはまず初めにテキストやデータのマイニングから始まります」
「当社のチームが最高品質の科学文献へのアクセスを望んでいたので、その期待に応えるために、シュプリンガーネイチャーが出版しているコンテンツへのアクセスを確保することにしました。」とDavies氏は述べた上で、こう続けました。「最初にシュプリンガーネイチャーと接点を持ったのはそれが理由でしたが、2018年に始まった連携が今も続いているのは、導入されているテクノロジーやデータ提供機能が適切で、コンテンツを利用しやすいことが早い時期から明らかになっていたからです。当社の既存パイプラインに即座に情報を投入し、独自の知見を創出して、創薬プロセスに生かすことが可能なのです」
Davies氏は、新型コロナ患者向けの候補薬を特定する取り組みを振り返って、次のように述べました。
「パンデミックの初期に特定できたのは、研究者のまさに手元にデータがあったからです。研究者は当社の知識やシステムにアクセスするわけですが、そこには生体メカニズムや疾患の仕組み、それらがどう混乱するのか、どのように理解されるのか、そして、最終的に望ましい反応を引き起こす治療法の開発にどうつなげるのか、そういったことに関する包括的な情報がすべて入っていたのです」
「導入されているテクノロジーやデータ提供機能が適切で、コンテンツを利用しやすいことが、早い時期から明らかになりました」
最後にDavis氏は、「当社は、新しい治療介入が患者に届くまでの時間や、疾病に苦しむ人の生活が改善するまでの時間を短縮させることを目指しています。そのためには、当社のチームが必要なデータを必要なときにすぐ入手できなくてはなりません。それはまず初めにテキストやデータのマイニングから始まり、出版社のアウトプットもそうですし、情報がいかに素早く浮上して、それを理解できる研究者のもとに届くかということが、極めて重要なのです。今後もシュプリンガーネイチャーをはじめとする出版社と協力し、コンテンツの理解に自然言語処理(NLP)を用いるなどして、知識基盤の強化に貢献し、仮説の創出や検証を可能にする知見を確保していきます。それこそが当社、そして業界全体を支える土台ですから、これからもさらに力を入れていくつもりです」と述べています。
*本稿の原本は英語であり、日本語は参考翻訳です。オリジナルの英語版はこちらからダウンロードいただけます。