Search

JP-2026077330-A - 強化学習プログラム,強化学習方法,及び情報処理装置

JP2026077330AJP 2026077330 AJP2026077330 AJP 2026077330AJP-2026077330-A

Abstract

【課題】対象物に対する適切な化合物の3次元分子構造を特定可能とする。 【解決手段】第1対象物に適合させる第1化合物の3次元分子構造を状態Stとし、前記状態Stにおける前記第1化合物に対する、追加原子の種類,前記追加原子の前記3次元分子構造への結合位置,及び前記追加原子の3次元位置の指定を行動Atとし、前記行動Atにより前記3次元分子構造に前記追加原子を結合して得られる3次元分子構造を評価するための指標を報酬Rtとして、機械学習モデルの強化学習を実行する、処理をコンピュータに実行させる。 【選択図】図1

Inventors

  • 小御門 道

Assignees

  • 富士通株式会社

Dates

Publication Date
20260513
Application Date
20241025

Claims (7)

  1. 第1対象物に適合させる第1化合物の3次元分子構造を状態とし、前記状態における前記第1化合物に対する、追加原子の種類,前記追加原子の前記3次元分子構造への結合位置,及び前記追加原子の3次元位置の指定を行動とし、前記行動により前記3次元分子構造に前記追加原子を結合して得られる3次元分子構造を評価するための指標を報酬として、機械学習モデルの強化学習を実行する、 処理をコンピュータに実行させる、強化学習プログラム。
  2. 前記指標は、前記第1対象物の3次元構造と前記行動により得られる前記3次元分子構造との結合の親和性に関する第1指標を含む、 請求項1に記載の強化学習プログラム。
  3. 前記第1指標は、前記第1対象物の3次元構造のエネルギーと前記行動により得られる前記3次元分子構造のエネルギーとの総和エネルギーと、前記第1対象物の3次元構造と前記行動により得られる前記3次元分子構造との結合の配置が最適である場合の全体エネルギーと、の間のエネルギー差を含む、 請求項2に記載の強化学習プログラム。
  4. 前記指標は、前記行動により得られる前記3次元分子構造の薬らしさに関する第2指標と、前記第1対象物の3次元構造と前記行動により得られる前記3次元分子構造との結合の難易度に関する第3指標と、のうちの一方又は双方を含む、 請求項1に記載の強化学習プログラム。
  5. 前記機械学習モデルは、前記第1対象物を含む複数の第2対象物の各々の入力に応じて、入力される前記第2対象物に適合する第2化合物の3次元分子構造を出力するように訓練された訓練済み機械学習モデルである、 請求項1~請求項4のいずれか1項に記載の強化学習プログラム。
  6. 第1対象物に適合させる第1化合物の3次元分子構造を状態とし、前記状態における前記第1化合物に対する、追加原子の種類,前記追加原子の前記3次元分子構造への結合位置,及び前記追加原子の3次元位置の指定を行動とし、前記行動により前記3次元分子構造に前記追加原子を結合して得られる3次元分子構造を評価するための指標を報酬として、機械学習モデルの強化学習を実行する、 処理をコンピュータが実行する、強化学習方法。
  7. 第1対象物に適合させる第1化合物の3次元分子構造を状態とし、前記状態における前記第1化合物に対する、追加原子の種類,前記追加原子の前記3次元分子構造への結合位置,及び前記追加原子の3次元位置の指定を行動とし、前記行動により前記3次元分子構造に前記追加原子を結合して得られる3次元分子構造を評価するための指標を報酬として、機械学習モデルの強化学習を実行する、 制御部を備える、情報処理装置。

Description

本発明は、強化学習プログラム,強化学習方法,及び情報処理装置に関する。 AI(Artificial Intelligence)創薬の分野において、生成モデルを活用したDe Novo Drug Designの研究が行なわれている。 生成モデルにより生成された化合物を評価する指標として、QED(Quantitative Estimate of Drug-likeness)及びSAスコア(Synthetic Accessibility Score)等の化学的性質(特性)(Chemical Property)を用いた指標が存在する。 これらの指標は、微分可能ではないため、通常の教師有り機械学習の仕組みで最適化することはできない。そこで、強化学習によってQED及びSAスコアを最適化する手法が知られている。 “Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation”,Jiaxuan You et al.,arXiv:1806.02473v3 [cs.LG] 25 Feb 2019,<インターネット:arxiv.org/abs/1806.02473>,[2024年3月11日検索]“GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation”,Chence Shi et al.,arXiv:2001.09382v2 [cs.LG] 27 Feb 2020,<インターネット:arxiv.org/abs/2001.09382>,[2024年3月11日検索]“Hit and Lead Discovery with Explorative RL and Fragment-based Molecule Generation”,Soojung Yang et al.,35th Conference on Neural Information Processing Systems (NeurIPS 2021),<インターネット:proceedings.neurips.cc/paper_files/paper/2021/file/41da609c519d77b29be442f8c1105647-Paper.pdf>,[2024年3月19日検索]“Molecule Generation For Target Protein Binding with Structural Motifs”,Zaixi Zhang,Published as a conference paper at ICLR 2023,<インターネット:openreview.net/forum?id=Rq13idF0F73>,[2024年3月11日検索] 一実施形態に係る強化学習部の構成例を示すブロック図である。一実施形態の一例としてのサーバの機能を実現するコンピュータのハードウェア構成例を示すブロック図である。一実施形態の一例としてのサーバのソフトウェア構成例を示すブロック図である。機械学習モデルの機械学習処理の一例を説明するための図である。機械学習モデルの強化学習処理の一例を説明するための図である。一実施形態に係るサーバにおける機械学習モデルの強化学習処理の動作例を説明するためのフローチャートである。一実施形態に係るサーバにおける機械学習モデルの機械学習処理の動作例を説明するためのフローチャートである。一実施形態に係るサーバによる機械学習モデルの推論処理の動作例を説明するためのフローチャートである。 以下、図面を参照して実施形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。 〔A〕一実施形態に係る強化学習部の説明 図1は、一実施形態に係る強化学習部1の構成例を示すブロック図である。強化学習部1は、対象物に対する適切な化合物の3次元分子構造を特定可能とするように、機械学習モデルの強化学習を実行する。 以下の説明では、3次元分子構造として、3次元化合物グラフ(3次元分子グラフと称されてもよい)を例に挙げる。また、一実施形態では、対象物(第1対象物)の一例として、たんぱく(タンパク,蛋白)質のポケット構造を挙げ、対象物に対する適切な化合物の一例として、当該たんぱく質のポケットに3次元的によく適合する化合物(生成化合物と称されてもよい)を挙げる。一実施形態に係る3次元分子構造,対象物,化合物は、これらに限定されるものではない。 強化学習部1は、エージェント(Agent)2と、環境(Environment)5とを備えてよい。エージェント2は、環境5において取り得る行動(Action)の集合(Action Space)As_tの中から行動Atを選択し、環境5に出力する。環境5は、行動Atを観測及び評価し、観測された行動Atの結果となる状態(State)Stと、評価結果に応じた報酬(Reward)Rtとをエージェント2に出力する。報酬Rtは、例えば、適切な(良い)行動Atを評価する指標を含んでよい。 エージェント2は、方策(Policy)3と、強化学習アルゴリズム4(Reinforcement Learning Algorithm)とを備えてよい。方策3は、現在の状態Stを入力として、行動Atを生成及び出力する。方策3としては、例えば、機械学習モデルが挙げられる。強化学習アルゴリズム4は、現在の状態Stと行動Atと報酬Rtとに基づき、方策3を更新(Update)する。強化学習アルゴリズム4としては、PPO(Proximal Policy Optimization)等の種々のアルゴリズムが用いられてもよい。 このように、エージェント2は、行動Atの結果となる状態Stから新しい行動Atを生成し、新しい行動Atについての新しい状態St及び新しい報酬Rtに応じて方策3を更新する処理を繰り返す。これにより、報酬Rtを最大化する適切な行動Atを行なうように方策3を調整(Fine Tuning,Refine)することができる。 ここで、強化学習によってQED及びSAスコアを最適化する上述した手法では、2次元の化合物グラフ表現を扱う。このため、当該手法では、たんぱく質ポケットに3次元的によく適合する化合物グラフを生成することが難しい場合がある。 これに対し、一実施形態に係る強化学習部1は、以下のような状態St,行動At,報酬Rtを用いて、機械学習モデル、例えば方策3の強化学習を実行することによって、象物に対する適切な化合物の3次元分子構造を特定可能とする。 強化学習部1は、状態Stとして、第1対象物に適合させる第1化合物の3次元分子構造を用いてよい。状態Stには、例えば、前回の行動Atにより3次元分子構造に追加原子を結合して得られた3次元分子構造が用いられてよい。 強化学習部1は、行動Atとして、状態Stにおける第1化合物に対する、追加する追加原子の種類,当該追加原子の3次元分子構造への結合位置,及び当該追加原子の3次元位置の指定、を用いてよい。追加原子の3次元位置とは、例えば、追加原子の3次元座標に関する情報であってよい。 強化学習部1は、報酬Rtとして、行動Atにより3次元分子構造に追加原子を結合して得られる3次元分子構造を評価するための指標を用いてよい。 これにより、強化学習部1では、追加原子の種類及び結合位置に加えて追加原子の3次元座標の位置の指定を含む行動Atに応じた報酬Rtを最大化するように、方策3の強化学習が実行される。このように、強化学習部1によれば、強化学習によって、行動Atにより得られる3次元分子構造がより良いものになるように方策3が調整されるため、第1対象物に対する適切な化合物の3次元分子構造を特定可能とすることができる。方策3の調整には、例えば、方策3のモデルとしての機械学習モデルのパラメータの更新が含まれてよい。 報酬Rtの指標には、第1対象物の3次元構造と行動Atにより得られる3次元分子構造との結合の親和性に関する第1指標が含まれてよい。結合の親和性の一例としては、第1対象物と第1化合物とのドッキング(結合)シミュレーション(DS:Docking Simulation)の結果が挙げられる。DSとしては、既知の種々の手法が用いられてもよい。 報酬Rtの指標として、第1指標が用いられることにより、第1対象物に対してより親和性の高い、換言すれば、3次元的な当てはまりがより良い(適切な)化合物の3次元分子構造を特定可能とすることができる。適切な化合物の3次元分子構造とは、例えば、現実的な或いは実用的な化合物の3次元分子構造と言い換えてもよい。 また、第1指標は、第1対象物の3次元構造のエネルギーと行動Atにより得られる3次元分子構造のエネルギーとの総和エネルギーと、第1対象物の3次元構造と行動Atにより得られる3次元分子構造との結合の配置が最適である場合の全体エネルギーと、の間のエネルギー差を含んでよい。 全体エネルギーの一例としては、DSにより得られる、第1対象物と第1化合物との配置(配座)が最適になったときの全体のエネルギー、換言すれば、DS後のエネルギーが挙げられる。総和エネルギーの一例としては、DS前における、第1対象物の3次元構造と行動Atにより得られる3次元分子構造との各々のエネルギーの総和、換言すれば、DS前のエネルギーが挙げられる。 エネルギー差が大きいほど、第1化合物はたんぱく質ポケットに対して3次元的な当てはまりが良いといえるため、第1対象物に対して3次元的な当てはまりがより良い(適切な)化合物の3次元分子構造を特定可能とすることができる。 報酬Rtの指標には、さらに、第2指標及び第3指標のうちの一方又は双方が含まれてもよい。第2指標は、行動Atにより得られる3次元分子構造の薬らしさに関する指標であり、一例として、QEDが挙げられる。第3指標は、第1対象物の3次元構造と行動Atにより得られる3次元分子構造との結合の難易度に関する指標であり、一例として、SAスコアが挙げられる。 報酬Rtの指標として、第1指標に加えて、第2指標及び第3指標のうちの一方又は双方がさらに用いられることにより、第1対象物に対するより適切な化合物の3次元分子構造を特定可能とすることができる。 なお、強化学習アルゴリズム4は、報酬Rtに含まれる複数の指標のうち、第2指標及び第3指標よりも第1指標を優先して、報酬Rtを最大化するように、方策3の強化学習を実行してもよい。 また、強化学習部1の環境5は、上述した指標の算出において、又は、上述した指標の算出に加えて、生成化合物に関する化学的な規則(ルール)の検査(Chemical Rule Check)等を行ない、その結果を指標に適用させてもよい。 強化学習部1のエージェント2は、方策3のモデルとして、第1対象物を含む複数の第2対象物の各々の入力に応じて、入力される第2対象物に適合する第2化合物の3次元分子構造を出力するように訓練された訓練済み機械学習モデルを用いてよい。複数の第2対象物の一例としては、第1対象物がたんぱく質又はそのポケット構造である場合、当該たんぱく質を含む様々なたんぱく質が挙げられる。 換言すれば、訓練済み機械学習モデルは、様々なたんぱく質に対して汎用的な特徴量抽出器として訓練されたモデルであるといえる。例えば、特定の疾患には対応するたんぱく質が存在しているため、実際の創薬の現場では、第1対象物となるたんぱく質を想定した上で、当該第1対象物に対する適切な化合物を生成することになる。 一