“When a deep generative model has been designed, the chemist is not involved at all in the generation of drug-like molecules; only data and computational resources are needed”
第一部分:发展历程
(1)早期阶段:实验驱动的药物发现与先导优化
传统药物发现主要依赖实验去寻找和优化 lead molecules,流程长、成本高。据文献统计,开发一个新药平均需要约 12 年、花费约 26 亿美元。(新药研发的流程具体可见The entire process of drug development这篇blog)
(2)第二阶段:传统 CADD——从“做实验找药”到“在已有库里筛药”
传统 CADD 方法广泛采用 virtual screening (VS)、scaffold hopping、molecular docking、pharmacophore modeling 等手段。
· Virtual screening (VS) 是一种通过大规模计算筛选化合物库,快速识别出可能与特定靶点结合的先导化合物的方法。
· Scaffold hopping 是通过改变先导化合物的核心骨架结构,以获得具有新颖结构、更优性质的新分子的策略。
· Molecular docking 是一种基于靶点和配体三维结构的计算模拟方法,用于预测两者间的结合模式和亲和力。
· Pharmacophore modeling 是一种抽象化方法,它归纳出活性分子所必需的药效特征(如氢键供体、疏水区)及其空间排列,用于指导药物设计。
这个方法的瓶颈:化学空间太大,传统方法很难真正有效遍历。(化学空间:指的是所有可能存在的、符合化学规则的分子的集合,这个集合被想象成一个多维空间,其中每一个维度代表一个分子特征或性质(如分子量、脂水分配系数、特定官能团的数量、三维形状等),而空间中的每一个点则对应一个具有特定特征组合的潜在分子。)
(3)第三阶段:ML/DL 先进入“辅助筛选与预测”
不是一上来就生成。早期在 drug generation 里面运用的方法是运用ML/DL的手段缩短研发的某些流程所用的时间(如活性/性质预测、虚拟筛选提效、QSAR、排序与筛选)
· ML-driven QSAR 改善虚拟筛选
· ML-assisted directed evolution 改善蛋白工程
(4)第四阶段:深度生成模型真正把重点从“筛”转到“造”
de novo design 和 VS 的根本区别在于,VS 是在已有候选库里找分子,而 de novo design 是直接从头生成自然界或数据库中并不存在的新生物实体。
相比传统 CADD 方法,深度生成模型可以绕开化学家经验的限制,更高效地产生 novel、unique、chemically valid molecules with desired properties。
第二部分:领域任务分类
(1)Small molecule generation
· Target-agnostic molecule design 这类任务不直接给定具体蛋白靶标条件,重点是从头生成有效、稳定、具有药物样性的分子。(缺乏靶标特异性)
(子分类:unconditional generation不加条件,直接生成新分子 / property-conditioned generation按 QED、logP、SA、稳定性等性质去控制生成 / scaffold/motif-aware generation给定片段或结构约束,继续补全或扩展)
· Target-aware molecule design 这类任务是给定目标蛋白信息,再生成对该靶标可能有高结合能力的分子。
(子分类:Ligand-based drug design (LBDD) / Structure-based drug design (SBDD))
LBDD:输入多是蛋白氨基酸序列或已有 ligand 信息,本质是利用已知 ligand / sequence 特征去生成相似或相关的新分子,优点是当 3D 结构不可得时仍可用,缺点是novelty 和几何真实性受限,因为它主要从已有结合信息中学。
SBDD:输入是蛋白 3D 结构 / binding pocket,本质是利用几何和空间相互作用信息来生成分子,当 target 的 3D 结构可用时,BIB 综述明确说一般更偏向 SBDD,因为它显式考虑关键 3D 信息。(这也是目前做的方向)
· Molecular conformation generation 这里重点不是“生成一个新分子的拓扑”,而是“给定分子,生成它合理的 3D 构象”。(小的领域)
(2)Protein generation
· Protein representation learning / Structure prediction 不是纯生成任务,是生成的一部份
· Sequence generation / sequence design 给定某种结构、功能或上下文约束,生成合理的蛋白氨基酸序列。
· Backbone design
(子分类:context-free generation:不给定输入,直接生成多样的 protein structures / context-given generation:类似 inpainting,给定 motif / 局部残基,再补全 backbone)
· Antibody generation
· Peptide design
(子分类:Peptide generation 从头生成新的 peptide / Peptide–protein interaction 给定 peptide–protein pair,预测或建模它们的相互作用/binding site / Peptide representation learning学习 peptide 的 sequence + structure 表示,服务于下
游预测/设计任务 / Peptide sequencing 根据 mass spectra 去恢复氨基酸序列,这是 peptide 方向里比较特殊的一类“de novo sequencing”任务)
第三部分:模型技术演化
(1)分子表示:
fingerprint → SMILES / graph → 更结构化表示
具体关于这些representation form 如何被计算机识别、进行后续运算可以仔细看看review,写的比较详细了
(2)generative model
RNN/VAE/GAN/Flow → Transformer/Diffusion
这几个model的基本原理可以自行看视频学习,这里不再赘述