耶鲁大学Newhouse团队Nat。Synth。:神经网络NNET模型指导Clovane倍半萜的全合成本文来自微信公众号:XMOLNews 复杂天然产物及药物分子(如紫杉醇和环孢素)的全合成工作被誉为有机化学领域的珠峰,通常需要详细的逆合成分析和繁琐的实验验证,存在实验周期长、试错成本高等挑战。这是因为,反应物化学结构上的小小改变可能对其化学反应性产生难以预料的影响;当关键反应的初步尝试失败时,研究人员通常需要通过修饰反应底物或调整反应顺序等方式不断进行迭代尝试;如果关键反应处于合成后期时,会给整个合成路线带来更大的风险,研究人员时常因关键反应失败而不得不放弃某一策略,从头来过。 随着计算机技术和人工智能领域的飞速发展,如AlphaGo和ChatGPT的横空出世,人们开始担忧机器取代人类劳动力的时代正在加速到来,合成化学研究也因此迎来了新的机遇和挑战。近年来,计算机辅助的合成路线设计技术层出不穷(如Synthia及Reaxys等商业化平台),然而它们在复杂体系中的实际应用仍需进一步改善(Nature,2020,588,83)。对于复杂小分子的高效合成,研究人员独特的创造性思维具有不可替代的地位。近日,耶鲁大学的TimothyNewhouse(点击查看介绍)团队提出了将人脑的创造性思维与计算机强大的虚拟分析能力相结合的优势互补策略,即以神经网络NNET模型预测关键反应(6endotig自由基环化)的产率,指导合成路线设计和底物筛选,辅助实现了三个Clovane天然产物的高效全合成(58步),为机器学习模型指导复杂小分子的合成提供了范例。相关工作发表在NatureSynthesis。 图1。Clovane倍半萜合成路线设计及机器学习模型开发流程图 Clovane倍半萜广泛存在于各种海洋和陆地生物中,具有多样的生物活性。它们结构上大多具有独特的566三环桥环骨架及三个全碳季碳中心,为其合成带来一定挑战。该家族分子的化学合成已有大量研究,已知报道(10篇)均在合成前期引入或构建B环,如北京大学余志祥教授团队报道了特色的铑催化〔321〕环加成反应高效构建AB环系(Org。Lett。2017,19,6040;Org。Lett。2022,24,5902);四川大学刘波教授团队巧妙地以Carvone为原料经环丙烷化及酰化反应快速构建AB环,随后还原Aldol反应构建C环(Org。Lett。2021,23,290)。区别于已知路线,作者设计了以6endotrig自由基环化为关键反应在合成后期构建B环的策略。自由基反应虽已被广泛应用于各类分子的合成中,但以类似转化构建6元桥环的例子并不多见,而以其竞争反应5exotrig为产物的报道居多,使得这一策略的可行性难以判断,Baldwin和Beckwith等经验规则在此也无济于事。 图2。机器学习模型的开发与验证 作者首先借助传统DFT计算方法分析该自由基反应过程,过渡态能垒G的计算结果表明其竞争反应5exo环化在动力学上更易发生;因6endo环化作为热力学稳定产物,作者分析了120个已知6endotig反应的能量变化(Grxn)与产率之间的关系,但两者并无明显相关性(图2)。这些结果表明该化学反应产率受众多因素影响,因此作者设想以机器学习模型进行多维度、多参数的分析,以实现6endotrig环化反应产率的预测。 按照图1b所示的流程图,作者以Reaxys数据库中收录的自由基反应为研究样本,经分类和筛选、快速DFT计算(uB3LYP631g(d))并提取相应物化参数(340个);随后经数据预处理(correlation及PCA)并用于模型的训练与验证。作者尝试训练了SIMPLS、kNN、RF等不同类型的模型,最终以神经网络模型(NNET)实现对6endtrig自由基环化反应产率的预测(R20。82,MAE12)。此外,作者进一步对模型进行了留一法交叉验证、Y随机化测试、随机数测试等验证,并以外推法对含杂原子的新型底物结构进行预测,结果表明模型可有效识别分子结构的化学信息。 图3。机器学习模型指导下的clovan2,9dione高效全合成 作者以训练好的神经网络NNET模型对不同逆合成切断方式(图3,79)以及100多个潜在底物结构进行了虚拟筛选,结果表明以前体8的6endotig自由基环化反应具有较高可行性(预测产率46),并为该家族分子的多样性合成挑选相应底物结构(1014)。在模型指导下,作者从商业可得的原料15出发,经Michael加成、罗宾森环化、加氢硅烷化以及自由基环化等5步转化顺利实现了clovan2,9dione的高效全合成,极大提高了合成效率;其中6endotig自由基环化的实验产率45(6endo:5exo1:1)与模型预测的46相一致。另一方面,通过对中间体17的CBS还原(CoreyBakshiShibatareduction)及再氧化过程可实现该天然产物的不对称合成(8步)。 图4。CanangaterpeneII和rumphellclovaneA的首次全合成及NNET模型的实验验证 此外,在模型指导下,作者通过对中间体17进行结构修饰得到另一自由基反应前体10(硒化物23),顺利以38的收率实现6endo自由基环化得到化合物24,进而经拜尔维立格氧化重排或选择性还原反应分别实现了天然产物rumphellclovaneA(26)和canangaterpeneII(2)的首次全合成(8步),并结合NMR计算修正了canangaterpeneII(2)的立体结构。除此之外,作者还选取了不同类型的反应前体进行自由基反应实验,以验证不同取代基或骨架结构对6endotrig自由基反应产率的影响;所测试的7个反应的实验产率均与模型预测产率相一致,表现出极好的线性相关性(R20。89,MAE6。3),从而证明了模型预测的准确性和可靠性;通过对比前体27与8的预测产率(24vs。46)也可看出模型对化合物结构的敏感性。作者还指出,若以高精度的DFT计算分析100个潜在底物的反应路径及过渡态,在时间和算力上难以实现;而以训练好的机器学习模型可在一天内实现。 总结 耶鲁大学Newhouse团队首次报道了人机优势互补策略在复杂小分子全合成中的应用,为其他类型预测模型的开发和应用提供了借鉴流程。该工作是在TimothyR。Newhouse教授指导下,由张鹏鹏博士与研究生JungminEun等人合作完成,得到了耶鲁大学、BoehringerIngelheim、Genentech以及美国NIH的大力支持。 Aneuralnetworkmodelinformsthetotalsynthesisofclovanesesquiterpenoids PengpengZhang,JungminEun,MashaElkin,YizhouZhao,RachelL。CantrellTimothyR。Newhouse Nat。Synth。,2023,DOI:10。1038s44160023002710 导师介绍 TimothyNewhouse https:campuspress。yale。edunewhousegroup https:www。xmol。comuniversityfaculty1301