系统化化学泛函优化:结合物理描述符、大型数据库与监督学习技术
各位老铁们,大家好,今天由我来为大家分享系统化化学泛函优化:结合物理描述符、大型数据库与监督学习技术,以及的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!
密度泛函理论 (DFT) 是最流行的电子结构方法,但许多泛函仅针对有限的特定化学性质组进行优化,很少有泛函可用于准确预测复杂化学应用所需的所有性质。
在这里,来自华东师范大学和湖南师范大学的研究团队使用物理描述符、广泛的数据库和监督学习,来系统优化灵活的密度泛函的函数形式,包括对分子力学阻尼色散项的同时优化。
研究人员优化了一个称为 CF22D 的单杂化(singly hybrid)泛函,它比大多数现有的非双杂化泛函具有更高的化学精度,通过使用灵活的泛函形式,将依赖于密度和已占轨道的全局杂化元不可分离梯度近似与依赖于几何形状的阻尼色散项结合起来。通过使用大型数据库和性能触发的迭代监督训练来优化此能量函数。结合了几个数据库创建了一个非常大的组合数据库,该数据库的使用证明了 CF22D 在势垒高度、异构化能、热化学、非共价相互作用、自由基和非自由基化学、小型和大型系统、简单和复杂系统以及过渡金属化学方面的良好性能。
该研究以「Supervised learning of a chemistry functional with damped dispersion」为题,于 2022 年 12 月 23 日发布在《Nature Computational Science》上。
论文链接:https://www.nature.com/articles/s43588-022-00371-5
Kohn-Sham 密度泛函理论
计算机能力的飞速发展和理论方法的进步,显著提高了化学、物理、生物、物质和大气过程理论预测的准确性。通过电子结构计算获得的相对能量是控制分子和材料稳定性以及速率过程的主要属性,它们在化学建模中起着核心作用。
Kohn-Sham 密度泛函理论(KS-DFT)作为最流行的电子结构框架,在模拟大分子和材料的相对能量方面发挥了重要作用。原则上,给定精确的密度泛函,KS-DFT 是精确的。然而,在实践中,密度泛函近似 (DFA) 是必要的。通过添加物理成分、强制执行相关的已知约束并针对更广泛的数据库进行优化,DFA 可以在更广泛的范围内变得准确,但现有函数仍有很大的改进空间。许多泛函仅对化学性质的子集准确,并且只有少数泛函可用于对不同类型的化学系统做出同样准确的预测。
获得相对能量的另一种方法是分子力学(有时称为力场)。在这种方法中,相对势能表示为分子坐标和(可选)部分原子电荷的函数。这种方法已经使用了 70 多年。
在实践中,大多数现代泛函都包含经过整体或部分调整的参数,以获得与实验数据(或有限数量的高水平理论数据)更好的一致,机器学习和大数据使用方面的广泛进步现在可以通过更大、更复杂的数据集来训练密度泛函。
使用监督学习优化能量泛函
这里介绍的工作不同于以前的工作,因为研究人员从密度泛函的函数形式(MN15 泛函)开始,它在使用较小的数据库进行优化时已经证明是成功的,将它与分子力学术语结合起来,以解释远程色散相互作用,并使用监督学习和组织成多个数据集的大型数据库来同时学习两个组件的最佳参数。选择 MN15 泛函的形式是因为其在早期测试中的出色表现以及不可分交换关联能的灵活泛函形式。
机器学习算法的输入是一组物理描述符,输出是确定能量的一组参数,作为描述符的函数。在这里使用的方法中,MN15 泛函中的每一项都被视为物理描述符,也使用分子几何作为描述符。因此,输入是一组分子的电子密度的各种泛函和这些分子的几何形状的一组积分,参数是使损失函数最小化的多项能量泛函中的系数。这里使用的损失函数有两个组成部分:一个是分子特性的大型数据库的测量误差,主要是相对能量,第二个是正则化项,它可以促进生成的能量泛函的平滑度。监督学习被用作优化过程的关键部分。从这项工作中获得的最终能量泛函称为 Chemistry Functional 2022 with damped Dispersion (CF22D)。
为了评估 CF22D 函数的性能,将 CF22D 的结果与其他代表性函数在几个知名数据库上获得的结果进行比较,这些数据库包括 GMTKN55、Minnesota DataBase 2019(MDB2019)、MGCDB84 和 CUAGAU42 的过渡金属数据集和 TMC34。本工作中提出的统一数据库 DDB22 也用于评估。
CF22D 在各个数据库上的性能表现如下:
色散相互作用
图 5a 显示了由三个 DFA(M06-SX、revM06 和 MN15)和两个具有分子力学的能量泛函(MN15-D3(BJ) 和 CF22D)计算的苯-Ar 的势能曲线。以前的 DFA,因为它们没有非局部相关性,因此没有长程色散,给出的曲线从 4.5 到 6.0Å 迅速衰减到零。色散校正泛函 MN15-D3(BJ) 显示出可忽略不计的长程尾部,因为在没有重新优化函数形式的情况下添加了 MN15 的阻尼色散项。由于 MN15 在范德瓦尔斯区域给出了相当好的结果,因此仅添加了一个小的阻尼色散项。CF22D 在图 5a 中的平衡位置和远程区域与参考值显示出良好的一致性。
在图 5b 中,CF22D 对苯-SiH4 显示出类似的良好结果。该图还表明,B3LYP-D3(BJ) 提供了可靠的长程范德华尾,但在平衡位置,它高估了苯-SiH4 结合能约 0.21 kcal mol^−1。总体而言,CF22D 为 NC 相互作用提供了总体上可靠的预测,不仅对平衡距离附近的结合能,而且对远距离的弱相互作用也提供了预测。
综上,CF22D 可推荐用于涉及主族化合物和过渡金属化合物的广泛键合和 NC 相互作用的应用,这使其适用于催化、功能材料、生物化学和环境化学的研究。然而,作为全局杂化函数,CF22D 具有局限性,因为它包含 Hartree–Fock (HF) 交换,即使在长距离也存在局限性。另一个限制是长程色散项没有考虑相互作用子系统中的部分原子电荷分布。
有专家指出,「特征选择方法为我们提供了一种减少计算时间、提高预测性能以及更好地理解机器学习数据的方法」。因此,我们看到密度泛函理论的未来可能涉及将传统泛函与其他变量的泛函相结合,以产生精度和效率更好组合的机器学习泛函。
用户评论
这篇博文讲得非常清楚易懂,把我对系统化化学泛函优化的理解提升了好多!以前总觉得这个领域很抽象,现在知道可以用物理描述符和数据库辅助监督学习,显得更加具体可操作了。
有9位网友表示赞同!
对大型数据库的使用确实让我眼前一亮!之前没想过运用到这种方式中,看来未来的化學泛函优化研究方向将会更加倚重数据驱动了。
有11位网友表示赞同!
这个方法听起来很牛逼,但我还是有点担心监督学习模型的局限性。毕竟,每种系统化的化学反应都很复杂,仅靠标签数据可能无法完全捕捉到本质规律...
有13位网友表示赞同!
如果能把物理描述符、数据库和监督学习技术的结合应用于实际案例研究中,那效果肯定相当惊艳!期待看到更多实质性的应用进展。
有20位网友表示赞同!
我对大型数据库在泛函优化中的应用很有兴趣,它可以提供大量的训练数据,提升算法精度吗?
有20位网友表示赞同!
这个方法的复杂度很高啊!对于普通研究员来说,实际操作起来会不会比较困难?
有14位网友表示赞同!
物理描述符、监督学习……这些词汇听起来确实很专业。我希望将来能更加深入地了解它们之间的关系和相互作用机制。
有7位网友表示赞同!
系统化化学泛函优化对未来材料设计很有意义啊!希望能够推动新一代材料的研发,比如更高效的电池、更坚固的结构材料等等。
有12位网友表示赞同!
这篇博文让我对新兴的机器学习应用领域有了新的认识。期待看到更多基于数据的科研突破!
有12位网友表示赞同!
数据驱动+物理描述符,听起来很有实验意义。我好奇作者是如何进行模型训练和验证的?算法的准确性和效率如何?
有13位网友表示赞同!
虽然博文内容很详本地,但我希望能够提供更多具体的案例分析。这样能更容易理解这个方法的实际应用价值。
有20位网友表示赞同!
这个系统化化学泛函优化的方法,是否可以应用到其他领域的科学研究中?比如生物学、医学领域?
有16位网友表示赞同!
对于大型数据库的使用,作者提到了一些挑战性问题。未来的研究方向应该如何克服这些挑战呢?
有10位网友表示赞同!
博文内容很好,对理解系统化化学泛函优化原理很有帮助!期待看到更多深入的探讨和实际应用案例。
有9位网友表示赞同!
这个方法听起来很革命性,可以让我们进一步接近设计理想材料的目标!我相信这将会是未来科研的重要方向。
有17位网友表示赞同!
我对“监督学习技术”部分的描述不够清晰。希望作者能够更加具体地解释它的工作原理和优势之处。
有6位网友表示赞同!
这篇博文让我对人工智能在化学领域的发展感到兴奋!期待看到更多基于数据驱动的突破性成果!
有19位网友表示赞同!
虽然博主的文章写得很好,但我认为还需要更具体的讨论如何衡量系统化化学泛函优化的效果。比如,使用什么指标来评估模型的精度和有效性?
有20位网友表示赞同!
大型数据库的使用确实可以提高效率,但同时也会存在数据质量问题。作者是否考虑过如何保证数据的可靠性和准确性?
有13位网友表示赞同!
本文由发布,不代表千千择校网立场,转载联系作者并注明出处:https://www.qqzexiao.com/tsjy/5575.html
用户评论
这种研究方法在教育中的应用有助于学生掌握复杂的概念。
有15位网友表示赞同!
通过使用物理描述符和大规模数据集,可以帮助提高解决问题的能力。
有18位网友表示赞同!
监督学习的引入为学生提供了一种新的探索和分析问题的工具。
有8位网友表示赞同!
这种方法可以激发跨学科之间的融合,让学生看到科学间的关联性。
有14位网友表示赞同!
优化化学泛函的研究使得教育内容更具有深度和挑战性。
有11位网友表示赞同!
这表明了数据科学在现代教育中的重要性,它让学习变得更为直观易懂。
有18位网友表示赞同!
通过系统化的教育方法,学生们能够更好地理解实际应用背后的理论框架。
有11位网友表示赞同!
这种方法强调了理论与实践结合的重要性,在研究中有着广泛的应用前景。
有11位网友表示赞同!
使用监督学习优化化学泛函有助于培养学生的创新思维能力。
有10位网友表示赞同!
大规模数据集和物理描述符的整合为教育提供了一种全新的工具包。
有5位网友表示赞同!
它促使学生从不同的角度思考问题,培养多元化的解题策略。
有18位网友表示赞同!
这种方法强调了科学方法在解决问题中的核心作用,对教育理论有深远影响。
有10位网友表示赞同!
通过优化化学泛函的研究,教育方式可能更侧重于实用性和适用性。
有8位网友表示赞同!
使用物理描述符和大型数据库为教育提供了丰富的资源库和支持框架。
有6位网友表示赞同!
这种教育变革鼓励学生主动学习和独立探索的知识领域。
有19位网友表示赞同!
它增强了教育的互动性,使学习过程变得更加活跃且充满乐趣。
有19位网友表示赞同!
这种方法推动了知识的界限扩展,在学术研究中开辟新的道路。
有10位网友表示赞同!
通过优化化学泛函的研究方法,教育资源得到了更高效的利用。
有6位网友表示赞同!
学生们能够从实践中获取经验,促进理论与实践的紧密结合。
有9位网友表示赞同!
它促进了批判性思维的发展,帮助学生面对复杂问题时有条不紊地分析。
有15位网友表示赞同!
这种教育策略提高了学习效率,减少了资源浪费的情况。
有5位网友表示赞同!