上海交大白玉兰开源科学大模型发布,加速科学新发现
2023-07-08 23:16:17 来源: 文汇网

近日,上海交通大学“白玉兰科学大模型版”依托上海白玉兰开源开放研究院开源发布,这一大模型正不断持续迭代和拓展,将用于加速科学发现,培育未来产业。

“白玉兰科学大模型版”包括三个领域模型,其中化学合成(BAI-Chem)代表了以分子结构为中心的学科方向,神经流体(BAI-NeuroFluid)代表了以动力学为中心的学科方向,科学评测基准(BAI-SciEval)是一个跨学科、跨模态的基础模型。

据介绍,人工智能推动新的科学研究范式的形成,并且正深刻影响着物理学、化学、材料学、生物学等基础科学领域。今年3月,为贯彻落实国家《新一代人工智能发展规划》,科技部会同自然科学基金委启动“人工智能驱动的科学研究”专项部署工作,推进面向重大科学问题的人工智能模型和算法创新,发展针对典型科研领域的 AI for Science 专用平台,布局 AI for Science 前沿科技研发体系,逐步构建以人工智能支撑基础和前沿科学研究的新模式,加速我国科研范式变革和能力提升。


(相关资料图)

上海交通大学围绕服务国家战略,提前布局建设“AI for Science科学数据开源开放平台”, 聚焦分子科学、能源科学、材料科学、集成电路等重大科学技术问题,致力于在AI for Science领域打造跨学科研究高地。项目汇聚校内人工智能研究院、化学化工学院、变革性分子前沿科学中心、材料学院、机动学院等跨学科优势力量,研制了“白玉兰科学大模型版”, 并依托上海白玉兰开源开放研究院开源发布。

白玉兰科学大模型-化学合成(BAI-Chem)

“白玉兰科学大模型--化学合成(BAI-Chem)”依托于大模型训练技术,利用生成式人工智能技术赋能化学合成研究,是首个具备反应条件生成与“人在环路”反馈优化能力的化学大模型,加速从分子设计、反应设计、到条件生成、反应检验等化学合成全链条,潜在功能性分子(如药物分子)及其合成方案设计,从传统方法的几个月提速到几十分钟。

以抗HIV小分子设计为例,BAI-Chem能够在2分钟内生成超过250,000个全新的分子;并在30分钟内进一步筛选出172个潜在有效的分子,同时提供合成路线以及相应的反应条件;最终在5秒内进行验证,进一步筛选出23个可合成的潜在分子,大幅提升分子设计迭代效率。

同时,BAI-Chem平台破除了传统页面交互的壁垒,提供化学聊天机器人和化学合成助手,支持用户以自然语言的方式进行交互,以便捷的沟通方式,能够基于用户给定的目标分子一次性提供生成式合成方案和检索式合成方案。

白玉兰科学大模型-神经流体(NeuroFluid)

“白玉兰科学大模型-神经流体(BAI-NeuroFluid)” 创建了视觉直觉学习框架,将物理启发的生成式人工智能技术用于流体粒子模型的计算与模拟,首次实现了从外部视觉表观推理内部流体动态,并可反演粘度、密度等流体属性,形成了“规律—仿真—观测”空间的闭环。

BAI-NeuroFluid 支持跨流体属性、跨空间尺度、跨边界条件的大规模神经网络训练与推理,可以捕捉具有高泛化性的流体规律,在问题规模、模拟速度、模型泛化性、反问题求解精度等多个方面突破了现有流体数值模拟方法的计算瓶颈,十万粒子场景的模拟速度比现有流体仿真软件提升一个量级。

上海交通大学人工智能研究院杨小康教授团队于2022年提出“神经流体”方法(NeuroFluid),他说道:“生成式人工智能拓展形成的仿真空间可以覆盖传统的计算机模拟方法‘仿而不真’的现象,允许科学家根据实际观测数据反演仿真空间中的状态‘后验信息’,通过与仿真得到的‘先验信息’进行比对,对已有的科学规律进行修正,甚至通过拓展假设空间,发现新的科学现象。”

白玉兰科学大模型--评测基准(SciEval)

“白玉兰科学大模型--评测基准(SciEval)”面向基础科学领域构建了首个包含动态数据的评测基准,旨在全面评估大模型的科学知识掌握水平和辅助科研能力。BAI-SciEval涵盖了约18000道具有挑战性的科学问题,涉及化学、物理和生物三大基础科学领域及其数十种子领域,以布鲁姆“记忆-理解-应用-分析-评价-创造”六大认知层级为参考,从基础知识、知识应用、科学计算和科研能力四方面多层级全方位评估语言大模型的科学研究能力。

评测方法采用了以客观题为主、主观题为辅的方式,旨在全面考察模型的科学思维和应用能力。同时,BAI-SciEval包含了部分基于基本科学原理动态生成的评测数据,以降低数据泄露风险,保证评估结果的公正性和可信度。

作者:姜澎

编辑:储舒婷

责任编辑:樊丽萍

*文汇独家稿件,转载请注明出处。

关键词:
责任编辑: 梅长苏