未来,基础科研领域的发展将构筑于数据与人工智能的基础之上。对此,我应该抓住AI 2.0时代的发展契机,积极构建基础科研数据库,高效利用人工智能技术,抢占技术创新高地,实现材料、化学、物理等基础科研领域的“弯道超车”。
材料、化学、物理等基础科研领域的研究过程中充满了“大数据”,从设计、实验、测试到证明等环节,科学家们都离不开数据的搜集、选择和分析。人工智能技术(机器学习算法)擅长在海量数据中寻找“隐藏”的因果关系,可用于解决基础科研中的种种问题,因此得到了科研工作者的广泛关注。
近两年,人工智能在材料、化学、物理等领域的研究上展现出巨大优势,正在引领基础科研的“后现代化”。在AI2.0时代,把握人工智能技术不仅意味着科研效率的提升,更意味着科研“弯道超车”机遇的到来。
一、人工智能如何影响材料、化学、物理等基础科研?
2016年,谷歌AlphaGo的横空出世,将世人的焦点吸引到了人工智能领域。短短两年时间,人工智能技术在商业领域获得了空前的成功。语音识别、图像识别、无人驾驶、智慧金融等领域,无一不在影响着人们的生活。
但不为大众所关注的是,人工智能技术在科研领域也掀起了巨大的“波澜”。本文以2018年Phys.org网站(物理学家组织网)和顶级期刊上的文章为基础,向大家介绍人智能在材料、化学、物理等领域如何产生作用。
(一)新材料领域
2018年7月,Keith Butler等人在《Nature》期刊上发表题为“分子和材料研究用的机器学习”的文章,对人工智能技术在材料、化学中的作用进行了综述。
文章认为,计算化学/材料学的研究流程已经更迭至第三代。第一代是“结构-性能”计算,主要利用局部优化算法从结构预测出性能;第二代为“晶体结构预测”,主要利用全局优化算法从元素组成预测出结构与性能;第三代为“统计驱动的设计”,主要利用机器学习算法从物理、化学数据预测出元素组成、结构和性能。
其中,机器学习主要分为四个步骤:一是数据搜集,包括从实验、模拟和数据库中获取;二是数据选择,包括格式优化、噪点消除和特征提取;三是机器学习方法选择,包括监督学习、半监督学习和无监督学习;四是模型选择,包括交叉验证、集成和异常检测。
在实际的新材料研发中,人工智能技术已经在文献数据获取、性能预测、测试结果分析等各环节展现出巨大优势:
-
2018年1月,美国加州大学和马萨诸塞大学的研究人员合作开发人工智能平台,可自动分析材料科学研究文献,并可根据文本中提及的合成温度、时间、设备名称、制备条件及目标材料等关键词进行自动分类。结果表明,该平台识别文章段落的准确度为99%,标注关键词的准确度为86%。(发表于《MRSBulletin》)
-
2018年6月,美国斯坦福大学的物理学家开发了一种新型的非监督人工智能程序“Atom2Vec”。该程序只用几个小时,就“重新发现”了元素周期表。Atom2Vec是非监督型人工智能,未来科学家们可以通过给它设定目标,引导其寻找新材料。(发表于《美国国家科学院学报》)
-
2018年9月,东京大学利用理论计算方法建立了与原子结构相匹配的光谱数据库,并利用层聚类和决策树两种机器学习方法,对光谱大数据进行解释和预测。结果表明,该方法可成功应用于复杂光谱的解释,以及材料光谱特征的预测。(发表于《Scientific Reports》)
(二)化学领域
2018年3月,上海大学Mark Waller团队在《Nature》期刊上发表题为“利用深度神经网络和符号AI规划化学合成”的文章,引发了业内的广泛关注。
研究团队首先收集了截止到2014年发表过的几乎所有的化学反应,加起来大约有1250万个反应。然后,研究团队应用深度神经网络及蒙特卡洛树算法,成功地规划了新的化学合成路线,即便是权威的合成化学专家,也无法区分这款软件与人类化学家之间的区别。
与两种传统的合成方法相比(红色和绿色),使用新型人工智能技术(蓝色)在较短时间内可以完成更多分子的合成路线预测。该研究是人工智能在化学合成领域的重大突破,Mark Waller也被媒体誉为“化学AlphaGo”的先驱。
“化学AlphaGo”仅是人工智能用于化学领域众多案例中的一个。近年来,人工智能、机器学习、深度学习在合成化学、药物化学等领域不断产生新应用,其热度变得越来越高,有望为化学领域带来革命性的变化。
-
2018年7月,英国格拉斯哥大学研究人员采用机器学习算法,开发出可预测化学反应的有机化学合成机器人。在学习了100种(10%)化学反应后,该智能机器人能够以80%的准确度预测出其他化学反应,并且还能够预测出人类未知的新型化学反应。(发表于《Nature》)
-
2018年7月,美国北卡罗来纳大学开发名为“结构演化的机器学习”(ReLeaSE)的人工智能系统,其包括两个神经网络,可学习170万个已知生物活性分子化学结构,并随时间推移推测出新型药物分子。(发表于《Science Advances》)
-
2018年7月,美国莱斯大学和宾夕法尼亚州立大学的研究人员合作,利用机器学习技术和量子化学模拟改善催化剂的设计,可大幅节约时间与成本。利用量子化学模拟,研究人员可以创建出包含各类催化剂属性的数据库;机器学习技术可快速搜索数据库中隐藏的模式,帮助研究人员设计更便宜、更高效的催化剂。(发表于《Natural Catalysis》)
(三)物理领域
2018年8月,美国能源部斯坦福直线加速器中心和费米国家加速器实验室的研究人员合作,在《Nature》期刊上发表题为“在粒子物理学的能量和强度边界应用机器学习”的文章,总结了在粒子物理学的前沿使用机器学习所带来的机遇和挑战。
欧洲核子研究中心(CERN)的大型强子对撞机(LHC)是目前世界上最大的粒子加速器,其每秒可产生一百万吉字节(GB)的数据。如此海量的数据,给存储和分析带来了极大难题。研究人员利用专用的硬件和软件,通过机器学习技术来实时决定哪些数据需要保存,哪些数据可以丢弃。结果表明,机器学习算法可以至少做出其中70%的决定,大大减少了人类科学家的工作量。
近期人工智能在物理学领域的应用,除大型强子对撞机的数据分析外,还包括以下几方面:
-
2018年9月,美国劳伦斯伯克利国家实验室的科研人员与英特尔、克雷公司的工程师合作,利用深度学习技术开发出物理科学应用程序CosmoFlow,可用于处理大型三维宇宙学数据集。(发表于arxiv.org)
-
2018年9月,美国加州大学伯克利分校Breakthrough Listen项目的研究人员利用机器学习基础,从距离地球约30亿光年的光源中发现了72个新的宇宙无线电爆发。(发表于《The Astrophysical Journal》)
二、人工智能在基础科研领域中扮演什么角色?
材料、化学、物理等基础科研领域的发展,是大国科技竞争力的重要保证,其直接决定了社会各方面进步的步伐,重要性不言而喻。在AI 2.0时代,如何利用大数据挖掘和人工智能技术为基础科研领域赋能,成为了基础科学实现“弯道超车”的重要命题。
(一)传统科研模式需要进一步革新
2007年,图灵奖得主Jim Gray在NRC-CSTB大会上提出了科学研究的四类范式:经验科学(实验科学)是第一范式,在研究方法上以归纳为主,带有较多盲目性的观测和实验;理论科学是第二范式,偏重理论总结和理性概括,在研究方法上以演绎法为主;计算科学是第三范式,主要根据现有理论的模拟仿真计算,再进行少量的实验验证;数据密集型科学即第四范式,它以大量数据为前提,运用机器学习、数据挖掘技术,可从大量已知数据中得到未知理论。
以材料科学为例,当前普遍采用的基础科研模式主要以第一、二范式为主,第三范式为辅。在实际科研工作中,传统模式带来的问题主要有:一是重复性劳动过多,新材料研发环节中变量多,“试错法型”的实验量繁杂;二是“失败实验”的数据遭抛弃,海量数据沉默,无法被人有效利用;三是耗时太长,以航空涡轮发动机为例,单晶高温合金叶片的研制周期往往长达10年以上。
随着互联网时代的发展,数据传播、分享的门槛大大降低,而计算机硬件计算能力的提升又令大数据的计算分析成为可能,从而催生了科学第四范式。随着第四范式的诞生,所能解决的科学问题的复杂度进一步提升,势必会给材料、化学、物理等基础科研领域带来效率和效果的极大提升。基础科研领域拥抱第四范式,已经成为必然的趋势。
(二)人工智能如何支撑基础科研领域发展?
在AI 2.0时代,数据是最核心的资源,也是实践基础科研领域第四范式的基础。当前,不同科学领域数据库的建设,已经受到各国的高度重视。例如,美国国立卫生研究院的生物基因序列库GenBank迄今已收录超过2亿条基因序列,并正以大约每18个月翻一番的速度增长;美国国家标准技术院Materials Data Facility收集的数据量已达到12.5TB;日本物质·材料研究机构建设的MatNavi数据库是关于高分子、陶瓷、合金、超导材料、复合材料和扩散的世界上最大的数据库之一。
21世纪以来,“材料基因组”、“化学基因组”和各类物理学数据库的建设正加速进行。在人工智能算法和计算机硬件不断进步的背景下,“数据挖掘+人工智能分析”已经成为基础科研领域快速发展的重要驱动力:
-
人工智能变革科研数据的搜集、获取方式。利用人工智能语义分析技术,科研论文中的数据将更易搜集和获取,解决了人工搜集科研数据效率低的问题。
-
人工智能变革科研数据的分析方式与效率。利用深度神经网络及其他机器学习技术,科学家们将可从海量的结构化数据中高效获得隐藏的因果关系,从而大幅提升数据分析效率。
未来,基础科研领域的发展将构筑于数据与人工智能的基础之上。对此,我应该抓住AI 2.0时代的发展契机,积极构建基础科研数据库,高效利用人工智能技术,抢占技术创新高地,实现材料、化学、物理等基础科研领域的“弯道超车”。
- 天大封伟教授、王玲教授团队 Matter:人工智能神经肌肉纤维束 2024-12-04
- 济南大学化学化工学院国家级人才团队招聘启事 - 教授、副教授、讲师、博士后(师资) 2024-11-12
- 香港城市大学李文荣教授团队 Adv. Sci.:人工智能赋能的柔软传感阵列可同时检测肌肉变形和肌动信号-以实现元宇宙体感交互 2024-03-06
- 国家自然科学基金“分子聚集发光”基础科学中心项目启动 2018-03-23
- 国务院发布《关于全面加强基础科学研究的若干意见》 2018-02-01
- 2018年的第一场国务院常务会: 确定加大支持基础科学研究的措施,提升原始创新能力 2018-01-04