力学十年: 现状与展望
1
2019
... 在力学研究中, 杨卫院士提出发展人工智能交叉力学(X-Mechanics) (Yang et al. 2019 ), 张统一院士提出"力学信息学"的概念(王鹏等2018 ), 强调借助当下快速发展的人工智能算法解决力学问题, 彰显大数据方法的优势. 国家自然科学基金委员会白坤朝等(2019) 在回顾中国力学近十年来的发展后, 针对未来力学项目资助导向给出如下建议: 加强基础研究、鼓励创新研究、重视学科交叉、发展先进实验手段. 大数据方法处于上述建议的核心: 大数据作为一种新方法, 与力学学科的交叉能够丰富力学内涵并带来新的研究方法, 利用大数据方法解决力学研究中强度、湍流等经典难题初获成效, 同时大数据的获取同样需要先进试验手段的帮助. 为此, 作者提出如下建议: ...
力学十年: 现状与展望
1
2019
... 在力学研究中, 杨卫院士提出发展人工智能交叉力学(X-Mechanics) (Yang et al. 2019 ), 张统一院士提出"力学信息学"的概念(王鹏等2018 ), 强调借助当下快速发展的人工智能算法解决力学问题, 彰显大数据方法的优势. 国家自然科学基金委员会白坤朝等(2019) 在回顾中国力学近十年来的发展后, 针对未来力学项目资助导向给出如下建议: 加强基础研究、鼓励创新研究、重视学科交叉、发展先进实验手段. 大数据方法处于上述建议的核心: 大数据作为一种新方法, 与力学学科的交叉能够丰富力学内涵并带来新的研究方法, 利用大数据方法解决力学研究中强度、湍流等经典难题初获成效, 同时大数据的获取同样需要先进试验手段的帮助. 为此, 作者提出如下建议: ...
自主创新助力国产化进程—世冠科技GCAir4.0正式发布
1
2018
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
数据科学及其对信息科学的影响
1
2017
... 大数据本身、大数据方法和思维也在学术界引起了广泛的讨论, 并成为研究的焦点和热点. 如何从历史数据中挖掘出有用的信息和知识来指导设计研发, 如何利用大数据方法开展科学研究是当前科学研究领域内关注的核心问题. 目前国内外已经出现数十本与大数据或数据科学相关的杂志, 多个大数据主题的国际学术会议, 及研究机构等(朝乐门和卢小宾 2017 ). 2008年和2011年《自然》和《科学》分别推出了大数据专刊, 简述了大数据在未来研究的突破口, 并总结了在当前诸多领域的重要应用(Duncan 2008 , Science staff 2011 ). 2008年, Computing Community Consortium发表了有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》, 提出大数据真正重要的是新用途和新见解, 而非数据本身(Bryant et al. 2008 ). 美国科学院在2014年组织召开《材料研发中的大数据》研讨会, 系统研讨了大数据技术在物理学、材料基因组、集成计算材料科学、智能制造等领域的潜力和应用. 国际科技数据委员会与中国科学院于2014年在北京召开了"大数据与科学发现国际研讨会", 分析大数据在全球变化、数字地球、高能物理、计算生物学等领域的应用, 挖掘大数据在科学探索中的应用、价值和挑战(郭华东 2014 ). ...
数据科学及其对信息科学的影响
1
2017
... 大数据本身、大数据方法和思维也在学术界引起了广泛的讨论, 并成为研究的焦点和热点. 如何从历史数据中挖掘出有用的信息和知识来指导设计研发, 如何利用大数据方法开展科学研究是当前科学研究领域内关注的核心问题. 目前国内外已经出现数十本与大数据或数据科学相关的杂志, 多个大数据主题的国际学术会议, 及研究机构等(朝乐门和卢小宾 2017 ). 2008年和2011年《自然》和《科学》分别推出了大数据专刊, 简述了大数据在未来研究的突破口, 并总结了在当前诸多领域的重要应用(Duncan 2008 , Science staff 2011 ). 2008年, Computing Community Consortium发表了有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》, 提出大数据真正重要的是新用途和新见解, 而非数据本身(Bryant et al. 2008 ). 美国科学院在2014年组织召开《材料研发中的大数据》研讨会, 系统研讨了大数据技术在物理学、材料基因组、集成计算材料科学、智能制造等领域的潜力和应用. 国际科技数据委员会与中国科学院于2014年在北京召开了"大数据与科学发现国际研讨会", 分析大数据在全球变化、数字地球、高能物理、计算生物学等领域的应用, 挖掘大数据在科学探索中的应用、价值和挑战(郭华东 2014 ). ...
基于大数据的科学研究范式的哲学研究
2
2016
... 大数据方法背后是分析和思考模式的"质变". 大数据时代最大的思维方式转变是从探求因果关系, 变为挖掘相关关系, 也就是说只要知道"是什么", 而不需要知道"为什么". 这种思维的本质是认为数据里的信息已经足够(数字构成世界), 也即数据可以体现物理本质、自然界的物理关系, 物理关系也可以从数据的收集、挖掘中获取(数字表达世界). 与此同时, 科研方法正在从传统的假说驱动型方法转向基于数据的探索型方法. 科研人员不再问"我如何设计实验来验证这一假说", 而是问"我可以从数据中发现什么". 通过数据分析, 可以发现自然和人为现象背后的模型(黄欣荣 2015 , 张晓强 等 2014 , 戴潘 2016 ). 从大数据方法的特点可以看出, 大数据的体量是否足够大、特征维度是否足够多、内在结构是否足够复杂、更新迭代速度是否足够快, 是大数据方法能否准确表征系统非线性、复杂机理及动态演化特性的基础, 因而上述特征也是大数据区别于其他数据的核心特征. ...
... 反观大数据方法, 在一些复杂系统的预测与控制中获得了较好的效果, "谷歌流感预测"、"啤酒与纸尿裤"等案例使得大数据思维深入人心. 大数据允许数据和算法揭示复杂系统的规律和模式并实现有效管理, 不追问复杂因果关系却能够实现快速有效的决策, 且似乎适合于任何学科领域的问题, 这正是大数据的诱惑所在. 针对力学当前面临的问题, 大数据方法的显著优势在于通过数据减少认知不确定性、通过数据驱动避免经验建模误差的引入, 进而提高模型的预测能力. 仍以隔热瓦缝隙影响分析为例, 如果通过传感器获取不同服役条件、不同缝隙大小下隔热瓦壁面、背面等不同位置的温度, 同时结合数据挖掘的方式, 分析缝隙造成热防护背面温度上升的关键因素并提出数据驱动的模型, 不失为一种更为有效的方法. 大数据方法构成了科学研究的第四范式, 如图5 所示, 即"数据密集型科学发现" (Kitchin 2014 , 戴潘 2016 ). ...
基于大数据的科学研究范式的哲学研究
2
2016
... 大数据方法背后是分析和思考模式的"质变". 大数据时代最大的思维方式转变是从探求因果关系, 变为挖掘相关关系, 也就是说只要知道"是什么", 而不需要知道"为什么". 这种思维的本质是认为数据里的信息已经足够(数字构成世界), 也即数据可以体现物理本质、自然界的物理关系, 物理关系也可以从数据的收集、挖掘中获取(数字表达世界). 与此同时, 科研方法正在从传统的假说驱动型方法转向基于数据的探索型方法. 科研人员不再问"我如何设计实验来验证这一假说", 而是问"我可以从数据中发现什么". 通过数据分析, 可以发现自然和人为现象背后的模型(黄欣荣 2015 , 张晓强 等 2014 , 戴潘 2016 ). 从大数据方法的特点可以看出, 大数据的体量是否足够大、特征维度是否足够多、内在结构是否足够复杂、更新迭代速度是否足够快, 是大数据方法能否准确表征系统非线性、复杂机理及动态演化特性的基础, 因而上述特征也是大数据区别于其他数据的核心特征. ...
... 反观大数据方法, 在一些复杂系统的预测与控制中获得了较好的效果, "谷歌流感预测"、"啤酒与纸尿裤"等案例使得大数据思维深入人心. 大数据允许数据和算法揭示复杂系统的规律和模式并实现有效管理, 不追问复杂因果关系却能够实现快速有效的决策, 且似乎适合于任何学科领域的问题, 这正是大数据的诱惑所在. 针对力学当前面临的问题, 大数据方法的显著优势在于通过数据减少认知不确定性、通过数据驱动避免经验建模误差的引入, 进而提高模型的预测能力. 仍以隔热瓦缝隙影响分析为例, 如果通过传感器获取不同服役条件、不同缝隙大小下隔热瓦壁面、背面等不同位置的温度, 同时结合数据挖掘的方式, 分析缝隙造成热防护背面温度上升的关键因素并提出数据驱动的模型, 不失为一种更为有效的方法. 大数据方法构成了科学研究的第四范式, 如图5 所示, 即"数据密集型科学发现" (Kitchin 2014 , 戴潘 2016 ). ...
科学大数据与数字地球
2
2014
... 早在20世纪90年代, 被称为"数据仓库之父"的Bill Inmon就开始关注大数据, 当时的大数据还被称作海量数据(Inmon et al. 1999 ). 大数据最初显现于运营系统记录的数据, 如超市的销售记录、银行的流水记录以及医院的病历记录等(交易型数据). 互联网时代下所产生以用户交互与原创内容为特征的大量数据造成了数据量的第一次飞跃(行为型数据). 大数据的第二次飞跃得益于传感技术与物联网技术的发展, 使得自动采集和感知的数据呈现爆发态势(özköse et al. 2015 , Sun et al. 2016 , 孟小峰和慈祥 2013 ). "万物互联"以及无处不在的传感和控制 时时刻刻在产生数据并利用数据辅助决策, 这也被誉为大数据的"第二次浪潮" (Darema 2018 ). 在科学研究领域内, 高性能数值模拟方法及各类高通量的试验仪器 正帮助研究人员获取大量的数据, 从而形成"科学大数据" (郭华东等2014 ). ...
... 大数据本身、大数据方法和思维也在学术界引起了广泛的讨论, 并成为研究的焦点和热点. 如何从历史数据中挖掘出有用的信息和知识来指导设计研发, 如何利用大数据方法开展科学研究是当前科学研究领域内关注的核心问题. 目前国内外已经出现数十本与大数据或数据科学相关的杂志, 多个大数据主题的国际学术会议, 及研究机构等(朝乐门和卢小宾 2017 ). 2008年和2011年《自然》和《科学》分别推出了大数据专刊, 简述了大数据在未来研究的突破口, 并总结了在当前诸多领域的重要应用(Duncan 2008 , Science staff 2011 ). 2008年, Computing Community Consortium发表了有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》, 提出大数据真正重要的是新用途和新见解, 而非数据本身(Bryant et al. 2008 ). 美国科学院在2014年组织召开《材料研发中的大数据》研讨会, 系统研讨了大数据技术在物理学、材料基因组、集成计算材料科学、智能制造等领域的潜力和应用. 国际科技数据委员会与中国科学院于2014年在北京召开了"大数据与科学发现国际研讨会", 分析大数据在全球变化、数字地球、高能物理、计算生物学等领域的应用, 挖掘大数据在科学探索中的应用、价值和挑战(郭华东 2014 ). ...
科学大数据与数字地球
2
2014
... 早在20世纪90年代, 被称为"数据仓库之父"的Bill Inmon就开始关注大数据, 当时的大数据还被称作海量数据(Inmon et al. 1999 ). 大数据最初显现于运营系统记录的数据, 如超市的销售记录、银行的流水记录以及医院的病历记录等(交易型数据). 互联网时代下所产生以用户交互与原创内容为特征的大量数据造成了数据量的第一次飞跃(行为型数据). 大数据的第二次飞跃得益于传感技术与物联网技术的发展, 使得自动采集和感知的数据呈现爆发态势(özköse et al. 2015 , Sun et al. 2016 , 孟小峰和慈祥 2013 ). "万物互联"以及无处不在的传感和控制 时时刻刻在产生数据并利用数据辅助决策, 这也被誉为大数据的"第二次浪潮" (Darema 2018 ). 在科学研究领域内, 高性能数值模拟方法及各类高通量的试验仪器 正帮助研究人员获取大量的数据, 从而形成"科学大数据" (郭华东等2014 ). ...
... 大数据本身、大数据方法和思维也在学术界引起了广泛的讨论, 并成为研究的焦点和热点. 如何从历史数据中挖掘出有用的信息和知识来指导设计研发, 如何利用大数据方法开展科学研究是当前科学研究领域内关注的核心问题. 目前国内外已经出现数十本与大数据或数据科学相关的杂志, 多个大数据主题的国际学术会议, 及研究机构等(朝乐门和卢小宾 2017 ). 2008年和2011年《自然》和《科学》分别推出了大数据专刊, 简述了大数据在未来研究的突破口, 并总结了在当前诸多领域的重要应用(Duncan 2008 , Science staff 2011 ). 2008年, Computing Community Consortium发表了有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》, 提出大数据真正重要的是新用途和新见解, 而非数据本身(Bryant et al. 2008 ). 美国科学院在2014年组织召开《材料研发中的大数据》研讨会, 系统研讨了大数据技术在物理学、材料基因组、集成计算材料科学、智能制造等领域的潜力和应用. 国际科技数据委员会与中国科学院于2014年在北京召开了"大数据与科学发现国际研讨会", 分析大数据在全球变化、数字地球、高能物理、计算生物学等领域的应用, 挖掘大数据在科学探索中的应用、价值和挑战(郭华东 2014 ). ...
大数据大科学大发现——大数据与科学发现国际研讨会综述
2014
大数据大科学大发现——大数据与科学发现国际研讨会综述
2014
大数据哲学研究的背景、现状与路径
1
2015
... 大数据方法背后是分析和思考模式的"质变". 大数据时代最大的思维方式转变是从探求因果关系, 变为挖掘相关关系, 也就是说只要知道"是什么", 而不需要知道"为什么". 这种思维的本质是认为数据里的信息已经足够(数字构成世界), 也即数据可以体现物理本质、自然界的物理关系, 物理关系也可以从数据的收集、挖掘中获取(数字表达世界). 与此同时, 科研方法正在从传统的假说驱动型方法转向基于数据的探索型方法. 科研人员不再问"我如何设计实验来验证这一假说", 而是问"我可以从数据中发现什么". 通过数据分析, 可以发现自然和人为现象背后的模型(黄欣荣 2015 , 张晓强 等 2014 , 戴潘 2016 ). 从大数据方法的特点可以看出, 大数据的体量是否足够大、特征维度是否足够多、内在结构是否足够复杂、更新迭代速度是否足够快, 是大数据方法能否准确表征系统非线性、复杂机理及动态演化特性的基础, 因而上述特征也是大数据区别于其他数据的核心特征. ...
大数据哲学研究的背景、现状与路径
1
2015
... 大数据方法背后是分析和思考模式的"质变". 大数据时代最大的思维方式转变是从探求因果关系, 变为挖掘相关关系, 也就是说只要知道"是什么", 而不需要知道"为什么". 这种思维的本质是认为数据里的信息已经足够(数字构成世界), 也即数据可以体现物理本质、自然界的物理关系, 物理关系也可以从数据的收集、挖掘中获取(数字表达世界). 与此同时, 科研方法正在从传统的假说驱动型方法转向基于数据的探索型方法. 科研人员不再问"我如何设计实验来验证这一假说", 而是问"我可以从数据中发现什么". 通过数据分析, 可以发现自然和人为现象背后的模型(黄欣荣 2015 , 张晓强 等 2014 , 戴潘 2016 ). 从大数据方法的特点可以看出, 大数据的体量是否足够大、特征维度是否足够多、内在结构是否足够复杂、更新迭代速度是否足够快, 是大数据方法能否准确表征系统非线性、复杂机理及动态演化特性的基础, 因而上述特征也是大数据区别于其他数据的核心特征. ...
热防护结构缝隙热响应分析与设计. [硕士论文]
1
2014
... 随着研究对象的复杂化和来自现代工程中的艰巨挑战, 在复杂介质、极端条件、多场耦合和多尺度等力学前沿问题中, 高维度、非确定性等复杂系统共性特征凸显. 基于第一性原理的建模, 也即尝试建立复杂系统的偏微分方程组显得力不从心, 寻找因果关系模型越来越困难. 本文作者主要从事极端环境下复合材料与结构的行为机理、响应预报及优化设计方法研究. 在该类结构分析中, 材料存在显著的非线性行为与多尺度损伤失效特征、结构响应与环境存在耦合效应, 不得不采用大量的经验模型以及假设、简化等, 进而引入大量的不确定性因素. 随着高维不确定性参数的引入, 模型预测的精度、模型外推的可信度往往难以满足要求(杨强 2019 ). 举一例说明: 航天飞机热防护系统为防止隔热瓦热变形过大, 采用了多块瓦 $+$ 缝隙组装的方式, 类似的缝隙设计也被用于各类热结构热应力的释放中. 但缝隙成为热气流渗入的通道, 为分析缝隙对热防护温度的影响, 基于第一性原理的分析思路是: 建立两块隔热瓦及缝隙的传热/流动/变形耦合分析模型, 考虑飞行环境对缝隙内的流场特征、气动热效应、壁面辐射效应、瓦热膨胀变形引起流固耦合效应、瓦在高温下热物理特性等多个物理效应开展分析, 需要环境、流动、材料等大量模型参数(霍施宇 2014 ). 这一过程极为耗时耗力, 但仍难以保证模型准确、有效. ...
热防护结构缝隙热响应分析与设计. [硕士论文]
1
2014
... 随着研究对象的复杂化和来自现代工程中的艰巨挑战, 在复杂介质、极端条件、多场耦合和多尺度等力学前沿问题中, 高维度、非确定性等复杂系统共性特征凸显. 基于第一性原理的建模, 也即尝试建立复杂系统的偏微分方程组显得力不从心, 寻找因果关系模型越来越困难. 本文作者主要从事极端环境下复合材料与结构的行为机理、响应预报及优化设计方法研究. 在该类结构分析中, 材料存在显著的非线性行为与多尺度损伤失效特征、结构响应与环境存在耦合效应, 不得不采用大量的经验模型以及假设、简化等, 进而引入大量的不确定性因素. 随着高维不确定性参数的引入, 模型预测的精度、模型外推的可信度往往难以满足要求(杨强 2019 ). 举一例说明: 航天飞机热防护系统为防止隔热瓦热变形过大, 采用了多块瓦 $+$ 缝隙组装的方式, 类似的缝隙设计也被用于各类热结构热应力的释放中. 但缝隙成为热气流渗入的通道, 为分析缝隙对热防护温度的影响, 基于第一性原理的分析思路是: 建立两块隔热瓦及缝隙的传热/流动/变形耦合分析模型, 考虑飞行环境对缝隙内的流场特征、气动热效应、壁面辐射效应、瓦热膨胀变形引起流固耦合效应、瓦在高温下热物理特性等多个物理效应开展分析, 需要环境、流动、材料等大量模型参数(霍施宇 2014 ). 这一过程极为耗时耗力, 但仍难以保证模型准确、有效. ...
GE力推以结果为导向的大数据分析
1
2016
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
GE力推以结果为导向的大数据分析
1
2016
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
土木工程结构健康监测系统的研究状况与进展
1
2008
... 在工程实践中, 结构的损伤意味着结构无法在最佳的状态下工作, 或者在目标服役环境条件下、无法达到设计性能. 结构健康监测(SHM)是利用传感器所获取的数据, 实现结构损伤识别和预警的过程. 工程结构、装备的损伤一般通过服役性能退化体现, SHM一般需要依赖结构进行反向的损伤诊断及寿命预测等(Farrar & Worden 2006 , 李宏男 等 2008 ). ...
土木工程结构健康监测系统的研究状况与进展
1
2008
... 在工程实践中, 结构的损伤意味着结构无法在最佳的状态下工作, 或者在目标服役环境条件下、无法达到设计性能. 结构健康监测(SHM)是利用传感器所获取的数据, 实现结构损伤识别和预警的过程. 工程结构、装备的损伤一般通过服役性能退化体现, SHM一般需要依赖结构进行反向的损伤诊断及寿命预测等(Farrar & Worden 2006 , 李宏男 等 2008 ). ...
结构健康监测数据科学与工程
1
2015
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(Farrar & Worden 2012 ). 如Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(涂成枫 等 2017 ). ...
结构健康监测数据科学与工程
1
2015
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(Farrar & Worden 2012 ). 如Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(涂成枫 等 2017 ). ...
他国如何与大数据"共舞"
1
2013
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
他国如何与大数据"共舞"
1
2013
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
大数据技术研究综述
1
2014
... 在数据应用的价值链中, 大数据技术旨在发展应用大数据解决实际问题所需的关键技术, 包括数据采集与整理、基础硬件构架、软件平台与应用工具等 (Kambatla et al. 2014 ). 大数据不同维度特征给大数据技术带来不同的挑战, 例如: (1)数据体量的快速膨胀及快速产生使得数据的存储和传输技术难以满足要求; (2)结构化数据库技术不再能够满足数据多样性的要求; (3)数据产生及其价值的时效性需要实时的数据处理模式; (4)数据中存在错误和价值稀疏的特点也需要进行全新的数据处理和挖掘工具. 满足上述挑战, 需要数据分析处理的硬件构架、系统平台及软件工具的整体升级, 以实现高速捕获、分析并从大量异构数据中提取价值. 表1 总结了大数据在硬件、软件及应用各个层面的技术(Landset et al. 2015 , Singh & Reddy 2015 , Tsai et al. 2015 , 张锋军 2014 , 刘智慧和张泉灵 2014 ). ...
大数据技术研究综述
1
2014
... 在数据应用的价值链中, 大数据技术旨在发展应用大数据解决实际问题所需的关键技术, 包括数据采集与整理、基础硬件构架、软件平台与应用工具等 (Kambatla et al. 2014 ). 大数据不同维度特征给大数据技术带来不同的挑战, 例如: (1)数据体量的快速膨胀及快速产生使得数据的存储和传输技术难以满足要求; (2)结构化数据库技术不再能够满足数据多样性的要求; (3)数据产生及其价值的时效性需要实时的数据处理模式; (4)数据中存在错误和价值稀疏的特点也需要进行全新的数据处理和挖掘工具. 满足上述挑战, 需要数据分析处理的硬件构架、系统平台及软件工具的整体升级, 以实现高速捕获、分析并从大量异构数据中提取价值. 表1 总结了大数据在硬件、软件及应用各个层面的技术(Landset et al. 2015 , Singh & Reddy 2015 , Tsai et al. 2015 , 张锋军 2014 , 刘智慧和张泉灵 2014 ). ...
1
2013
... 大数据方法通过挖掘数据来寻找数据规律, 并利用数据之间的相关关系来解释现象和预测未来, 也即"让数据发声". 核心是建立在数学模型和算法基础上的科学预测活动, 即研究探索海量数据之间的内在逻辑和关联方式, 预测事情发生的可能性. 大数据方法本质上属于归纳法, 但也有其鲜明的特征, 如尝试利用所有数据进行分析; 与准确的少量数据相比, 更倾向于采用大量复杂的数据; 关注事物之间的相关关系, 并认为相关关系比因果关系更为稳健、易用; 大数据的简单算法比小数据的复杂算法更有效等. 舍恩伯格在《大数据时代: 生活、工作与思维的大变革》(舍恩伯格和库克耶 2013 )中总结了大数据方法的3个特征: (1)不是随机样本, 而是全体数据; (2)不是精确性, 而是混杂性; (3)不是因果关系, 而是相关关系. 大数据方法基于"数据驱动", 数据混杂性导致维度增加, 可以将原来看似无关的维度联系起来, 维度间相互交叉, 极大增强了数据之间的关联性获取, 帮助发现更多的可能性和关联性. ...
1
2013
... 大数据方法通过挖掘数据来寻找数据规律, 并利用数据之间的相关关系来解释现象和预测未来, 也即"让数据发声". 核心是建立在数学模型和算法基础上的科学预测活动, 即研究探索海量数据之间的内在逻辑和关联方式, 预测事情发生的可能性. 大数据方法本质上属于归纳法, 但也有其鲜明的特征, 如尝试利用所有数据进行分析; 与准确的少量数据相比, 更倾向于采用大量复杂的数据; 关注事物之间的相关关系, 并认为相关关系比因果关系更为稳健、易用; 大数据的简单算法比小数据的复杂算法更有效等. 舍恩伯格在《大数据时代: 生活、工作与思维的大变革》(舍恩伯格和库克耶 2013 )中总结了大数据方法的3个特征: (1)不是随机样本, 而是全体数据; (2)不是精确性, 而是混杂性; (3)不是因果关系, 而是相关关系. 大数据方法基于"数据驱动", 数据混杂性导致维度增加, 可以将原来看似无关的维度联系起来, 维度间相互交叉, 极大增强了数据之间的关联性获取, 帮助发现更多的可能性和关联性. ...
大数据管理: 概念、技术与挑战
1
2013
... 早在20世纪90年代, 被称为"数据仓库之父"的Bill Inmon就开始关注大数据, 当时的大数据还被称作海量数据(Inmon et al. 1999 ). 大数据最初显现于运营系统记录的数据, 如超市的销售记录、银行的流水记录以及医院的病历记录等(交易型数据). 互联网时代下所产生以用户交互与原创内容为特征的大量数据造成了数据量的第一次飞跃(行为型数据). 大数据的第二次飞跃得益于传感技术与物联网技术的发展, 使得自动采集和感知的数据呈现爆发态势(özköse et al. 2015 , Sun et al. 2016 , 孟小峰和慈祥 2013 ). "万物互联"以及无处不在的传感和控制 时时刻刻在产生数据并利用数据辅助决策, 这也被誉为大数据的"第二次浪潮" (Darema 2018 ). 在科学研究领域内, 高性能数值模拟方法及各类高通量的试验仪器 正帮助研究人员获取大量的数据, 从而形成"科学大数据" (郭华东等2014 ). ...
大数据管理: 概念、技术与挑战
1
2013
... 早在20世纪90年代, 被称为"数据仓库之父"的Bill Inmon就开始关注大数据, 当时的大数据还被称作海量数据(Inmon et al. 1999 ). 大数据最初显现于运营系统记录的数据, 如超市的销售记录、银行的流水记录以及医院的病历记录等(交易型数据). 互联网时代下所产生以用户交互与原创内容为特征的大量数据造成了数据量的第一次飞跃(行为型数据). 大数据的第二次飞跃得益于传感技术与物联网技术的发展, 使得自动采集和感知的数据呈现爆发态势(özköse et al. 2015 , Sun et al. 2016 , 孟小峰和慈祥 2013 ). "万物互联"以及无处不在的传感和控制 时时刻刻在产生数据并利用数据辅助决策, 这也被誉为大数据的"第二次浪潮" (Darema 2018 ). 在科学研究领域内, 高性能数值模拟方法及各类高通量的试验仪器 正帮助研究人员获取大量的数据, 从而形成"科学大数据" (郭华东等2014 ). ...
PTC 推出最新版本 ThingWorx物联网平台
1
2016
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
PTC 推出最新版本 ThingWorx物联网平台
1
2016
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
大数据助推人工智能
1
2016
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
大数据助推人工智能
1
2016
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
数字孪生车间——一种未来车间运行新模式
1
2017
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
数字孪生车间——一种未来车间运行新模式
1
2017
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
面向桥梁长期健康监测的大数据处理技术及应用
2
2017
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(Farrar & Worden 2012 ). 如Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(涂成枫 等 2017 ). ...
面向桥梁长期健康监测的大数据处理技术及应用
2
2017
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(Farrar & Worden 2012 ). 如Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(涂成枫 等 2017 ). ...
力学信息学简介
1
2018
... 在力学研究中, 杨卫院士提出发展人工智能交叉力学(X-Mechanics) (Yang et al. 2019 ), 张统一院士提出"力学信息学"的概念(王鹏等2018 ), 强调借助当下快速发展的人工智能算法解决力学问题, 彰显大数据方法的优势. 国家自然科学基金委员会白坤朝等(2019) 在回顾中国力学近十年来的发展后, 针对未来力学项目资助导向给出如下建议: 加强基础研究、鼓励创新研究、重视学科交叉、发展先进实验手段. 大数据方法处于上述建议的核心: 大数据作为一种新方法, 与力学学科的交叉能够丰富力学内涵并带来新的研究方法, 利用大数据方法解决力学研究中强度、湍流等经典难题初获成效, 同时大数据的获取同样需要先进试验手段的帮助. 为此, 作者提出如下建议: ...
力学信息学简介
1
2018
... 在力学研究中, 杨卫院士提出发展人工智能交叉力学(X-Mechanics) (Yang et al. 2019 ), 张统一院士提出"力学信息学"的概念(王鹏等2018 ), 强调借助当下快速发展的人工智能算法解决力学问题, 彰显大数据方法的优势. 国家自然科学基金委员会白坤朝等(2019) 在回顾中国力学近十年来的发展后, 针对未来力学项目资助导向给出如下建议: 加强基础研究、鼓励创新研究、重视学科交叉、发展先进实验手段. 大数据方法处于上述建议的核心: 大数据作为一种新方法, 与力学学科的交叉能够丰富力学内涵并带来新的研究方法, 利用大数据方法解决力学研究中强度、湍流等经典难题初获成效, 同时大数据的获取同样需要先进试验手段的帮助. 为此, 作者提出如下建议: ...
制定我国大数据战略与开放数据战略: 日本的经验与启示
1
2016
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
制定我国大数据战略与开放数据战略: 日本的经验与启示
1
2016
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
大数据技术发展的十个前沿方向(上)
1
2015
... 吴甘沙(英特尔中国研究院)将大数据技术发展的驱动力分为3类, 即数据自身的治理、大数据下实时计算以及如何更有效地从数据中提取价值(吴甘沙 2015a , 2015b , 2015c ), 摘述如下: ...
大数据技术发展的十个前沿方向(上)
1
2015
... 吴甘沙(英特尔中国研究院)将大数据技术发展的驱动力分为3类, 即数据自身的治理、大数据下实时计算以及如何更有效地从数据中提取价值(吴甘沙 2015a , 2015b , 2015c ), 摘述如下: ...
大数据技术发展的十个前沿方向(中)
1
2015
... 吴甘沙(英特尔中国研究院)将大数据技术发展的驱动力分为3类, 即数据自身的治理、大数据下实时计算以及如何更有效地从数据中提取价值(吴甘沙 2015a , 2015b , 2015c ), 摘述如下: ...
大数据技术发展的十个前沿方向(中)
1
2015
... 吴甘沙(英特尔中国研究院)将大数据技术发展的驱动力分为3类, 即数据自身的治理、大数据下实时计算以及如何更有效地从数据中提取价值(吴甘沙 2015a , 2015b , 2015c ), 摘述如下: ...
大数据技术发展的十个前沿方向(下)
1
2015
... 吴甘沙(英特尔中国研究院)将大数据技术发展的驱动力分为3类, 即数据自身的治理、大数据下实时计算以及如何更有效地从数据中提取价值(吴甘沙 2015a , 2015b , 2015c ), 摘述如下: ...
大数据技术发展的十个前沿方向(下)
1
2015
... 吴甘沙(英特尔中国研究院)将大数据技术发展的驱动力分为3类, 即数据自身的治理、大数据下实时计算以及如何更有效地从数据中提取价值(吴甘沙 2015a , 2015b , 2015c ), 摘述如下: ...
1
2016
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
1
2016
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
基于大数据的力学性能预测与工艺参数筛选
1
2016
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
基于大数据的力学性能预测与工艺参数筛选
1
2016
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
香山科学会议第506~509、S22、510次学术讨论会简述
2
2015
... 在国内, 2014年10月以"科学大数据的前沿问题"为主题的香山科学会议第507次学术讨论会在北京香山饭店召开. 来自信息科学、遥感科学、地理学、气候学、大气科学、高能物理学、天文学、生物学、农学、医学、材料、化学、法学等学科领域的45位专家出席了会议. 本次会议针对面向科学大数据研究基础设施、大数据时代科技创新的新模式、科学数据共享新机制和新趋势、科学大数据学科发展与人才培养等4个中心议题进行了充分讨论. 会议认为科学大数据正在改变传统的科研方式, 成为认识自然的钥匙和科学发现的新引擎和新源泉, 科学大数据驱动各学科新发现的研究模式和引导案例正在探索中(杨炳忻 2015 ). 2018年12月, 在国家自然科学基金委的支持下、由哈尔滨工业大学牵头组织, 在深圳召开了"大数据驱动下力学的机遇与挑战"研讨会. 会议邀请了交叉力学、力学信息学、材料基因工程、装备结构性能检测、结构健康监测、动力学系统与控制、计算力学、实验力学、多场耦合力学、载人航天及科学哲学等方面的专家出席, 报告了大数据方法、智能方法应用进展, 会议普遍认同大数据与力学交叉将出现新的学科方向增长点, 同时也强调了力学的主体作用. ...
... 在力学研究中, 杨卫院士提出发展人工智能交叉力学(X-Mechanics) (Yang et al. 2019 ), 张统一院士提出"力学信息学"的概念(王鹏等2018 ), 强调借助当下快速发展的人工智能算法解决力学问题, 彰显大数据方法的优势. 国家自然科学基金委员会白坤朝等(2019) 在回顾中国力学近十年来的发展后, 针对未来力学项目资助导向给出如下建议: 加强基础研究、鼓励创新研究、重视学科交叉、发展先进实验手段. 大数据方法处于上述建议的核心: 大数据作为一种新方法, 与力学学科的交叉能够丰富力学内涵并带来新的研究方法, 利用大数据方法解决力学研究中强度、湍流等经典难题初获成效, 同时大数据的获取同样需要先进试验手段的帮助. 为此, 作者提出如下建议: ...
香山科学会议第506~509、S22、510次学术讨论会简述
2
2015
... 在国内, 2014年10月以"科学大数据的前沿问题"为主题的香山科学会议第507次学术讨论会在北京香山饭店召开. 来自信息科学、遥感科学、地理学、气候学、大气科学、高能物理学、天文学、生物学、农学、医学、材料、化学、法学等学科领域的45位专家出席了会议. 本次会议针对面向科学大数据研究基础设施、大数据时代科技创新的新模式、科学数据共享新机制和新趋势、科学大数据学科发展与人才培养等4个中心议题进行了充分讨论. 会议认为科学大数据正在改变传统的科研方式, 成为认识自然的钥匙和科学发现的新引擎和新源泉, 科学大数据驱动各学科新发现的研究模式和引导案例正在探索中(杨炳忻 2015 ). 2018年12月, 在国家自然科学基金委的支持下、由哈尔滨工业大学牵头组织, 在深圳召开了"大数据驱动下力学的机遇与挑战"研讨会. 会议邀请了交叉力学、力学信息学、材料基因工程、装备结构性能检测、结构健康监测、动力学系统与控制、计算力学、实验力学、多场耦合力学、载人航天及科学哲学等方面的专家出席, 报告了大数据方法、智能方法应用进展, 会议普遍认同大数据与力学交叉将出现新的学科方向增长点, 同时也强调了力学的主体作用. ...
... 在力学研究中, 杨卫院士提出发展人工智能交叉力学(X-Mechanics) (Yang et al. 2019 ), 张统一院士提出"力学信息学"的概念(王鹏等2018 ), 强调借助当下快速发展的人工智能算法解决力学问题, 彰显大数据方法的优势. 国家自然科学基金委员会白坤朝等(2019) 在回顾中国力学近十年来的发展后, 针对未来力学项目资助导向给出如下建议: 加强基础研究、鼓励创新研究、重视学科交叉、发展先进实验手段. 大数据方法处于上述建议的核心: 大数据作为一种新方法, 与力学学科的交叉能够丰富力学内涵并带来新的研究方法, 利用大数据方法解决力学研究中强度、湍流等经典难题初获成效, 同时大数据的获取同样需要先进试验手段的帮助. 为此, 作者提出如下建议: ...
陶瓷基复合材料损伤行为及其结构响应的不确定性量化方法
1
2019
... 随着研究对象的复杂化和来自现代工程中的艰巨挑战, 在复杂介质、极端条件、多场耦合和多尺度等力学前沿问题中, 高维度、非确定性等复杂系统共性特征凸显. 基于第一性原理的建模, 也即尝试建立复杂系统的偏微分方程组显得力不从心, 寻找因果关系模型越来越困难. 本文作者主要从事极端环境下复合材料与结构的行为机理、响应预报及优化设计方法研究. 在该类结构分析中, 材料存在显著的非线性行为与多尺度损伤失效特征、结构响应与环境存在耦合效应, 不得不采用大量的经验模型以及假设、简化等, 进而引入大量的不确定性因素. 随着高维不确定性参数的引入, 模型预测的精度、模型外推的可信度往往难以满足要求(杨强 2019 ). 举一例说明: 航天飞机热防护系统为防止隔热瓦热变形过大, 采用了多块瓦 $+$ 缝隙组装的方式, 类似的缝隙设计也被用于各类热结构热应力的释放中. 但缝隙成为热气流渗入的通道, 为分析缝隙对热防护温度的影响, 基于第一性原理的分析思路是: 建立两块隔热瓦及缝隙的传热/流动/变形耦合分析模型, 考虑飞行环境对缝隙内的流场特征、气动热效应、壁面辐射效应、瓦热膨胀变形引起流固耦合效应、瓦在高温下热物理特性等多个物理效应开展分析, 需要环境、流动、材料等大量模型参数(霍施宇 2014 ). 这一过程极为耗时耗力, 但仍难以保证模型准确、有效. ...
陶瓷基复合材料损伤行为及其结构响应的不确定性量化方法
1
2019
... 随着研究对象的复杂化和来自现代工程中的艰巨挑战, 在复杂介质、极端条件、多场耦合和多尺度等力学前沿问题中, 高维度、非确定性等复杂系统共性特征凸显. 基于第一性原理的建模, 也即尝试建立复杂系统的偏微分方程组显得力不从心, 寻找因果关系模型越来越困难. 本文作者主要从事极端环境下复合材料与结构的行为机理、响应预报及优化设计方法研究. 在该类结构分析中, 材料存在显著的非线性行为与多尺度损伤失效特征、结构响应与环境存在耦合效应, 不得不采用大量的经验模型以及假设、简化等, 进而引入大量的不确定性因素. 随着高维不确定性参数的引入, 模型预测的精度、模型外推的可信度往往难以满足要求(杨强 2019 ). 举一例说明: 航天飞机热防护系统为防止隔热瓦热变形过大, 采用了多块瓦 $+$ 缝隙组装的方式, 类似的缝隙设计也被用于各类热结构热应力的释放中. 但缝隙成为热气流渗入的通道, 为分析缝隙对热防护温度的影响, 基于第一性原理的分析思路是: 建立两块隔热瓦及缝隙的传热/流动/变形耦合分析模型, 考虑飞行环境对缝隙内的流场特征、气动热效应、壁面辐射效应、瓦热膨胀变形引起流固耦合效应、瓦在高温下热物理特性等多个物理效应开展分析, 需要环境、流动、材料等大量模型参数(霍施宇 2014 ). 这一过程极为耗时耗力, 但仍难以保证模型准确、有效. ...
大数据技术研究综述
1
2014
... 在数据应用的价值链中, 大数据技术旨在发展应用大数据解决实际问题所需的关键技术, 包括数据采集与整理、基础硬件构架、软件平台与应用工具等 (Kambatla et al. 2014 ). 大数据不同维度特征给大数据技术带来不同的挑战, 例如: (1)数据体量的快速膨胀及快速产生使得数据的存储和传输技术难以满足要求; (2)结构化数据库技术不再能够满足数据多样性的要求; (3)数据产生及其价值的时效性需要实时的数据处理模式; (4)数据中存在错误和价值稀疏的特点也需要进行全新的数据处理和挖掘工具. 满足上述挑战, 需要数据分析处理的硬件构架、系统平台及软件工具的整体升级, 以实现高速捕获、分析并从大量异构数据中提取价值. 表1 总结了大数据在硬件、软件及应用各个层面的技术(Landset et al. 2015 , Singh & Reddy 2015 , Tsai et al. 2015 , 张锋军 2014 , 刘智慧和张泉灵 2014 ). ...
大数据技术研究综述
1
2014
... 在数据应用的价值链中, 大数据技术旨在发展应用大数据解决实际问题所需的关键技术, 包括数据采集与整理、基础硬件构架、软件平台与应用工具等 (Kambatla et al. 2014 ). 大数据不同维度特征给大数据技术带来不同的挑战, 例如: (1)数据体量的快速膨胀及快速产生使得数据的存储和传输技术难以满足要求; (2)结构化数据库技术不再能够满足数据多样性的要求; (3)数据产生及其价值的时效性需要实时的数据处理模式; (4)数据中存在错误和价值稀疏的特点也需要进行全新的数据处理和挖掘工具. 满足上述挑战, 需要数据分析处理的硬件构架、系统平台及软件工具的整体升级, 以实现高速捕获、分析并从大量异构数据中提取价值. 表1 总结了大数据在硬件、软件及应用各个层面的技术(Landset et al. 2015 , Singh & Reddy 2015 , Tsai et al. 2015 , 张锋军 2014 , 刘智慧和张泉灵 2014 ). ...
大数据方法: 科学方法的变革和哲学思考
1
2014
... 大数据方法背后是分析和思考模式的"质变". 大数据时代最大的思维方式转变是从探求因果关系, 变为挖掘相关关系, 也就是说只要知道"是什么", 而不需要知道"为什么". 这种思维的本质是认为数据里的信息已经足够(数字构成世界), 也即数据可以体现物理本质、自然界的物理关系, 物理关系也可以从数据的收集、挖掘中获取(数字表达世界). 与此同时, 科研方法正在从传统的假说驱动型方法转向基于数据的探索型方法. 科研人员不再问"我如何设计实验来验证这一假说", 而是问"我可以从数据中发现什么". 通过数据分析, 可以发现自然和人为现象背后的模型(黄欣荣 2015 , 张晓强 等 2014 , 戴潘 2016 ). 从大数据方法的特点可以看出, 大数据的体量是否足够大、特征维度是否足够多、内在结构是否足够复杂、更新迭代速度是否足够快, 是大数据方法能否准确表征系统非线性、复杂机理及动态演化特性的基础, 因而上述特征也是大数据区别于其他数据的核心特征. ...
大数据方法: 科学方法的变革和哲学思考
1
2014
... 大数据方法背后是分析和思考模式的"质变". 大数据时代最大的思维方式转变是从探求因果关系, 变为挖掘相关关系, 也就是说只要知道"是什么", 而不需要知道"为什么". 这种思维的本质是认为数据里的信息已经足够(数字构成世界), 也即数据可以体现物理本质、自然界的物理关系, 物理关系也可以从数据的收集、挖掘中获取(数字表达世界). 与此同时, 科研方法正在从传统的假说驱动型方法转向基于数据的探索型方法. 科研人员不再问"我如何设计实验来验证这一假说", 而是问"我可以从数据中发现什么". 通过数据分析, 可以发现自然和人为现象背后的模型(黄欣荣 2015 , 张晓强 等 2014 , 戴潘 2016 ). 从大数据方法的特点可以看出, 大数据的体量是否足够大、特征维度是否足够多、内在结构是否足够复杂、更新迭代速度是否足够快, 是大数据方法能否准确表征系统非线性、复杂机理及动态演化特性的基础, 因而上述特征也是大数据区别于其他数据的核心特征. ...
实施国家大数据战略加快建设数字中国
1
2017
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
实施国家大数据战略加快建设数字中国
1
2017
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
产品数字孪生体的内涵、体系结构及其发展趋势
1
2017
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
产品数字孪生体的内涵、体系结构及其发展趋势
1
2017
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
From data to wisdom
1
1989
... 有别于大数据本身, 大数据科学是以大数据为研究对象, 旨在发展从数据中提取知识、获取价值的所需方法, 包括数据挖掘与数据驱动方法等, 是在统计学的基础上与人工智能、机器智能等融合, 又与自然、工程、社会科学等研究领域相互交叉而形成的新兴学科(Gu & Zhang 2014 ). 大数据的完备性、高维度和实时性, 又使得大数据科学方法有别于传统统计学. 如图3所示的DIKW (data, information, knowledge, wisdom)模型对认识大数据科学中数据的转换十分有用(Ackoff 1989 , Rowley 2007 ). 数据是基础, 是客观事物的数量、属性、位置及其相互关系的抽象表示; 结合情境从数据中提取信息, 赋予数据具体的含义、逻辑和价值, 表现为具体物理状态或过程的描述; 通过对信息的归纳、演绎等 提取出信息中有价值的部分沉淀为知识, 表现为模型、规律等; 在知识的基础上, 正确解决问题的能力称之为智慧, 表现为优化、控制、决策等(Batra 2014 , Jifa & Lingling 2014 ). ...
Perspective: Materials informatics and Big Data: Realization of the "fourth paradigm" of science in materials science
1
2016
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
Efficient machine learning for Big Data: A review
1
2015
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
Multifidelity DDDAS methods with application to a self-aware aerospace vehicle
1
2014
... 美国国家自然科学基金会于2000年正式提出动态数据驱动应用系统的概念, 这是一种新的协作应用和传感系统模式的研究. 如图13 所示, 利用动态测试数据实时、自适应地修正分析模型, 最大限度地消除这些不确定性因素的影响, 给出更为准确的结果, 并通过参与系统决策来控制实际系统的执行(Darema 2008 , Douglas 2008 ). 近年来, 针对大规模系统的跟踪和控制问题, 如车队、无人机蜂群系统等, 美国空军科学研究实验室提出了动态大数据驱动应用系统, 以及信息共生系统. 目前, 在AFOSR支持下, 联合麻省理工、德州大学、德州农工大学发展了飞行器结构在线损伤监测、预诊与决策系统方法(Burrows et al. 2016 ). 在飞行器结构领域内, 麻省理工联合了德州大学将DDDAS应用到自感知的智能无人机上, 在离线阶段利用模型降阶与代理模型构建了结构应变响应与飞行最大过载之间的映射关系, 在飞行中能够利用测试的传感数据在线模拟分析并评估飞行器的能力, 进而更新飞行器状态并用于飞行包络线的决策(Allaire et al. 2014 , Lecerf et al. 2015 , Mainini & Willcox 2015 ). 美国德州大学构建了一套数据驱动的飞行器复合材料损伤在线预测系统, 完成了软件工具平台的搭建, 并在PMC单轴拉伸下损伤在线预测中进行了初步验证. 该系统利用测试获取的材料应变响应构建似然函数, 利用贝叶斯定理来实现对材料损伤模型参数的更新, 或依据模型的似然度来选择恰当的损伤模型, 进而提升损伤预测的准确性. 对于不断更新的试验数据, 基于贝叶斯滤波与马尔科夫链模型构建了改进卡尔曼滤波方法, 实现了材料损伤模型的连续修正. 利用材料损伤在线预诊, 能够实现分析模型的自适应改进、材料自修复机制及飞行轨迹的主动控制(Prudencio et al. 2015 ). ...
Big Data analytics and machine intelligence capability development at NASA Langley Research Center: Strategy, roadmap, and progress
1
2016
... 与此同时, 各科学研究组织积极探索"大数据"的落地应用. 美国空军科学实验室于2008年启动动态数据驱动应用系统(Dynamic Data Driven Application System, DDDAS)专项资助, 近年来推动动态大数据驱动应用系统, 旨在利用大规模传感网络解决复杂系统预测和决策问题, 如自感知飞行器、气象预报、无人机群管理等(Darema 2018 ). 美国国防高级研究计划局(Defense Advanced Research Projects Agency, DARPA)于2014年启动了"大机理"项目, 将文献资料作为大数据, 致力于发展自动化文献阅读和分析工具, 以提取因果机制和知识, 发掘隐藏在数据中的模型, 以帮助理解复杂系统. 该计划的先行领域是癌症生物学, 通过强调因果模型的挖掘和推理, 大机理项目将改变科学研究的方式并成为科学的未来(Cohen 2015 , Rzhetsky 2016 ). NASA Langley研究中心启动了"综合数字化转型"计划, 旨在发挥综合数字化工具和技术能力的催化剂作用, 实现相关创新研究、系统分析和设计的转型变革, 保持NASA在航空航天领域的领先地位. 该计划将大数据分析作为核心发展能力, 2016年发布了"大数据分析和机器智能能力: 战略、路线及进展"报告, 并指出大数据和机器智能是分析和设计的力量倍增器, 规划了数据密集型科学发现、深度内容分析及深度问答3个核心发展领域(Ambur et al. 2016 , Morrison et al. 2016 ). ...
A new reliability-based data-driven approach for noisy experimental data with physical constraints
1
2018
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Data analytics: Hyped up aspirations or true potential?
1
2013
... 大数据分析(Big Data analytics)是大数据科学主要发展的方法论之一, 是指从大数据中找出可以帮助决策的隐含模式、未知的相关关系以及其他有用信息的过程, 也即如何从数据中提取有用的信息, 并将上述信息转化为可执行的知识(Banerjee et al. 2013 , Deka 2014 , Russom 2011 , Sivarajah et al. 2017 ). 大数据分析主要包括以下3种模式: ...
Big Data analytics and its reflections on DIKW hierarchy
2
2014
... 有别于大数据本身, 大数据科学是以大数据为研究对象, 旨在发展从数据中提取知识、获取价值的所需方法, 包括数据挖掘与数据驱动方法等, 是在统计学的基础上与人工智能、机器智能等融合, 又与自然、工程、社会科学等研究领域相互交叉而形成的新兴学科(Gu & Zhang 2014 ). 大数据的完备性、高维度和实时性, 又使得大数据科学方法有别于传统统计学. 如图3所示的DIKW (data, information, knowledge, wisdom)模型对认识大数据科学中数据的转换十分有用(Ackoff 1989 , Rowley 2007 ). 数据是基础, 是客观事物的数量、属性、位置及其相互关系的抽象表示; 结合情境从数据中提取信息, 赋予数据具体的含义、逻辑和价值, 表现为具体物理状态或过程的描述; 通过对信息的归纳、演绎等 提取出信息中有价值的部分沉淀为知识, 表现为模型、规律等; 在知识的基础上, 正确解决问题的能力称之为智慧, 表现为优化、控制、决策等(Batra 2014 , Jifa & Lingling 2014 ). ...
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
Big Data and deep data in scanning and electron microscopies: Deriving functionality from multidimensional data sets
2015
Big Data analytics in healthcare
1
2015
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
A framework for data-driven analysis of materials under uncertainty: Countering the curse of dimensionality
2
2017
... 大数据本身、大数据方法和思维也在学术界引起了广泛的讨论, 并成为研究的焦点和热点. 如何从历史数据中挖掘出有用的信息和知识来指导设计研发, 如何利用大数据方法开展科学研究是当前科学研究领域内关注的核心问题. 目前国内外已经出现数十本与大数据或数据科学相关的杂志, 多个大数据主题的国际学术会议, 及研究机构等(朝乐门和卢小宾 2017 ). 2008年和2011年《自然》和《科学》分别推出了大数据专刊, 简述了大数据在未来研究的突破口, 并总结了在当前诸多领域的重要应用(Duncan 2008 , Science staff 2011 ). 2008年, Computing Community Consortium发表了有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》, 提出大数据真正重要的是新用途和新见解, 而非数据本身(Bryant et al. 2008 ). 美国科学院在2014年组织召开《材料研发中的大数据》研讨会, 系统研讨了大数据技术在物理学、材料基因组、集成计算材料科学、智能制造等领域的潜力和应用. 国际科技数据委员会与中国科学院于2014年在北京召开了"大数据与科学发现国际研讨会", 分析大数据在全球变化、数字地球、高能物理、计算生物学等领域的应用, 挖掘大数据在科学探索中的应用、价值和挑战(郭华东 2014 ). ...
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Big-data computing: Creating revolutionary breakthroughs in commerce
2008
Strength in numbers: How does data-driven decision making affect firm performance
2
2011
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
... 美国国家自然科学基金会于2000年正式提出动态数据驱动应用系统的概念, 这是一种新的协作应用和传感系统模式的研究. 如图13 所示, 利用动态测试数据实时、自适应地修正分析模型, 最大限度地消除这些不确定性因素的影响, 给出更为准确的结果, 并通过参与系统决策来控制实际系统的执行(Darema 2008 , Douglas 2008 ). 近年来, 针对大规模系统的跟踪和控制问题, 如车队、无人机蜂群系统等, 美国空军科学研究实验室提出了动态大数据驱动应用系统, 以及信息共生系统. 目前, 在AFOSR支持下, 联合麻省理工、德州大学、德州农工大学发展了飞行器结构在线损伤监测、预诊与决策系统方法(Burrows et al. 2016 ). 在飞行器结构领域内, 麻省理工联合了德州大学将DDDAS应用到自感知的智能无人机上, 在离线阶段利用模型降阶与代理模型构建了结构应变响应与飞行最大过载之间的映射关系, 在飞行中能够利用测试的传感数据在线模拟分析并评估飞行器的能力, 进而更新飞行器状态并用于飞行包络线的决策(Allaire et al. 2014 , Lecerf et al. 2015 , Mainini & Willcox 2015 ). 美国德州大学构建了一套数据驱动的飞行器复合材料损伤在线预测系统, 完成了软件工具平台的搭建, 并在PMC单轴拉伸下损伤在线预测中进行了初步验证. 该系统利用测试获取的材料应变响应构建似然函数, 利用贝叶斯定理来实现对材料损伤模型参数的更新, 或依据模型的似然度来选择恰当的损伤模型, 进而提升损伤预测的准确性. 对于不断更新的试验数据, 基于贝叶斯滤波与马尔科夫链模型构建了改进卡尔曼滤波方法, 实现了材料损伤模型的连续修正. 利用材料损伤在线预诊, 能够实现分析模型的自适应改进、材料自修复机制及飞行轨迹的主动控制(Prudencio et al. 2015 ). ...
A dynamic data-driven approach to multiple task capability estimation for self-aware aerospace vehicles
2016
Big Data analytics in structural health monitoring. [PhD Thesis].
2
2017
... (2)高维度: 数据的信息丰富且全面, 能够反映系统的全貌. 如图2 (b)所示, 数据在低维空间内观察数据点是散乱无章的, 而在高维空间内集中在一个S型曲面上 (Cayton 2005 ); ...
... (3)对大型装备或结构的健康监测数据(Cai 2017 , Jin 2017 ): 大型结构所采用的传感器数量和种类越来越多. 以桥梁为例, 其结构健康监测系统涉及的传感器一般包括应变、温度、湿度、变形、加速度、声发射等传感器, 所产生的数据类型丰富、数据结构不一, 且存在大量的噪声和数据异常; 并且, 传感器每天的产生的数据量达到数个GB乃至数十GB以上, 产生的数据速度快、体量大; 与此同时, 桥梁长期监测获取的海量数据中, 仅有少量数据显示结构的损伤, 也即数据的价值相对稀疏. 充分利用这些大数据, 采用数据挖掘、机器学习等方式开展结构状态的诊断、预报及预防性管理, 实现大型工程结构的安全评定、寿命评估及全寿命周期管理, 无疑将在保证结构安全性的同时带来巨大的经济效益. ...
Algorithms for manifold learning
2005
Top 10 strategic technology trends for 2018
1
2017
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
DARPA's big mechanism program
1
2015
... 与此同时, 各科学研究组织积极探索"大数据"的落地应用. 美国空军科学实验室于2008年启动动态数据驱动应用系统(Dynamic Data Driven Application System, DDDAS)专项资助, 近年来推动动态大数据驱动应用系统, 旨在利用大规模传感网络解决复杂系统预测和决策问题, 如自感知飞行器、气象预报、无人机群管理等(Darema 2018 ). 美国国防高级研究计划局(Defense Advanced Research Projects Agency, DARPA)于2014年启动了"大机理"项目, 将文献资料作为大数据, 致力于发展自动化文献阅读和分析工具, 以提取因果机制和知识, 发掘隐藏在数据中的模型, 以帮助理解复杂系统. 该计划的先行领域是癌症生物学, 通过强调因果模型的挖掘和推理, 大机理项目将改变科学研究的方式并成为科学的未来(Cohen 2015 , Rzhetsky 2016 ). NASA Langley研究中心启动了"综合数字化转型"计划, 旨在发挥综合数字化工具和技术能力的催化剂作用, 实现相关创新研究、系统分析和设计的转型变革, 保持NASA在航空航天领域的领先地位. 该计划将大数据分析作为核心发展能力, 2016年发布了"大数据分析和机器智能能力: 战略、路线及进展"报告, 并指出大数据和机器智能是分析和设计的力量倍增器, 规划了数据密集型科学发现、深度内容分析及深度问答3个核心发展领域(Ambur et al. 2016 , Morrison et al. 2016 ). ...
WYPIWYG hyperelasticity for isotropic, compressible materials
1
2017
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Dynamic data driven applications systems—a transformative paradigm
3
2008
... 早在20世纪90年代, 被称为"数据仓库之父"的Bill Inmon就开始关注大数据, 当时的大数据还被称作海量数据(Inmon et al. 1999 ). 大数据最初显现于运营系统记录的数据, 如超市的销售记录、银行的流水记录以及医院的病历记录等(交易型数据). 互联网时代下所产生以用户交互与原创内容为特征的大量数据造成了数据量的第一次飞跃(行为型数据). 大数据的第二次飞跃得益于传感技术与物联网技术的发展, 使得自动采集和感知的数据呈现爆发态势(özköse et al. 2015 , Sun et al. 2016 , 孟小峰和慈祥 2013 ). "万物互联"以及无处不在的传感和控制 时时刻刻在产生数据并利用数据辅助决策, 这也被誉为大数据的"第二次浪潮" (Darema 2018 ). 在科学研究领域内, 高性能数值模拟方法及各类高通量的试验仪器 正帮助研究人员获取大量的数据, 从而形成"科学大数据" (郭华东等2014 ). ...
... 与此同时, 各科学研究组织积极探索"大数据"的落地应用. 美国空军科学实验室于2008年启动动态数据驱动应用系统(Dynamic Data Driven Application System, DDDAS)专项资助, 近年来推动动态大数据驱动应用系统, 旨在利用大规模传感网络解决复杂系统预测和决策问题, 如自感知飞行器、气象预报、无人机群管理等(Darema 2018 ). 美国国防高级研究计划局(Defense Advanced Research Projects Agency, DARPA)于2014年启动了"大机理"项目, 将文献资料作为大数据, 致力于发展自动化文献阅读和分析工具, 以提取因果机制和知识, 发掘隐藏在数据中的模型, 以帮助理解复杂系统. 该计划的先行领域是癌症生物学, 通过强调因果模型的挖掘和推理, 大机理项目将改变科学研究的方式并成为科学的未来(Cohen 2015 , Rzhetsky 2016 ). NASA Langley研究中心启动了"综合数字化转型"计划, 旨在发挥综合数字化工具和技术能力的催化剂作用, 实现相关创新研究、系统分析和设计的转型变革, 保持NASA在航空航天领域的领先地位. 该计划将大数据分析作为核心发展能力, 2016年发布了"大数据分析和机器智能能力: 战略、路线及进展"报告, 并指出大数据和机器智能是分析和设计的力量倍增器, 规划了数据密集型科学发现、深度内容分析及深度问答3个核心发展领域(Ambur et al. 2016 , Morrison et al. 2016 ). ...
... 美国国家自然科学基金会于2000年正式提出动态数据驱动应用系统的概念, 这是一种新的协作应用和传感系统模式的研究. 如图13 所示, 利用动态测试数据实时、自适应地修正分析模型, 最大限度地消除这些不确定性因素的影响, 给出更为准确的结果, 并通过参与系统决策来控制实际系统的执行(Darema 2008 , Douglas 2008 ). 近年来, 针对大规模系统的跟踪和控制问题, 如车队、无人机蜂群系统等, 美国空军科学研究实验室提出了动态大数据驱动应用系统, 以及信息共生系统. 目前, 在AFOSR支持下, 联合麻省理工、德州大学、德州农工大学发展了飞行器结构在线损伤监测、预诊与决策系统方法(Burrows et al. 2016 ). 在飞行器结构领域内, 麻省理工联合了德州大学将DDDAS应用到自感知的智能无人机上, 在离线阶段利用模型降阶与代理模型构建了结构应变响应与飞行最大过载之间的映射关系, 在飞行中能够利用测试的传感数据在线模拟分析并评估飞行器的能力, 进而更新飞行器状态并用于飞行包络线的决策(Allaire et al. 2014 , Lecerf et al. 2015 , Mainini & Willcox 2015 ). 美国德州大学构建了一套数据驱动的飞行器复合材料损伤在线预测系统, 完成了软件工具平台的搭建, 并在PMC单轴拉伸下损伤在线预测中进行了初步验证. 该系统利用测试获取的材料应变响应构建似然函数, 利用贝叶斯定理来实现对材料损伤模型参数的更新, 或依据模型的似然度来选择恰当的损伤模型, 进而提升损伤预测的准确性. 对于不断更新的试验数据, 基于贝叶斯滤波与马尔科夫链模型构建了改进卡尔曼滤波方法, 实现了材料损伤模型的连续修正. 利用材料损伤在线预诊, 能够实现分析模型的自适应改进、材料自修复机制及飞行轨迹的主动控制(Prudencio et al. 2015 ). ...
Grids-of-grids and autonomy
2018
DNS of wall turbulence: Dilute polymers and self-sustaining mechanisms
1
2002
... 相比之下, 有关湍流的试验以及直接数值模拟(DNS)都能够给出不同边界下的湍流特征数据(De Angelis et al. 2002 ), 多年来已经有大量的积累, 而这正是大数据分析的用武之地. 已经有很多学者利用这些大的高保真数据集结合机器学习算法来构建更精确的雷诺应力模型, 包括美国桑迪亚国家实验室Ling等(2016) , 维多利亚理工的Xiao团队(Wang et al. 2017 , Wu et al. 2019 ), 以及密歇根大学的Duraisamy团队等(Duraisamy et al. 2019 , Singh et al. 2017 ). 以Duraisamy等(2019) 的工作为例, 该团队基于大数据构建了一种湍流模拟的框架, 如图10 所示. 在该框架中: 首先利用不同的、大量的、多种来源的高质量数据集, 来分析RANS模型中的误差, 以及数据集对应的构型的局部特征向量(如局部无量纲参数), 而后采用机器学习的方式构建上述误差与数据集对应的局部特征之间的函数, 进而增强RANS模型并用于CFD. 将该方法用于不同翼型的分离流预测中已经取得了较好的改进效果. ...
2
2014
... (5)价值稀疏性: 是指数据中的价值密度不高, 需要通过分析、挖掘才能获取.
10.6052/1000-0992-19-002.F001 图1 大数据的外在特征: 5Vs (Demchenko et al. 2013 )
从大数据的5V特征中, 可以看出大数据区别于"小数据"的核心内在特征,包括: ...
... 大数据分析(Big Data analytics)是大数据科学主要发展的方法论之一, 是指从大数据中找出可以帮助决策的隐含模式、未知的相关关系以及其他有用信息的过程, 也即如何从数据中提取有用的信息, 并将上述信息转化为可执行的知识(Banerjee et al. 2013 , Deka 2014 , Russom 2011 , Sivarajah et al. 2017 ). 大数据分析主要包括以下3种模式: ...
Addressing Big Data issues in scientific data infrastructure
2013
Data science and prediction
1
2013
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
Perspectives on the impact of machine learning, deep learning, and artificial intelligence on materials, processes, and structures engineering
2
2018
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
... 在"数字孪生"的概念内, 有3点重要思想: (1)定位于产品全寿命周期管理; 产品全寿命周期内的每个环节都存在不确定性, 将所有的不确定性协同考虑, 实现产品状态的实时监控, 各环节之间的信息能够及时双向沟通而不是以往"从生到死"的单线传递, 极大地提高了生产效率, 实现产品的及时维护, 延长产品的使用寿命. (2)传感器与数据的引入越多越好, 越早越好; 更早地引入数据能够使模型从最开始就尽量与实体保持一致, 保证以后对模型的各类操作具有实际意义; 而不断地引入更多的数据, 则可以更好地验证模型的有效性, 越来越多的信息才能逐步驱动模型接近实体. (3)数据不断引入动态更新模型, 数据与模型共同驱动结构行为的准确模拟与预示. 单独的测量数据或数字模型都不足以支撑可靠的诊断与预测, 只有用数据来弥补模型的误差, 用模型来补充数据的有限性, 两者相互协同才能依据实时更新的动态模型做出更准确的模拟与预示. 数字孪生强调利用全部数据、利用传感器给出的多样性数据, 以及强调用数据来驱动知识的获取以增加认知, 这3点思想与大数据思维方法不谋而合. 数字孪生借助于健康监测系统给出的大数据, 利用数据分析对结构当前的状态作出诊断, 对结构未来的性能作出预测, 并依据数据给出的信息, 对未来应采取的操作给出实时的决策, 如
图15 所示. 在大数据方法与技术的驱动下, 数字孪生正成为现实.
10.6052/1000-0992-19-002.F0015 图15 大数据分析学对数字孪生的支撑作用 (Dion 2016 )
数字孪生将大数据分析学、DDDAS及机器智能等方法融合在一起, 如图16 所示, 成为连接物理空间与机器智能的纽带, 将带来各类结构从设计到运行维护各阶段任务范式上的转变, 包括: (1)成为未来系统工程的核心, 以数字孪生为纽带实现不同部门、不同专业的高效协作和统一管理; (2)有别于传统的结构设计、研制、验证与改进的逻辑, 利用数字孪生可先行开展产品的设计与验证, 加速设计改进、减少设计迭代, 而后再进行产品的研制; (3)从系统出现问题后再开展诊断、维护的"后诊断"模式, 转变为全寿命管理、预先诊断结构状态、实施预防性维护, 极大地增加系统的可用性和寿命、降低维护成本; (4)实时跟踪系统的状态、开展在线状态评估, 提高对故障的响应、决策速度, 实现系统优化等. ...
Predictive analytics and the digital twin
2016
Dynamic data driven applications systems-DDDAS 2008
1
2008
... 美国国家自然科学基金会于2000年正式提出动态数据驱动应用系统的概念, 这是一种新的协作应用和传感系统模式的研究. 如图13 所示, 利用动态测试数据实时、自适应地修正分析模型, 最大限度地消除这些不确定性因素的影响, 给出更为准确的结果, 并通过参与系统决策来控制实际系统的执行(Darema 2008 , Douglas 2008 ). 近年来, 针对大规模系统的跟踪和控制问题, 如车队、无人机蜂群系统等, 美国空军科学研究实验室提出了动态大数据驱动应用系统, 以及信息共生系统. 目前, 在AFOSR支持下, 联合麻省理工、德州大学、德州农工大学发展了飞行器结构在线损伤监测、预诊与决策系统方法(Burrows et al. 2016 ). 在飞行器结构领域内, 麻省理工联合了德州大学将DDDAS应用到自感知的智能无人机上, 在离线阶段利用模型降阶与代理模型构建了结构应变响应与飞行最大过载之间的映射关系, 在飞行中能够利用测试的传感数据在线模拟分析并评估飞行器的能力, 进而更新飞行器状态并用于飞行包络线的决策(Allaire et al. 2014 , Lecerf et al. 2015 , Mainini & Willcox 2015 ). 美国德州大学构建了一套数据驱动的飞行器复合材料损伤在线预测系统, 完成了软件工具平台的搭建, 并在PMC单轴拉伸下损伤在线预测中进行了初步验证. 该系统利用测试获取的材料应变响应构建似然函数, 利用贝叶斯定理来实现对材料损伤模型参数的更新, 或依据模型的似然度来选择恰当的损伤模型, 进而提升损伤预测的准确性. 对于不断更新的试验数据, 基于贝叶斯滤波与马尔科夫链模型构建了改进卡尔曼滤波方法, 实现了材料损伤模型的连续修正. 利用材料损伤在线预诊, 能够实现分析模型的自适应改进、材料自修复机制及飞行轨迹的主动控制(Prudencio et al. 2015 ). ...
Big Data special
2
2008
... 大数据本身、大数据方法和思维也在学术界引起了广泛的讨论, 并成为研究的焦点和热点. 如何从历史数据中挖掘出有用的信息和知识来指导设计研发, 如何利用大数据方法开展科学研究是当前科学研究领域内关注的核心问题. 目前国内外已经出现数十本与大数据或数据科学相关的杂志, 多个大数据主题的国际学术会议, 及研究机构等(朝乐门和卢小宾 2017 ). 2008年和2011年《自然》和《科学》分别推出了大数据专刊, 简述了大数据在未来研究的突破口, 并总结了在当前诸多领域的重要应用(Duncan 2008 , Science staff 2011 ). 2008年, Computing Community Consortium发表了有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》, 提出大数据真正重要的是新用途和新见解, 而非数据本身(Bryant et al. 2008 ). 美国科学院在2014年组织召开《材料研发中的大数据》研讨会, 系统研讨了大数据技术在物理学、材料基因组、集成计算材料科学、智能制造等领域的潜力和应用. 国际科技数据委员会与中国科学院于2014年在北京召开了"大数据与科学发现国际研讨会", 分析大数据在全球变化、数字地球、高能物理、计算生物学等领域的应用, 挖掘大数据在科学探索中的应用、价值和挑战(郭华东 2014 ). ...
... 相比之下, 有关湍流的试验以及直接数值模拟(DNS)都能够给出不同边界下的湍流特征数据(
De Angelis et al. 2002 ), 多年来已经有大量的积累, 而这正是大数据分析的用武之地. 已经有很多学者利用这些大的高保真数据集结合机器学习算法来构建更精确的雷诺应力模型, 包括美国桑迪亚国家实验室
Ling等(2016) , 维多利亚理工的Xiao团队(
Wang et al. 2017 ,
Wu et al. 2019 ), 以及密歇根大学的Duraisamy团队等(
Duraisamy et al. 2019 ,
Singh et al. 2017 ). 以
Duraisamy等(2019) 的工作为例, 该团队基于大数据构建了一种湍流模拟的框架, 如
图10 所示. 在该框架中: 首先利用不同的、大量的、多种来源的高质量数据集, 来分析RANS模型中的误差, 以及数据集对应的构型的局部特征向量(如局部无量纲参数), 而后采用机器学习的方式构建上述误差与数据集对应的局部特征之间的函数, 进而增强RANS模型并用于CFD. 将该方法用于不同翼型的分离流预测中已经取得了较好的改进效果.
10.6052/1000-0992-19-002.F0010 图10 大数据驱动湍流模拟框架(Duraisamy et al. 2017 )
上述研究面临的挑战包括: (1)湍流模拟对雷诺应力模型中的小误差十分敏感; (2)雷诺应力与数据中的哪些信息相关并不明确; (3)从某些构型中学习到的模型必须要拓展到其他构型中, 因为湍流对局部几何特征依赖较强; (4)必须要量化模型中的不确定性因素及其影响; (5)提取的模型必须有较快的计算速度和较好的收敛性能. ...
A framework for turbulence modeling using Big Data: Phase II final report
2017
Turbulence modeling in the age of data
2
2019
... 相比之下, 有关湍流的试验以及直接数值模拟(DNS)都能够给出不同边界下的湍流特征数据(De Angelis et al. 2002 ), 多年来已经有大量的积累, 而这正是大数据分析的用武之地. 已经有很多学者利用这些大的高保真数据集结合机器学习算法来构建更精确的雷诺应力模型, 包括美国桑迪亚国家实验室Ling等(2016) , 维多利亚理工的Xiao团队(Wang et al. 2017 , Wu et al. 2019 ), 以及密歇根大学的Duraisamy团队等(Duraisamy et al. 2019 , Singh et al. 2017 ). 以Duraisamy等(2019) 的工作为例, 该团队基于大数据构建了一种湍流模拟的框架, 如图10 所示. 在该框架中: 首先利用不同的、大量的、多种来源的高质量数据集, 来分析RANS模型中的误差, 以及数据集对应的构型的局部特征向量(如局部无量纲参数), 而后采用机器学习的方式构建上述误差与数据集对应的局部特征之间的函数, 进而增强RANS模型并用于CFD. 将该方法用于不同翼型的分离流预测中已经取得了较好的改进效果. ...
... ). 以Duraisamy等(2019) 的工作为例, 该团队基于大数据构建了一种湍流模拟的框架, 如图10 所示. 在该框架中: 首先利用不同的、大量的、多种来源的高质量数据集, 来分析RANS模型中的误差, 以及数据集对应的构型的局部特征向量(如局部无量纲参数), 而后采用机器学习的方式构建上述误差与数据集对应的局部特征之间的函数, 进而增强RANS模型并用于CFD. 将该方法用于不同翼型的分离流预测中已经取得了较好的改进效果. ...
Big Data, bigger dilemmas: A critical review
1
2015
... 当然, 学术界对大数据作为科学研究的第四范式也持有不同观点(Ekbia et al. 2015 , Frické 2015 , Mazzocchi 2015 , Succi & Coveney 2018 , Zhou et al. 2014 ). 批评的焦点在于大数据能否有效进行科学发现: (1)相关性能否替代因果关系; (2)缺乏理论指导能否有效进行数据的收集、挖掘; (3)复杂系统对数据微小错误十分敏感, 数据间的冲突会导致数据的价值随着数据量增加而降低等; (4)大数据幻觉, 即出现"假阳性"等. 这种批评是十分有益的, 它使得我们认清大数据并非万能, 而是存在着明确的能力边界, 即: 大数据本质上处理的是具有足够多、高维度数据, 并只能给出相关性的解释. 与此同时, 也需要发展大数据的科学哲学理论以及更为先进的数据分析方法. 但上述批评与当前各学科(当然也包括力学)采用大数据的方法、结合学科自身的特点开展尝试研究并不矛盾. ...
Scanning thermoionic microscopy for probing local electrochemistry at the nanoscale
1
2016
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
An introduction to structural health monitoring.
2
2006
... 在工程实践中, 结构的损伤意味着结构无法在最佳的状态下工作, 或者在目标服役环境条件下、无法达到设计性能. 结构健康监测(SHM)是利用传感器所获取的数据, 实现结构损伤识别和预警的过程. 工程结构、装备的损伤一般通过服役性能退化体现, SHM一般需要依赖结构进行反向的损伤诊断及寿命预测等(Farrar & Worden 2006 , 李宏男 等 2008 ). ...
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(Farrar & Worden 2012 ). 如Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(涂成枫 等 2017 ). ...
Structural Health Monitoring: A Machine Learning Perspective.
2012
Big Data and its epistemology
1
2015
... 当然, 学术界对大数据作为科学研究的第四范式也持有不同观点(Ekbia et al. 2015 , Frické 2015 , Mazzocchi 2015 , Succi & Coveney 2018 , Zhou et al. 2014 ). 批评的焦点在于大数据能否有效进行科学发现: (1)相关性能否替代因果关系; (2)缺乏理论指导能否有效进行数据的收集、挖掘; (3)复杂系统对数据微小错误十分敏感, 数据间的冲突会导致数据的价值随着数据量增加而降低等; (4)大数据幻觉, 即出现"假阳性"等. 这种批评是十分有益的, 它使得我们认清大数据并非万能, 而是存在着明确的能力边界, 即: 大数据本质上处理的是具有足够多、高维度数据, 并只能给出相关性的解释. 与此同时, 也需要发展大数据的科学哲学理论以及更为先进的数据分析方法. 但上述批评与当前各学科(当然也包括力学)采用大数据的方法、结合学科自身的特点开展尝试研究并不矛盾. ...
Genetic programming for experimental Big Data mining: A case study on concrete creep formulation
1
2016
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Beyond the hype: Big Data concepts, methods, and analytics
2
2015
... 到目前为止, 大数据在学术界和业界还没有统一、标准化的定义. Gandomi & Haider 2015 , Mauro et al. 2016 认为大数据的内涵既包括大数据的数据本身和大数据相关的处理分析技术, 也包括大数据解决问题的方式与理念. 其中, 数据是开展分析、获取价值的基础资源, 大数据思维是指导数据运用及获取价值的核心, 大数据分析处理技术是实现上述过程的关键. 理解大数据的内涵, 也应当从"大数据作为一种资源""大数据作为一种科学方法"及"大数据作为一种前沿技术"这3个层面出发. ...
... 综合国际数据公司IDC (Gantz & Reinsel 2011 ), Gartner Group (Genovese & Prentice 2011 )及IBM (Schroeck et al. 2012 )等机构对大数据进行解析. 大数据的特征体现在5个方面, 即业界耳熟能详的5V: 数据量(volume)、分析和处理速度(velocity)、数据种类和来源多样化(variety)、数据价值(value)和隐藏知识的真实性(veracity), 如图1 所示. 其中: ...
Extracting value from chaos
1
2011
... 综合国际数据公司IDC (Gantz & Reinsel 2011 ), Gartner Group (Genovese & Prentice 2011 )及IBM (Schroeck et al. 2012 )等机构对大数据进行解析. 大数据的特征体现在5个方面, 即业界耳熟能详的5V: 数据量(volume)、分析和处理速度(velocity)、数据种类和来源多样化(variety)、数据价值(value)和隐藏知识的真实性(veracity), 如图1 所示. 其中: ...
Pattern-based strategy: getting value from Big Data
2011
The digital twin paradigm for future NASA and US Air Force vehicles
1
2012
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
Thermodynamically consistent data-driven computational mechanics
2
2019
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
Fulfilling the promise of the materials genome initiative with high-throughput experimental methodologies
1
2017
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
Digital twin: Mitigating unpredictable, undesirable emergent behavior in complex systems
2017
The "Big Data" revolution in healthcare
1
2013
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
Some comments on Big Data and data science
1
2014
... 有别于大数据本身, 大数据科学是以大数据为研究对象, 旨在发展从数据中提取知识、获取价值的所需方法, 包括数据挖掘与数据驱动方法等, 是在统计学的基础上与人工智能、机器智能等融合, 又与自然、工程、社会科学等研究领域相互交叉而形成的新兴学科(Gu & Zhang 2014 ). 大数据的完备性、高维度和实时性, 又使得大数据科学方法有别于传统统计学. 如图3所示的DIKW (data, information, knowledge, wisdom)模型对认识大数据科学中数据的转换十分有用(Ackoff 1989 , Rowley 2007 ). 数据是基础, 是客观事物的数量、属性、位置及其相互关系的抽象表示; 结合情境从数据中提取信息, 赋予数据具体的含义、逻辑和价值, 表现为具体物理状态或过程的描述; 通过对信息的归纳、演绎等 提取出信息中有价值的部分沉淀为知识, 表现为模型、规律等; 在知识的基础上, 正确解决问题的能力称之为智慧, 表现为优化、控制、决策等(Batra 2014 , Jifa & Lingling 2014 ). ...
Current challenges with Big Data analytics in structural health monitoring
1
... 目前面临的主要挑战在于难以获取完整的响应数据-损伤特征-性能度量间的联系(Gulgec et al. 2017 , Li & Ou 2016 ). 面对上述挑战, 目前使用最多的是基于卷积神经网络的深度学习技术, 用于从数据中主动抽取特征, 并建立与损伤模式之间的特征, 进而用于故障诊断. 该方法对简单结构的损伤识别已经表现出了良好的性能, 有望显著降低SHM中特征提取的难度. ...
A predicting model for properties of steel using the industrial Big Data based on machine learning
1
2019
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
On the power of Big Data: Mining structures from massive, unstructured text data
1
2017
... (1)大数据自身的治理: 针对大数据自身高速膨胀、异质化特性, 发展NoSQL, NewSQL等新兴数据库技术实现大量非结构化数据的管理; 发展各类分布式文件系统来实现大体量数据存储, 以及异质化存储以平衡数据存取速率与体量的矛盾; 针对非结构化数据, 发展属性分析、自动挖掘与信息组织、表达工具. 针对数据安全性与隐私, 发展数据加密、访问控制、数据匿名化及多方安全计算等技术, 在保证数据、系统及使用安全性的同时不损失价值(Han 2017 , Terzi et al. 2015 , Min et al. 2014a , Raj 2018 ). ...
The rise of "Big Data" on cloud computing: Review and open research issues
1
2015
... (3)更有效地从数据中提取价值: 在数据的体量、维度快速增长的情况下, 发展更为有效的机器智能模型与算法, 以实现从数据中快速、准确地提取信息和知识, 发展数据可视化、以及硬件、软件及分析能力的"云化"方法, 提升大数据作为工具的易用性. 相关的研究动向包括: 针对高维特征、非结构化数据发展深度学习方法以提升大量数据下机器学习的精度, 发展动态的、在线的流式学习方法实现模型精度与实时性的平衡, 以及各类新算法等以捕获稀疏数据特征和价值, 通过云技术实现大数据分析的易用性等(Hashem et al. 2015 , Najafabadi et al. 2015 ). ...
Digital image correlation: From displacement measurement to identification of elastic properties—a review
2
2006
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
... 高通量扫描探针试验(
Huang et al. 2018 )
数据的获取与数据的分析成为挑战的两个来源. 数据的获取需要实现高效和低成本, 数据的分析需要依据问题的性质发展数据挖掘及多元信息融合方法, 以及引入相关的物理知识, 以实现相关物理机制的解读并发现更深层次的机制. ...
An artificial intelligence atomic force microscope enabled by machine learning
1
2018
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
A manifold learning approach to data-driven computational elasticity and inelasticity
1
2018
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Data-driven non-linear elasticity: Constitutive manifold construction and problem discretization
2
2017
... 早在20世纪90年代, 被称为"数据仓库之父"的Bill Inmon就开始关注大数据, 当时的大数据还被称作海量数据(Inmon et al. 1999 ). 大数据最初显现于运营系统记录的数据, 如超市的销售记录、银行的流水记录以及医院的病历记录等(交易型数据). 互联网时代下所产生以用户交互与原创内容为特征的大量数据造成了数据量的第一次飞跃(行为型数据). 大数据的第二次飞跃得益于传感技术与物联网技术的发展, 使得自动采集和感知的数据呈现爆发态势(özköse et al. 2015 , Sun et al. 2016 , 孟小峰和慈祥 2013 ). "万物互联"以及无处不在的传感和控制 时时刻刻在产生数据并利用数据辅助决策, 这也被誉为大数据的"第二次浪潮" (Darema 2018 ). 在科学研究领域内, 高性能数值模拟方法及各类高通量的试验仪器 正帮助研究人员获取大量的数据, 从而形成"科学大数据" (郭华东等2014 ). ...
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Building the Operational Data Store.
1999
Modelling stress-strain and volume change behaviour of unsaturated soils using an evolutionary based data mining technique, an incremental approach
2012
Data, DIKW, Big Data and data science
1
2014
... 有别于大数据本身, 大数据科学是以大数据为研究对象, 旨在发展从数据中提取知识、获取价值的所需方法, 包括数据挖掘与数据驱动方法等, 是在统计学的基础上与人工智能、机器智能等融合, 又与自然、工程、社会科学等研究领域相互交叉而形成的新兴学科(Gu & Zhang 2014 ). 大数据的完备性、高维度和实时性, 又使得大数据科学方法有别于传统统计学. 如图3所示的DIKW (data, information, knowledge, wisdom)模型对认识大数据科学中数据的转换十分有用(Ackoff 1989 , Rowley 2007 ). 数据是基础, 是客观事物的数量、属性、位置及其相互关系的抽象表示; 结合情境从数据中提取信息, 赋予数据具体的含义、逻辑和价值, 表现为具体物理状态或过程的描述; 通过对信息的归纳、演绎等 提取出信息中有价值的部分沉淀为知识, 表现为模型、规律等; 在知识的基础上, 正确解决问题的能力称之为智慧, 表现为优化、控制、决策等(Batra 2014 , Jifa & Lingling 2014 ). ...
Real-time damage detection for civil structures using Big Data.
1
2017
... (3)对大型装备或结构的健康监测数据(Cai 2017 , Jin 2017 ): 大型结构所采用的传感器数量和种类越来越多. 以桥梁为例, 其结构健康监测系统涉及的传感器一般包括应变、温度、湿度、变形、加速度、声发射等传感器, 所产生的数据类型丰富、数据结构不一, 且存在大量的噪声和数据异常; 并且, 传感器每天的产生的数据量达到数个GB乃至数十GB以上, 产生的数据速度快、体量大; 与此同时, 桥梁长期监测获取的海量数据中, 仅有少量数据显示结构的损伤, 也即数据的价值相对稀疏. 充分利用这些大数据, 采用数据挖掘、机器学习等方式开展结构状态的诊断、预报及预防性管理, 实现大型工程结构的安全评定、寿命评估及全寿命周期管理, 无疑将在保证结构安全性的同时带来巨大的经济效益. ...
Big Data: Issues and challenges moving forward
1
2013
... (2)大量数据下的实时计算: 大数据的上层需求和下层的数据都处在动态之中. 针对大数据应用的数据密集特点, 总体上需要`将计算靠近数据'. 一方面发展内存计算、内存存储以及高速互联网络等硬件构架, 同时依据硬件特点对大数据分析处理的软件、工具进行底层优化, 如将机器学习算法与底层系统配合起来的大学习系统; 另一方面, 发展数据压缩技术、数据采样与近似及数据降维等能够降低数据杂度, 以及适应于大量数据的简单算法、组合建模与混合建模等方法以降低计算的复杂度; 与此同时, 在并行化与分布式技术的基础上, 针对表格、数组、及图模型等不同类型数据及应用场景, 优化批量计算、流式计算、图计算等计算范式, 发展各类MapReduce等并行编程模型及相应的软件平台以提高处理效率, 并通过平台技术融合实现不同计算范式以满足不同应用需求的协同(Kaisler et al. 2013 , Ur Rehman et al. 2016 , Yan et al. 2015 , Zhang et al. 2017 ). ...
Materials data science: Current status and future outlook
2
2015
... 在数据应用的价值链中, 大数据技术旨在发展应用大数据解决实际问题所需的关键技术, 包括数据采集与整理、基础硬件构架、软件平台与应用工具等 (Kambatla et al. 2014 ). 大数据不同维度特征给大数据技术带来不同的挑战, 例如: (1)数据体量的快速膨胀及快速产生使得数据的存储和传输技术难以满足要求; (2)结构化数据库技术不再能够满足数据多样性的要求; (3)数据产生及其价值的时效性需要实时的数据处理模式; (4)数据中存在错误和价值稀疏的特点也需要进行全新的数据处理和挖掘工具. 满足上述挑战, 需要数据分析处理的硬件构架、系统平台及软件工具的整体升级, 以实现高速捕获、分析并从大量异构数据中提取价值. 表1 总结了大数据在硬件、软件及应用各个层面的技术(Landset et al. 2015 , Singh & Reddy 2015 , Tsai et al. 2015 , 张锋军 2014 , 刘智慧和张泉灵 2014 ). ...
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
Trends in Big Data analytics
2014
Big Data in civil engineering: A state-of-the-art survey
1
2016
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
Big Data: Issues, challenges, tools and good practices
1
2013
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
Data-driven computational mechanics
1
2016
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Data driven computing with noisy material data sets
2
2017
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Big Data for development
2013
Big Data, new epistemologies and paradigm shifts
1
2014
... 反观大数据方法, 在一些复杂系统的预测与控制中获得了较好的效果, "谷歌流感预测"、"啤酒与纸尿裤"等案例使得大数据思维深入人心. 大数据允许数据和算法揭示复杂系统的规律和模式并实现有效管理, 不追问复杂因果关系却能够实现快速有效的决策, 且似乎适合于任何学科领域的问题, 这正是大数据的诱惑所在. 针对力学当前面临的问题, 大数据方法的显著优势在于通过数据减少认知不确定性、通过数据驱动避免经验建模误差的引入, 进而提高模型的预测能力. 仍以隔热瓦缝隙影响分析为例, 如果通过传感器获取不同服役条件、不同缝隙大小下隔热瓦壁面、背面等不同位置的温度, 同时结合数据挖掘的方式, 分析缝隙造成热防护背面温度上升的关键因素并提出数据驱动的模型, 不失为一种更为有效的方法. 大数据方法构成了科学研究的第四范式, 如图5 所示, 即"数据密集型科学发现" (Kitchin 2014 , 戴潘 2016 ). ...
Mining for elastic constants of intermetallics from the charge density landscape
1
2015
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
A survey of open source tools for machine learning with Big Data in the Hadoop ecosystem
1
2015
... 在数据应用的价值链中, 大数据技术旨在发展应用大数据解决实际问题所需的关键技术, 包括数据采集与整理、基础硬件构架、软件平台与应用工具等 (Kambatla et al. 2014 ). 大数据不同维度特征给大数据技术带来不同的挑战, 例如: (1)数据体量的快速膨胀及快速产生使得数据的存储和传输技术难以满足要求; (2)结构化数据库技术不再能够满足数据多样性的要求; (3)数据产生及其价值的时效性需要实时的数据处理模式; (4)数据中存在错误和价值稀疏的特点也需要进行全新的数据处理和挖掘工具. 满足上述挑战, 需要数据分析处理的硬件构架、系统平台及软件工具的整体升级, 以实现高速捕获、分析并从大量异构数据中提取价值. 表1 总结了大数据在硬件、软件及应用各个层面的技术(Landset et al. 2015 , Singh & Reddy 2015 , Tsai et al. 2015 , 张锋军 2014 , 刘智慧和张泉灵 2014 ). ...
Methodology for dynamic data-driven online flight capability estimation
1
2015
... 美国国家自然科学基金会于2000年正式提出动态数据驱动应用系统的概念, 这是一种新的协作应用和传感系统模式的研究. 如图13 所示, 利用动态测试数据实时、自适应地修正分析模型, 最大限度地消除这些不确定性因素的影响, 给出更为准确的结果, 并通过参与系统决策来控制实际系统的执行(Darema 2008 , Douglas 2008 ). 近年来, 针对大规模系统的跟踪和控制问题, 如车队、无人机蜂群系统等, 美国空军科学研究实验室提出了动态大数据驱动应用系统, 以及信息共生系统. 目前, 在AFOSR支持下, 联合麻省理工、德州大学、德州农工大学发展了飞行器结构在线损伤监测、预诊与决策系统方法(Burrows et al. 2016 ). 在飞行器结构领域内, 麻省理工联合了德州大学将DDDAS应用到自感知的智能无人机上, 在离线阶段利用模型降阶与代理模型构建了结构应变响应与飞行最大过载之间的映射关系, 在飞行中能够利用测试的传感数据在线模拟分析并评估飞行器的能力, 进而更新飞行器状态并用于飞行包络线的决策(Allaire et al. 2014 , Lecerf et al. 2015 , Mainini & Willcox 2015 ). 美国德州大学构建了一套数据驱动的飞行器复合材料损伤在线预测系统, 完成了软件工具平台的搭建, 并在PMC单轴拉伸下损伤在线预测中进行了初步验证. 该系统利用测试获取的材料应变响应构建似然函数, 利用贝叶斯定理来实现对材料损伤模型参数的更新, 或依据模型的似然度来选择恰当的损伤模型, 进而提升损伤预测的准确性. 对于不断更新的试验数据, 基于贝叶斯滤波与马尔科夫链模型构建了改进卡尔曼滤波方法, 实现了材料损伤模型的连续修正. 利用材料损伤在线预诊, 能够实现分析模型的自适应改进、材料自修复机制及飞行轨迹的主动控制(Prudencio et al. 2015 ). ...
Identification of asymmetric constitutive laws at high temperature based on digital image correlation
1
2012
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
The state of the art in structural health monitoring of cable-stayed bridges
2
2016
... 基于微结构决定宏观性能的思想,
Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如
图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%.
Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法.
Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法.
Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计.
吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(
Kalidindi & De Graef 2015 ,
Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(
Agrawal & Choudhary 2016 ,
Dimiduk et al. 2018 ,
Ramprasad et al. 2017 ,
Sumpter et al. 2015 ,
White 2013 ).
10.6052/1000-0992-19-002.F008 图8 大数据在材料等效性能预测中应用 (Li et al. 2019 )
建立大数据驱动材料性能预测(以及材料发现)的核心在于构建材料数据集(包括图像数据、历史试验数据及计算获取的数据等)的"信息描述符", 以帮助完成从数据到信息及知识的转换. 挑战在于材料的内部结构及获取的多尺度、多物理场的数据特征复杂, 如何从数据中找到与材料性能最为相关的量("显著材料特征"), 以提升大数据方法预测的精度. 因为难以预知数据中的哪些特征与材料性能相关. McDowell 和 LeSar (2016) 基于$n$点统计, 发展了一套严格的材料随机结构量化框架, 提供了对微观结构的合理的、一般的描述, 并且不限于任何特定的长度或时间尺度. ...
... 目前面临的主要挑战在于难以获取完整的响应数据-损伤特征-性能度量间的联系(Gulgec et al. 2017 , Li & Ou 2016 ). 面对上述挑战, 目前使用最多的是基于卷积神经网络的深度学习技术, 用于从数据中主动抽取特征, 并建立与损伤模式之间的特征, 进而用于故障诊断. 该方法对简单结构的损伤识别已经表现出了良好的性能, 有望显著降低SHM中特征提取的难度. ...
Predicting the effective mechanical property of heterogeneous materials by image based modeling and deep learning
2
2019
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(
李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(
Farrar & Worden 2012 ). 如
Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(
Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如
图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(
Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(
涂成枫 等 2017 ).
10.6052/1000-0992-19-002.F0011 图11 基于Hadoop的桥梁SHM健康监测系统(Liang et al. 2018 )
目前面临的主要挑战在于难以获取完整的响应数据-损伤特征-性能度量间的联系(Gulgec et al. 2017 , Li & Ou 2016 ). 面对上述挑战, 目前使用最多的是基于卷积神经网络的深度学习技术, 用于从数据中主动抽取特征, 并建立与损伤模式之间的特征, 进而用于故障诊断. 该方法对简单结构的损伤识别已经表现出了良好的性能, 有望显著降低SHM中特征提取的难度. ...
Civil infrastructure serviceability evaluation based on Big Data
1
2018
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(Farrar & Worden 2012 ). 如Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(涂成枫 等 2017 ). ...
Big Data-enabled multiscale serviceability analysis for aging bridges
2016
Structural damage detection with automatic feature—extraction through deep learning
1
2017
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(Farrar & Worden 2012 ). 如Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(涂成枫 等 2017 ). ...
Reynolds averaged turbulence modelling using deep neural networks with embedded invariance
1
2016
... 相比之下, 有关湍流的试验以及直接数值模拟(DNS)都能够给出不同边界下的湍流特征数据(De Angelis et al. 2002 ), 多年来已经有大量的积累, 而这正是大数据分析的用武之地. 已经有很多学者利用这些大的高保真数据集结合机器学习算法来构建更精确的雷诺应力模型, 包括美国桑迪亚国家实验室Ling等(2016) , 维多利亚理工的Xiao团队(Wang et al. 2017 , Wu et al. 2019 ), 以及密歇根大学的Duraisamy团队等(Duraisamy et al. 2019 , Singh et al. 2017 ). 以Duraisamy等(2019) 的工作为例, 该团队基于大数据构建了一种湍流模拟的框架, 如图10 所示. 在该框架中: 首先利用不同的、大量的、多种来源的高质量数据集, 来分析RANS模型中的误差, 以及数据集对应的构型的局部特征向量(如局部无量纲参数), 而后采用机器学习的方式构建上述误差与数据集对应的局部特征之间的函数, 进而增强RANS模型并用于CFD. 将该方法用于不同翼型的分离流预测中已经取得了较好的改进效果. ...
Surrogate modeling approach to support real-time structural assessment and decision making
2
2015
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
... 美国国家自然科学基金会于2000年正式提出动态数据驱动应用系统的概念, 这是一种新的协作应用和传感系统模式的研究. 如图13 所示, 利用动态测试数据实时、自适应地修正分析模型, 最大限度地消除这些不确定性因素的影响, 给出更为准确的结果, 并通过参与系统决策来控制实际系统的执行(Darema 2008 , Douglas 2008 ). 近年来, 针对大规模系统的跟踪和控制问题, 如车队、无人机蜂群系统等, 美国空军科学研究实验室提出了动态大数据驱动应用系统, 以及信息共生系统. 目前, 在AFOSR支持下, 联合麻省理工、德州大学、德州农工大学发展了飞行器结构在线损伤监测、预诊与决策系统方法(Burrows et al. 2016 ). 在飞行器结构领域内, 麻省理工联合了德州大学将DDDAS应用到自感知的智能无人机上, 在离线阶段利用模型降阶与代理模型构建了结构应变响应与飞行最大过载之间的映射关系, 在飞行中能够利用测试的传感数据在线模拟分析并评估飞行器的能力, 进而更新飞行器状态并用于飞行包络线的决策(Allaire et al. 2014 , Lecerf et al. 2015 , Mainini & Willcox 2015 ). 美国德州大学构建了一套数据驱动的飞行器复合材料损伤在线预测系统, 完成了软件工具平台的搭建, 并在PMC单轴拉伸下损伤在线预测中进行了初步验证. 该系统利用测试获取的材料应变响应构建似然函数, 利用贝叶斯定理来实现对材料损伤模型参数的更新, 或依据模型的似然度来选择恰当的损伤模型, 进而提升损伤预测的准确性. 对于不断更新的试验数据, 基于贝叶斯滤波与马尔科夫链模型构建了改进卡尔曼滤波方法, 实现了材料损伤模型的连续修正. 利用材料损伤在线预诊, 能够实现分析模型的自适应改进、材料自修复机制及飞行轨迹的主动控制(Prudencio et al. 2015 ). ...
Big Data: The next frontier for innovation, competition, and productivity
2011
A formal definition of Big Data based on its essential features
1
2016
... 到目前为止, 大数据在学术界和业界还没有统一、标准化的定义. Gandomi & Haider 2015 , Mauro et al. 2016 认为大数据的内涵既包括大数据的数据本身和大数据相关的处理分析技术, 也包括大数据解决问题的方式与理念. 其中, 数据是开展分析、获取价值的基础资源, 大数据思维是指导数据运用及获取价值的核心, 大数据分析处理技术是实现上述过程的关键. 理解大数据的内涵, 也应当从"大数据作为一种资源""大数据作为一种科学方法"及"大数据作为一种前沿技术"这3个层面出发. ...
Could Big Data be the end of theory in science? A few remarks on the epistemology of data driven science
1
2015
... 当然, 学术界对大数据作为科学研究的第四范式也持有不同观点(Ekbia et al. 2015 , Frické 2015 , Mazzocchi 2015 , Succi & Coveney 2018 , Zhou et al. 2014 ). 批评的焦点在于大数据能否有效进行科学发现: (1)相关性能否替代因果关系; (2)缺乏理论指导能否有效进行数据的收集、挖掘; (3)复杂系统对数据微小错误十分敏感, 数据间的冲突会导致数据的价值随着数据量增加而降低等; (4)大数据幻觉, 即出现"假阳性"等. 这种批评是十分有益的, 它使得我们认清大数据并非万能, 而是存在着明确的能力边界, 即: 大数据本质上处理的是具有足够多、高维度数据, 并只能给出相关性的解释. 与此同时, 也需要发展大数据的科学哲学理论以及更为先进的数据分析方法. 但上述批评与当前各学科(当然也包括力学)采用大数据的方法、结合学科自身的特点开展尝试研究并不矛盾. ...
The need for microstructure informatics in process-structure-property relations
2
2016
... 建立微细观结构特征与材料宏观性能间的量化联系, 一直是材料多尺度力学行为研究和材料优化追求的目标. 通过观测微细观结构特征, 基于统计方法建立其表征方法、或直接基于图像建立模型, 进而利用代表性单元进行材料性能预测的方法, 受到了广泛关注(Meng et al. 2017 ). 该方法需要从大量的图像数据中, 依据经验提取影响材料性能的关键特征进行量化, 建模表征过程相对繁琐. 采用大数据方法来解决材料性能预测, 即使用数据来识别各种微观结构特征, 并挖掘上述特征与感兴趣的材料特性之间潜在相关性和模式, 进而对材料的性能如强度等做出预测, 或设计优化属性的材料结构, 是大数据的热门研究方向. ...
... 建立大数据驱动材料性能预测(以及材料发现)的核心在于构建材料数据集(包括图像数据、历史试验数据及计算获取的数据等)的"信息描述符", 以帮助完成从数据到信息及知识的转换. 挑战在于材料的内部结构及获取的多尺度、多物理场的数据特征复杂, 如何从数据中找到与材料性能最为相关的量("显著材料特征"), 以提升大数据方法预测的精度. 因为难以预知数据中的哪些特征与材料性能相关. McDowell 和 LeSar (2016) 基于$n$点统计, 发展了一套严格的材料随机结构量化框架, 提供了对微观结构的合理的、一般的描述, 并且不限于任何特定的长度或时间尺度. ...
Predicting the effective properties of 3D needled carbon/carbon composites by a hierarchical scheme with a fiber-based representative unit cell
1
2017
... (2)多物理场耦合效应表征数据: 如高超声速飞行时的真实气体效应将导致飞行器表面发生严重的环境/材料耦合效应, 其中材料、氧化以及辐射效应不仅直接影响热防护材料的气动热载荷, 同时决定热防护系统的表面状态, 并且三者之间存在强耦合. 这一复杂的传热-传质耦合问题涉及高温空气动力学、工程热物理、材料学以及力学. 表征参量包括来流压力、热流、焓值以及离解气体浓度等环境参量, 以及壁面温度、材料成份、表面微观结构、粗糙度、发射率、热物性等材料响应或属性参量. 在地面模拟测试平台中, 引入非接触式光谱诊断方法, 对试样表面流动区域进行流场组分、表面温度、表面状态进行同步测量, 涉及大量时间、空间相关的测试数据(Meng et al. 2018 ). 与此同时, 地面风洞设备、飞行试验及地面模拟测试平台的测试原理不一致, 数据类型不同, 天地之间存在显著差异. 大数据挖掘的方法及多元信息融合方法有望在解析材料/环境耦合、建立天地联系中发挥重要作用. ...
Evaluation of atomic oxygen catalytic coefficient of ZrB2-SiC by laser-induced fluorescence up to 1473 K
2018
Big Data storage
2
2014
... (1)大数据自身的治理: 针对大数据自身高速膨胀、异质化特性, 发展NoSQL, NewSQL等新兴数据库技术实现大量非结构化数据的管理; 发展各类分布式文件系统来实现大体量数据存储, 以及异质化存储以平衡数据存取速率与体量的矛盾; 针对非结构化数据, 发展属性分析、自动挖掘与信息组织、表达工具. 针对数据安全性与隐私, 发展数据加密、访问控制、数据匿名化及多方安全计算等技术, 在保证数据、系统及使用安全性的同时不损失价值(Han 2017 , Terzi et al. 2015 , Min et al. 2014a , Raj 2018 ). ...
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
WYPiWYG damage mechanics for soft materials: A data-driven approach
1
2018
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Comprehensive digital transformation NASA Langley Research Center
1
2016
... 与此同时, 各科学研究组织积极探索"大数据"的落地应用. 美国空军科学实验室于2008年启动动态数据驱动应用系统(Dynamic Data Driven Application System, DDDAS)专项资助, 近年来推动动态大数据驱动应用系统, 旨在利用大规模传感网络解决复杂系统预测和决策问题, 如自感知飞行器、气象预报、无人机群管理等(Darema 2018 ). 美国国防高级研究计划局(Defense Advanced Research Projects Agency, DARPA)于2014年启动了"大机理"项目, 将文献资料作为大数据, 致力于发展自动化文献阅读和分析工具, 以提取因果机制和知识, 发掘隐藏在数据中的模型, 以帮助理解复杂系统. 该计划的先行领域是癌症生物学, 通过强调因果模型的挖掘和推理, 大机理项目将改变科学研究的方式并成为科学的未来(Cohen 2015 , Rzhetsky 2016 ). NASA Langley研究中心启动了"综合数字化转型"计划, 旨在发挥综合数字化工具和技术能力的催化剂作用, 实现相关创新研究、系统分析和设计的转型变革, 保持NASA在航空航天领域的领先地位. 该计划将大数据分析作为核心发展能力, 2016年发布了"大数据分析和机器智能能力: 战略、路线及进展"报告, 并指出大数据和机器智能是分析和设计的力量倍增器, 规划了数据密集型科学发现、深度内容分析及深度问答3个核心发展领域(Ambur et al. 2016 , Morrison et al. 2016 ). ...
Deep learning applications and challenges in Big Data analytics
2
2015
... (3)更有效地从数据中提取价值: 在数据的体量、维度快速增长的情况下, 发展更为有效的机器智能模型与算法, 以实现从数据中快速、准确地提取信息和知识, 发展数据可视化、以及硬件、软件及分析能力的"云化"方法, 提升大数据作为工具的易用性. 相关的研究动向包括: 针对高维特征、非结构化数据发展深度学习方法以提升大量数据下机器学习的精度, 发展动态的、在线的流式学习方法实现模型精度与实时性的平衡, 以及各类新算法等以捕获稀疏数据特征和价值, 通过云技术实现大数据分析的易用性等(Hashem et al. 2015 , Najafabadi et al. 2015 ). ...
... (1)材料等微细观结构图像数据: 对微细观尺度特征及其宏观效应影响的研究, 如材料的多尺度力学行为特征的研究, 往往需要材料微尺度随机特征及其受载下演化的大量图像数据. 如利用 Micro CT 监测陶瓷基复合材料裂纹损伤信息和纤维断裂, 典型情况下全分辨率图像每帧高达30 GB (Ushizima et al. 2016 , Ushizima et al. 2014 ). 法国LMT试验曾针对试验力学中所涉及的图像数据量进行了分析, 发现在2001年到2016年共15年内, 数据量从5.0 $\times$ 10$^{7}$增长到1.0 $\times$ 10$^{12}$, 增长速度甚至超过了摩尔定律, 如图6 所示. 其中, 数据量在2007年和2010年分别出现了两次快速的增长, 分别对应于断层成像在材料试验中首次应用及该技术的通用化(Neggers et al. 2018 ). 若不借助于大数据的处理方法, 将很难从上述体量的数据中, 挖掘出与材料力学行为直接相关的特征. ...
Big Data in experimental mechanics and model order reduction: Today's challenges and tomorrow's opportunities
1
2018
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
A data-driven approach to nonlinear elasticity
2018
Artificial intelligence and Big Data
1
2013
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
Yesterday, today and tomorrow of Big Data.
2
2015
... 早在20世纪90年代, 被称为"数据仓库之父"的Bill Inmon就开始关注大数据, 当时的大数据还被称作海量数据(Inmon et al. 1999 ). 大数据最初显现于运营系统记录的数据, 如超市的销售记录、银行的流水记录以及医院的病历记录等(交易型数据). 互联网时代下所产生以用户交互与原创内容为特征的大量数据造成了数据量的第一次飞跃(行为型数据). 大数据的第二次飞跃得益于传感技术与物联网技术的发展, 使得自动采集和感知的数据呈现爆发态势(özköse et al. 2015 , Sun et al. 2016 , 孟小峰和慈祥 2013 ). "万物互联"以及无处不在的传感和控制 时时刻刻在产生数据并利用数据辅助决策, 这也被誉为大数据的"第二次浪潮" (Darema 2018 ). 在科学研究领域内, 高性能数值模拟方法及各类高通量的试验仪器 正帮助研究人员获取大量的数据, 从而形成"科学大数据" (郭华东等2014 ). ...
... 美国国家自然科学基金会于2000年正式提出动态数据驱动应用系统的概念, 这是一种新的协作应用和传感系统模式的研究. 如图13 所示, 利用动态测试数据实时、自适应地修正分析模型, 最大限度地消除这些不确定性因素的影响, 给出更为准确的结果, 并通过参与系统决策来控制实际系统的执行(Darema 2008 , Douglas 2008 ). 近年来, 针对大规模系统的跟踪和控制问题, 如车队、无人机蜂群系统等, 美国空军科学研究实验室提出了动态大数据驱动应用系统, 以及信息共生系统. 目前, 在AFOSR支持下, 联合麻省理工、德州大学、德州农工大学发展了飞行器结构在线损伤监测、预诊与决策系统方法(Burrows et al. 2016 ). 在飞行器结构领域内, 麻省理工联合了德州大学将DDDAS应用到自感知的智能无人机上, 在离线阶段利用模型降阶与代理模型构建了结构应变响应与飞行最大过载之间的映射关系, 在飞行中能够利用测试的传感数据在线模拟分析并评估飞行器的能力, 进而更新飞行器状态并用于飞行包络线的决策(Allaire et al. 2014 , Lecerf et al. 2015 , Mainini & Willcox 2015 ). 美国德州大学构建了一套数据驱动的飞行器复合材料损伤在线预测系统, 完成了软件工具平台的搭建, 并在PMC单轴拉伸下损伤在线预测中进行了初步验证. 该系统利用测试获取的材料应变响应构建似然函数, 利用贝叶斯定理来实现对材料损伤模型参数的更新, 或依据模型的似然度来选择恰当的损伤模型, 进而提升损伤预测的准确性. 对于不断更新的试验数据, 基于贝叶斯滤波与马尔科夫链模型构建了改进卡尔曼滤波方法, 实现了材料损伤模型的连续修正. 利用材料损伤在线预诊, 能够实现分析模型的自适应改进、材料自修复机制及飞行轨迹的主动控制(Prudencio et al. 2015 ). ...
A computational framework for dynamic data-driven material damage control, based on Bayesian inference and model selection
2015
A framework of data-enabled science for evaluation of material damage based on acoustic emission
1
2014
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
2016. A survey of machine learning for Big Data processing
1
2016
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
A detailed analysis of NoSQL and NewSQL databases for Big Data analytics and distributed computing
1
2018
... (1)大数据自身的治理: 针对大数据自身高速膨胀、异质化特性, 发展NoSQL, NewSQL等新兴数据库技术实现大量非结构化数据的管理; 发展各类分布式文件系统来实现大体量数据存储, 以及异质化存储以平衡数据存取速率与体量的矛盾; 针对非结构化数据, 发展属性分析、自动挖掘与信息组织、表达工具. 针对数据安全性与隐私, 发展数据加密、访问控制、数据匿名化及多方安全计算等技术, 在保证数据、系统及使用安全性的同时不损失价值(Han 2017 , Terzi et al. 2015 , Min et al. 2014a , Raj 2018 ). ...
Materials informatics: The materials "gene" and Big Data
1
2015
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
Machine learning in materials informatics: Recent applications and prospects
2
2017
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
... SHM是最早开展大数据诊断与预警方法研究, 也是应用相对成熟的领域之一, 这是因为SHM中传感器系统所获取的是典型的"大数据". 借助于大数据挖掘与大数据分析, 将能够实现自动提取数据中反映的结构损伤特征、实时预测装备结构的寿命并作出预警, 对准确把握结构健康状态、优化维护策略、提升结构或装备寿命和安全性都具有重要意义(李惠 等 2015 ). 目前, 学术界正发展各类无监督的机器学习方法可以用于损伤判定和定位, 发展监督学习方法用于损伤类型识别和量化, 发展数据融合方法对不同传感器数据下的损伤信号进行同化分析等(Farrar & Worden 2012 ). 如Lin等(2017) 构建深度卷积网络, 以从原始响应输入数据中学习桥梁的损坏特征并创建分类器, 通过在不同加载情况、损伤情况及噪声情况下的训练, 能够有效识别桥梁的损伤位置及程度, 简单算例验证中错误率低于3.5%. 美国联合技术公司通过深度信念网络, 在普惠发动机采集的历史传感器数据基础上构建了发动机的运行状态还原模型, 并成功实现了对发动机状态参数值的预估及故障诊断(Reddy et al. 2016 ). 基于大数据分析技术以及Hadoop等分析平台, 国外构建了MS-SHM-Hadoop系统, 如图11 所示, 集成了传感器技术、无线网络以及基于大数据平台的数据挖掘以及结构力学建模和仿真(Liang et al. 2019 ), 具备以下功能: (1)实时感知数据采集, 集成和分析; (2)分析桥梁的退化; (3)根据桥梁动力特性的长期监测, 识别桥梁结构断层, 定量预测其寿命. 国内华南理工大学正基于集中式桥梁健康监测平台, 发展基于云计算的桥梁长期健康监测大数据基础分析平台(涂成枫 等 2017 ). ...
Applying deep learning for prognostic health monitoring of aerospace and building systems
2016
The wisdom hierarchy: Representations of the DIKW hierarchy
2
2007
... 有别于大数据本身, 大数据科学是以大数据为研究对象, 旨在发展从数据中提取知识、获取价值的所需方法, 包括数据挖掘与数据驱动方法等, 是在统计学的基础上与人工智能、机器智能等融合, 又与自然、工程、社会科学等研究领域相互交叉而形成的新兴学科(Gu & Zhang 2014 ). 大数据的完备性、高维度和实时性, 又使得大数据科学方法有别于传统统计学. 如图3所示的DIKW (data, information, knowledge, wisdom)模型对认识大数据科学中数据的转换十分有用(Ackoff 1989 , Rowley 2007 ). 数据是基础, 是客观事物的数量、属性、位置及其相互关系的抽象表示; 结合情境从数据中提取信息, 赋予数据具体的含义、逻辑和价值, 表现为具体物理状态或过程的描述; 通过对信息的归纳、演绎等 提取出信息中有价值的部分沉淀为知识, 表现为模型、规律等; 在知识的基础上, 正确解决问题的能力称之为智慧, 表现为优化、控制、决策等(Batra 2014 , Jifa & Lingling 2014 ). ...
... (2)挖掘复杂、隐含的物理规律: 力学大数据的复杂网络结构体现的是内在的物理机制和约束, 通过对力学大数据中稀疏特征的辨识、关联及分析, 有望能够挖掘出隐含的物理规律、甚至是机理模型, 从而完善现有的理论或方法(Rudy et al. 2017 ). ...
Data-driven discovery of partial differential equations
2017
Big Data analytics
1
2011
... 大数据分析(Big Data analytics)是大数据科学主要发展的方法论之一, 是指从大数据中找出可以帮助决策的隐含模式、未知的相关关系以及其他有用信息的过程, 也即如何从数据中提取有用的信息, 并将上述信息转化为可执行的知识(Banerjee et al. 2013 , Deka 2014 , Russom 2011 , Sivarajah et al. 2017 ). 大数据分析主要包括以下3种模式: ...
The big mechanism program: Changing how science is done
3
2016
... 与此同时, 各科学研究组织积极探索"大数据"的落地应用. 美国空军科学实验室于2008年启动动态数据驱动应用系统(Dynamic Data Driven Application System, DDDAS)专项资助, 近年来推动动态大数据驱动应用系统, 旨在利用大规模传感网络解决复杂系统预测和决策问题, 如自感知飞行器、气象预报、无人机群管理等(Darema 2018 ). 美国国防高级研究计划局(Defense Advanced Research Projects Agency, DARPA)于2014年启动了"大机理"项目, 将文献资料作为大数据, 致力于发展自动化文献阅读和分析工具, 以提取因果机制和知识, 发掘隐藏在数据中的模型, 以帮助理解复杂系统. 该计划的先行领域是癌症生物学, 通过强调因果模型的挖掘和推理, 大机理项目将改变科学研究的方式并成为科学的未来(Cohen 2015 , Rzhetsky 2016 ). NASA Langley研究中心启动了"综合数字化转型"计划, 旨在发挥综合数字化工具和技术能力的催化剂作用, 实现相关创新研究、系统分析和设计的转型变革, 保持NASA在航空航天领域的领先地位. 该计划将大数据分析作为核心发展能力, 2016年发布了"大数据分析和机器智能能力: 战略、路线及进展"报告, 并指出大数据和机器智能是分析和设计的力量倍增器, 规划了数据密集型科学发现、深度内容分析及深度问答3个核心发展领域(Ambur et al. 2016 , Morrison et al. 2016 ). ...
... 力学研究中各种高时空分辨率观测、测试手段对数据的增长起到了重要的推动作用. 各类传感技术与耐极端环境传感器件的快速发展, 以及多物理参量的同步观测, 使得所能获取的数据类型也在不断地增加, 且数据获取的成本越来越低. 不仅如此, 建模模拟与高性能数值计算, 同样在快速产生类型丰富的数据(Sanchez 2014 ). 随着数据体量、类型的快速增加, 数据不仅仅是描述现象、验证理论或模拟的依据, 更有趋势成为力学提炼科学问题、产生应用价值的新资源与新方法. 一些典型的力学大数据包括: ...
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
Simulation experiments: Better data, not just Big Data
2014
Shaping the digital twin for design and production engineering
2
2017
... 综合国际数据公司IDC (Gantz & Reinsel 2011 ), Gartner Group (Genovese & Prentice 2011 )及IBM (Schroeck et al. 2012 )等机构对大数据进行解析. 大数据的特征体现在5个方面, 即业界耳熟能详的5V: 数据量(volume)、分析和处理速度(velocity)、数据种类和来源多样化(variety)、数据价值(value)和隐藏知识的真实性(veracity), 如图1 所示. 其中: ...
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
Analytics: The real-world use of Big Data
2012
Dealing with data
1
2011
... 大数据本身、大数据方法和思维也在学术界引起了广泛的讨论, 并成为研究的焦点和热点. 如何从历史数据中挖掘出有用的信息和知识来指导设计研发, 如何利用大数据方法开展科学研究是当前科学研究领域内关注的核心问题. 目前国内外已经出现数十本与大数据或数据科学相关的杂志, 多个大数据主题的国际学术会议, 及研究机构等(朝乐门和卢小宾 2017 ). 2008年和2011年《自然》和《科学》分别推出了大数据专刊, 简述了大数据在未来研究的突破口, 并总结了在当前诸多领域的重要应用(Duncan 2008 , Science staff 2011 ). 2008年, Computing Community Consortium发表了有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》, 提出大数据真正重要的是新用途和新见解, 而非数据本身(Bryant et al. 2008 ). 美国科学院在2014年组织召开《材料研发中的大数据》研讨会, 系统研讨了大数据技术在物理学、材料基因组、集成计算材料科学、智能制造等领域的潜力和应用. 国际科技数据委员会与中国科学院于2014年在北京召开了"大数据与科学发现国际研讨会", 分析大数据在全球变化、数字地球、高能物理、计算生物学等领域的应用, 挖掘大数据在科学探索中的应用、价值和挑战(郭华东 2014 ). ...
Modeling, simulation, information technology & processing roadmap
1
2012
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
Data science for finite strain mechanical science of ductile materials
1
2018
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Machine-learning-augmented predictive modeling of turbulent separated flows over airfoils
1
2017
... 相比之下, 有关湍流的试验以及直接数值模拟(DNS)都能够给出不同边界下的湍流特征数据(De Angelis et al. 2002 ), 多年来已经有大量的积累, 而这正是大数据分析的用武之地. 已经有很多学者利用这些大的高保真数据集结合机器学习算法来构建更精确的雷诺应力模型, 包括美国桑迪亚国家实验室Ling等(2016) , 维多利亚理工的Xiao团队(Wang et al. 2017 , Wu et al. 2019 ), 以及密歇根大学的Duraisamy团队等(Duraisamy et al. 2019 , Singh et al. 2017 ). 以Duraisamy等(2019) 的工作为例, 该团队基于大数据构建了一种湍流模拟的框架, 如图10 所示. 在该框架中: 首先利用不同的、大量的、多种来源的高质量数据集, 来分析RANS模型中的误差, 以及数据集对应的构型的局部特征向量(如局部无量纲参数), 而后采用机器学习的方式构建上述误差与数据集对应的局部特征之间的函数, 进而增强RANS模型并用于CFD. 将该方法用于不同翼型的分离流预测中已经取得了较好的改进效果. ...
A survey on platforms for Big Data analytics
1
2015
... 在数据应用的价值链中, 大数据技术旨在发展应用大数据解决实际问题所需的关键技术, 包括数据采集与整理、基础硬件构架、软件平台与应用工具等 (Kambatla et al. 2014 ). 大数据不同维度特征给大数据技术带来不同的挑战, 例如: (1)数据体量的快速膨胀及快速产生使得数据的存储和传输技术难以满足要求; (2)结构化数据库技术不再能够满足数据多样性的要求; (3)数据产生及其价值的时效性需要实时的数据处理模式; (4)数据中存在错误和价值稀疏的特点也需要进行全新的数据处理和挖掘工具. 满足上述挑战, 需要数据分析处理的硬件构架、系统平台及软件工具的整体升级, 以实现高速捕获、分析并从大量异构数据中提取价值. 表1 总结了大数据在硬件、软件及应用各个层面的技术(Landset et al. 2015 , Singh & Reddy 2015 , Tsai et al. 2015 , 张锋军 2014 , 刘智慧和张泉灵 2014 ). ...
Critical analysis of Big Data challenges and analytical methods
1
2017
... 大数据分析(Big Data analytics)是大数据科学主要发展的方法论之一, 是指从大数据中找出可以帮助决策的隐含模式、未知的相关关系以及其他有用信息的过程, 也即如何从数据中提取有用的信息, 并将上述信息转化为可执行的知识(Banerjee et al. 2013 , Deka 2014 , Russom 2011 , Sivarajah et al. 2017 ). 大数据分析主要包括以下3种模式: ...
Strategies for turbulence modelling and simulations
1
2000
... 湍流模拟是流场模拟中最为困难的问题. 对于简单的流场可以从N-S方程出发, 采用直接数值模拟获取湍流特性, 但计算成本高昂. 对于复杂流场的计算, 多采用湍流模式理论给出的雷诺数平均N-S方程求解. 该理论假设湍流中的流场变量由一个时均量和一个脉动量组成, 通过将控制方程进行统计平均, 使得其无需计算各尺度的湍流脉动, 只需计算出平均运动, 从而显著减少计算量, 并成为复杂外形湍流模拟中的唯一工程实用方法(Witherden & Jameson 2017 ). 该方法又称为RANS, 需要给出非线性的雷诺应力来闭合方程. 通过假设湍流雷诺应力与应变成正比, 湍流计算归结为对雷诺应力与应变之间的比例系数的计算. 这一关系类似于固体材料本构, 但雷诺应力的主要贡献来自大尺度脉动, 而大尺度脉动的性质及结果和流动的边界条件密切相关, 因此雷诺应力模型不可能是普适的, 往往需要结合试验数据进行修正(Spalart 2000 , Speziale 1998 ). ...
Turbulence modeling for time-dependent RANS and VLES: A review
1
1998
... 湍流模拟是流场模拟中最为困难的问题. 对于简单的流场可以从N-S方程出发, 采用直接数值模拟获取湍流特性, 但计算成本高昂. 对于复杂流场的计算, 多采用湍流模式理论给出的雷诺数平均N-S方程求解. 该理论假设湍流中的流场变量由一个时均量和一个脉动量组成, 通过将控制方程进行统计平均, 使得其无需计算各尺度的湍流脉动, 只需计算出平均运动, 从而显著减少计算量, 并成为复杂外形湍流模拟中的唯一工程实用方法(Witherden & Jameson 2017 ). 该方法又称为RANS, 需要给出非线性的雷诺应力来闭合方程. 通过假设湍流雷诺应力与应变成正比, 湍流计算归结为对雷诺应力与应变之间的比例系数的计算. 这一关系类似于固体材料本构, 但雷诺应力的主要贡献来自大尺度脉动, 而大尺度脉动的性质及结果和流动的边界条件密切相关, 因此雷诺应力模型不可能是普适的, 往往需要结合试验数据进行修正(Spalart 2000 , Speziale 1998 ). ...
Big Data: The end of the scientific method?
1
2019
... 当然, 学术界对大数据作为科学研究的第四范式也持有不同观点(Ekbia et al. 2015 , Frické 2015 , Mazzocchi 2015 , Succi & Coveney 2018 , Zhou et al. 2014 ). 批评的焦点在于大数据能否有效进行科学发现: (1)相关性能否替代因果关系; (2)缺乏理论指导能否有效进行数据的收集、挖掘; (3)复杂系统对数据微小错误十分敏感, 数据间的冲突会导致数据的价值随着数据量增加而降低等; (4)大数据幻觉, 即出现"假阳性"等. 这种批评是十分有益的, 它使得我们认清大数据并非万能, 而是存在着明确的能力边界, 即: 大数据本质上处理的是具有足够多、高维度数据, 并只能给出相关性的解释. 与此同时, 也需要发展大数据的科学哲学理论以及更为先进的数据分析方法. 但上述批评与当前各学科(当然也包括力学)采用大数据的方法、结合学科自身的特点开展尝试研究并不矛盾. ...
A bridge for accelerating materials by design
1
2015
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
Internet of things and Big Data analytics for smart and connected communities
1
2016
... 早在20世纪90年代, 被称为"数据仓库之父"的Bill Inmon就开始关注大数据, 当时的大数据还被称作海量数据(Inmon et al. 1999 ). 大数据最初显现于运营系统记录的数据, 如超市的销售记录、银行的流水记录以及医院的病历记录等(交易型数据). 互联网时代下所产生以用户交互与原创内容为特征的大量数据造成了数据量的第一次飞跃(行为型数据). 大数据的第二次飞跃得益于传感技术与物联网技术的发展, 使得自动采集和感知的数据呈现爆发态势(özköse et al. 2015 , Sun et al. 2016 , 孟小峰和慈祥 2013 ). "万物互联"以及无处不在的传感和控制 时时刻刻在产生数据并利用数据辅助决策, 这也被誉为大数据的"第二次浪潮" (Darema 2018 ). 在科学研究领域内, 高性能数值模拟方法及各类高通量的试验仪器 正帮助研究人员获取大量的数据, 从而形成"科学大数据" (郭华东等2014 ). ...
Digital twin-driven product design, manufacturing and service with Big Data
1
2018
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
A survey on security and privacy issues in Big Data
1
2015
... (1)大数据自身的治理: 针对大数据自身高速膨胀、异质化特性, 发展NoSQL, NewSQL等新兴数据库技术实现大量非结构化数据的管理; 发展各类分布式文件系统来实现大体量数据存储, 以及异质化存储以平衡数据存取速率与体量的矛盾; 针对非结构化数据, 发展属性分析、自动挖掘与信息组织、表达工具. 针对数据安全性与隐私, 发展数据加密、访问控制、数据匿名化及多方安全计算等技术, 在保证数据、系统及使用安全性的同时不损失价值(Han 2017 , Terzi et al. 2015 , Min et al. 2014a , Raj 2018 ). ...
Big Data analytics: A survey
1
2015
... 在数据应用的价值链中, 大数据技术旨在发展应用大数据解决实际问题所需的关键技术, 包括数据采集与整理、基础硬件构架、软件平台与应用工具等 (Kambatla et al. 2014 ). 大数据不同维度特征给大数据技术带来不同的挑战, 例如: (1)数据体量的快速膨胀及快速产生使得数据的存储和传输技术难以满足要求; (2)结构化数据库技术不再能够满足数据多样性的要求; (3)数据产生及其价值的时效性需要实时的数据处理模式; (4)数据中存在错误和价值稀疏的特点也需要进行全新的数据处理和挖掘工具. 满足上述挑战, 需要数据分析处理的硬件构架、系统平台及软件工具的整体升级, 以实现高速捕获、分析并从大量异构数据中提取价值. 表1 总结了大数据在硬件、软件及应用各个层面的技术(Landset et al. 2015 , Singh & Reddy 2015 , Tsai et al. 2015 , 张锋军 2014 , 刘智慧和张泉灵 2014 ). ...
2011. Reengineering aircraft structural life prediction using a digital twin
1
2011
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
The digital twin: Realizing the cyber-physical production system for industry 4.0
1
2017
... 数字孪生概念的提出可以追溯到2002年, 美国密歇根大学Michael Grieves教授认为驱动模型的前提是每个体系都有两个系统: 一直存在的物理系统和包含物理系统所有信息的虚拟系统, 虚拟空间从真实空间获取数据, 又向真实空间提供信息和决策(Grieves & Vickers 2017 ). NASA在2010年发布了"建模、仿真、信息技术和过程"路线图, 给出了数字孪生的明确定义, 认为数字孪生是"一个集成多物理场、多尺度的非确定性分析框架, 能够利用现有的最佳物理模型、传感器数据、飞行历史数据等, 镜像相应孪生飞行器的生命历程" (Glaessgen & Stargel 2012 , Shafto et al. 2012 , Tuegel et al. 2011 ). NASA提出数字孪生概念之初是为了改变现有的、依赖于经验和周期性检修的飞行器维护方式, 通过更有效的飞行器设计与验证、提高飞行器可利用性、最小化结构检测频率, 实现维护成本减半、使用寿命加倍的目标. 而后, 这一概念被扩展到各个工业领域, 如数字车间、智能发动机等, 并引起了广泛关注(Schleich et al. 2017 , Tao et al. 2018 , Uhlemann et al. 2017 , 陶飞 等 2017 , 庄存波 等 2017 ). Gartner将数字孪生列为未来十大战略技术, 归纳数字孪生的内涵为: "物理世界实体或系统的数字代表, 在物联网背景下连接物理世界实体, 提供相应实体状态信息, 对变化做出响应, 改进操作, 增加价值" (Cearley et al. 2018 ). 在工业界, PTC推出了ThingWorx平台(PTC公司 2016 )、GE推出了Predix平台(蓝楠 2016 )、国内世冠科技推出了GCAir平台(北京世冠金洋科技发展有限公司 2018 )用于工业设备的数字孪生体构建与管理. 作者认为, 能够实时反应特定物理对象的状态、并能够模拟预测其在真实环境下行为的动态模型, 就是其数字孪生模型, 如图14 所示. ...
Big Data reduction methods: A survey
1
2016
... (2)大量数据下的实时计算: 大数据的上层需求和下层的数据都处在动态之中. 针对大数据应用的数据密集特点, 总体上需要`将计算靠近数据'. 一方面发展内存计算、内存存储以及高速互联网络等硬件构架, 同时依据硬件特点对大数据分析处理的软件、工具进行底层优化, 如将机器学习算法与底层系统配合起来的大学习系统; 另一方面, 发展数据压缩技术、数据采样与近似及数据降维等能够降低数据杂度, 以及适应于大量数据的简单算法、组合建模与混合建模等方法以降低计算的复杂度; 与此同时, 在并行化与分布式技术的基础上, 针对表格、数组、及图模型等不同类型数据及应用场景, 优化批量计算、流式计算、图计算等计算范式, 发展各类MapReduce等并行编程模型及相应的软件平台以提高处理效率, 并通过平台技术融合实现不同计算范式以满足不同应用需求的协同(Kaisler et al. 2013 , Ur Rehman et al. 2016 , Yan et al. 2015 , Zhang et al. 2017 ). ...
Big Data research and development initiative
1
2012
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
Ideal: Images across domains, experiments, algorithms and learning
1
2016
... (1)材料等微细观结构图像数据: 对微细观尺度特征及其宏观效应影响的研究, 如材料的多尺度力学行为特征的研究, 往往需要材料微尺度随机特征及其受载下演化的大量图像数据. 如利用 Micro CT 监测陶瓷基复合材料裂纹损伤信息和纤维断裂, 典型情况下全分辨率图像每帧高达30 GB (Ushizima et al. 2016 , Ushizima et al. 2014 ). 法国LMT试验曾针对试验力学中所涉及的图像数据量进行了分析, 发现在2001年到2016年共15年内, 数据量从5.0 $\times$ 10$^{7}$增长到1.0 $\times$ 10$^{12}$, 增长速度甚至超过了摩尔定律, 如图6 所示. 其中, 数据量在2007年和2010年分别出现了两次快速的增长, 分别对应于断层成像在材料试验中首次应用及该技术的通用化(Neggers et al. 2018 ). 若不借助于大数据的处理方法, 将很难从上述体量的数据中, 挖掘出与材料力学行为直接相关的特征. ...
Structure recognition from high resolution images of ceramic composites
1
2014
... (1)材料等微细观结构图像数据: 对微细观尺度特征及其宏观效应影响的研究, 如材料的多尺度力学行为特征的研究, 往往需要材料微尺度随机特征及其受载下演化的大量图像数据. 如利用 Micro CT 监测陶瓷基复合材料裂纹损伤信息和纤维断裂, 典型情况下全分辨率图像每帧高达30 GB (Ushizima et al. 2016 , Ushizima et al. 2014 ). 法国LMT试验曾针对试验力学中所涉及的图像数据量进行了分析, 发现在2001年到2016年共15年内, 数据量从5.0 $\times$ 10$^{7}$增长到1.0 $\times$ 10$^{12}$, 增长速度甚至超过了摩尔定律, 如图6 所示. 其中, 数据量在2007年和2010年分别出现了两次快速的增长, 分别对应于断层成像在材料试验中首次应用及该技术的通用化(Neggers et al. 2018 ). 若不借助于大数据的处理方法, 将很难从上述体量的数据中, 挖掘出与材料力学行为直接相关的特征. ...
Big Data, big knowledge: Big Data for personalized healthcare
1
2015
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
How "Big Data" can make big impact: Findings from a systematic review and a longitudinal case study
1
2015
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
Industrial Big Data analytics: Challenges, methodologies, and applications
1
2018
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
Physics-informed machine learning approach for reconstructing Reynolds stress modeling discrepancies based on DNS data
2
2017
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
... 相比之下, 有关湍流的试验以及直接数值模拟(DNS)都能够给出不同边界下的湍流特征数据(De Angelis et al. 2002 ), 多年来已经有大量的积累, 而这正是大数据分析的用武之地. 已经有很多学者利用这些大的高保真数据集结合机器学习算法来构建更精确的雷诺应力模型, 包括美国桑迪亚国家实验室Ling等(2016) , 维多利亚理工的Xiao团队(Wang et al. 2017 , Wu et al. 2019 ), 以及密歇根大学的Duraisamy团队等(Duraisamy et al. 2019 , Singh et al. 2017 ). 以Duraisamy等(2019) 的工作为例, 该团队基于大数据构建了一种湍流模拟的框架, 如图10 所示. 在该框架中: 首先利用不同的、大量的、多种来源的高质量数据集, 来分析RANS模型中的误差, 以及数据集对应的构型的局部特征向量(如局部无量纲参数), 而后采用机器学习的方式构建上述误差与数据集对应的局部特征之间的函数, 进而增强RANS模型并用于CFD. 将该方法用于不同翼型的分离流预测中已经取得了较好的改进效果. ...
Meta-modeling game for deriving theoretical-consistent, micro-structural-based traction-separation laws via deep reinforcement learning
2018
Measurement of high temperature full-field strain up to 2000 C using digital image correlation
2017
Big Data are shaping the future of materials science
2
2013
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
... 湍流模拟是流场模拟中最为困难的问题. 对于简单的流场可以从N-S方程出发, 采用直接数值模拟获取湍流特性, 但计算成本高昂. 对于复杂流场的计算, 多采用湍流模式理论给出的雷诺数平均N-S方程求解. 该理论假设湍流中的流场变量由一个时均量和一个脉动量组成, 通过将控制方程进行统计平均, 使得其无需计算各尺度的湍流脉动, 只需计算出平均运动, 从而显著减少计算量, 并成为复杂外形湍流模拟中的唯一工程实用方法(Witherden & Jameson 2017 ). 该方法又称为RANS, 需要给出非线性的雷诺应力来闭合方程. 通过假设湍流雷诺应力与应变成正比, 湍流计算归结为对雷诺应力与应变之间的比例系数的计算. 这一关系类似于固体材料本构, 但雷诺应力的主要贡献来自大尺度脉动, 而大尺度脉动的性质及结果和流动的边界条件密切相关, 因此雷诺应力模型不可能是普适的, 往往需要结合试验数据进行修正(Spalart 2000 , Speziale 1998 ). ...
Future directions in computational fluid dynamics
2017
Representation of stress tensor perturbations with application in machine-learning-assisted turbulence modeling
1
2019
... 相比之下, 有关湍流的试验以及直接数值模拟(DNS)都能够给出不同边界下的湍流特征数据(De Angelis et al. 2002 ), 多年来已经有大量的积累, 而这正是大数据分析的用武之地. 已经有很多学者利用这些大的高保真数据集结合机器学习算法来构建更精确的雷诺应力模型, 包括美国桑迪亚国家实验室Ling等(2016) , 维多利亚理工的Xiao团队(Wang et al. 2017 , Wu et al. 2019 ), 以及密歇根大学的Duraisamy团队等(Duraisamy et al. 2019 , Singh et al. 2017 ). 以Duraisamy等(2019) 的工作为例, 该团队基于大数据构建了一种湍流模拟的框架, 如图10 所示. 在该框架中: 首先利用不同的、大量的、多种来源的高质量数据集, 来分析RANS模型中的误差, 以及数据集对应的构型的局部特征向量(如局部无量纲参数), 而后采用机器学习的方式构建上述误差与数据集对应的局部特征之间的函数, 进而增强RANS模型并用于CFD. 将该方法用于不同翼型的分离流预测中已经取得了较好的改进效果. ...
Big Data analysis and scheduling optimization system oriented assembly process for complex equipment
2
2018
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
... 传统的试验方法对试验条件、试验结果进行了大量简化, 往往只能反映特定的现象, 限制了试验效率的提升. 例如材料力学性能试验中常采用的直板试样的单轴拉伸实验等, 通过构造标距区实现简单的载荷状态和均匀应变区, 以实现拉伸模量的测试. 针对复杂受载条件下材料强度性能, 则需要特殊设计的夹具及加载方式以实现多轴加载, 且单次试验只能获取一个有效数据(Xu et al. 2018 ). 相比之下, 试验中获取各类响应的手段越来越多. 例如简单单轴拉伸试验, 就可以在线同时测试试样的应变场、声发射、材料等效电阻、表面形貌等多个信息. 大数据获取全体样本、获取多类型数据并利用数据融合获取深层次见解的思想, 对改变当前的试验力学方法、提高试验效能也有重要启示. ...
A modified anti-symmetric four-point bending method for testing C/C composites under biaxial shear and compression
2018
Using memory in the right way to accelerate Big Data processing
2
2015
... (2)大量数据下的实时计算: 大数据的上层需求和下层的数据都处在动态之中. 针对大数据应用的数据密集特点, 总体上需要`将计算靠近数据'. 一方面发展内存计算、内存存储以及高速互联网络等硬件构架, 同时依据硬件特点对大数据分析处理的软件、工具进行底层优化, 如将机器学习算法与底层系统配合起来的大学习系统; 另一方面, 发展数据压缩技术、数据采样与近似及数据降维等能够降低数据杂度, 以及适应于大量数据的简单算法、组合建模与混合建模等方法以降低计算的复杂度; 与此同时, 在并行化与分布式技术的基础上, 针对表格、数组、及图模型等不同类型数据及应用场景, 优化批量计算、流式计算、图计算等计算范式, 发展各类MapReduce等并行编程模型及相应的软件平台以提高处理效率, 并通过平台技术融合实现不同计算范式以满足不同应用需求的协同(Kaisler et al. 2013 , Ur Rehman et al. 2016 , Yan et al. 2015 , Zhang et al. 2017 ). ...
... 大数据使得人工智能的性能得到了革命性的提升, 大数据科学方法的应用迅速扩展至各个行业及科学研究领域, 且应用成效显著. 大数据推动着供给侧改革和第四次工业革命(Yan et al. 2017 ), 各国、组织纷纷提出了大数据和人工智能发展的战略规划(刘叶婷和贾童舒 2013 ). 2012年3月, 美国政府宣布投资2亿美元, 启动"大数据研究与发展计划", 这是1993年"信息高速公路"倡议之后的第二项重大科技发展计划(U. S. Government 2012 ). 2012年7月, 日本内政和通信部发布的"振兴ICT日本"项目表明, 大数据发展应该是国家战略, 应用技术应该是重点(魏红江 等 2016 ). 2012年7月, 联合国发布了"大数据发展"报告, 总结政府如何利用大数据更好地服务和保护其人民(Kirkpatrick 2013 ). 我国更是提出要"实施国家大数据战略加快建设数字中国"(中国信息化刊 2017 ). ...
Industrial Big Data in an industry 4.0 environment: Challenges, schemes, and applications for predictive maintenance
1
2017
... 连续介质的应力-应变响应、损伤及失效分析中运动方程及连续性方程等从基本物理定律和假设导出, 并不存在非确定性, 导致模型预测结果与试验结果出现差异的原因, 往往是材料本构关系模型不够准确. 本构关系的建立基于热力学第二定律等基本约束, 往往是先进行材料力学性能试验, 而采用材料状态的假设, 构建经验的本构模型, 并采用试验数据进行修正. 这一过程往往需要多个经验函数, 如C/SiC复合材料中损伤变量、损伤演化的定义等(Yang et al. 2018 ). 对于复杂的材料行为, 经验模型正变得越来越复杂, 也越来越难以修正, 同时经验建模也正是误差引入的原因. ...
Development and validation of an anisotropic damage constitutive model for C/SiC composite
1
2018
... 基于微结构决定宏观性能的思想, Li等 (2019) 基于页岩微细观结构的大量图像, 建立了利用图像预测材料等效弹性模量的方法, 如图8 所示. 采用模拟生成的大量图像及有限元预测的弹性模量作为样本, 训练卷积神经网络以构建微结构与弹性性能间的映射关系. 采用这一关系所预测的弹性参数与有限元模拟结果误差最大不超过3%. Yang等(2018) 采用了类似的策略建立了两相夹杂复合材料的等效性能预测方法. Kong 等 (2015) 对73种金属化合物弹性性能与电荷密度拓扑进行挖掘分析, 辨识了控制弹性行为的关键变量, 发现C11和C44是由电荷密度决定的, 而C12是由电荷密度的大小或形状决定的, 弹性常数预测的$R^{2}$高于80%, 同时建立了B2晶体结构稳定性的预测方法. Guo 等 (2019) 利用63 137条钢材料工艺数据(来自宝钢集团), 挖掘了工艺参数、组分参数等共27个参数与钢材料屈服强度、破坏强度与延伸率之间的关系, 结果表明影响钢力学性能的前3个重要因素分别为: 屈服强度为碳含量(CEQ)、氧含量和炉温, 最终破坏强度为两种碳含量(CEQ, PCM)以及炉温, 延伸率为当前温度、碳含量(CEQ)和炉温. 利用钢材力学性能与27个参数的关联关系, 可以对钢的工艺和组分进行优化, 以实现特定性能钢材的设计. 吴思炜等(2015) 针对热轧汽车大梁板, 利用480组17个工艺参数及板材屈服强度、 破坏强度与延伸率的数据, 分析关联关系并筛选出关键工艺参数进行贝叶斯神经网络建模, 模型预测结果中: 抗拉强度和屈服强度96.64%和94.96%的预测值误差在$\pm 6\%$以内; 伸长率96.64%的预测值误差在$\pm 4\%$以内. 采用大数据构建工艺-结构-性能之间的关系进而加速材料研发也正是材料信息学的基本内涵之一, 其包括三部分研究内容, 即: 材料信息数据库、集成材料设计平台和数据挖掘技术(Kalidindi & De Graef 2015 , Rajan 2015 ). 基于大数据的数据挖掘和机器学习等技术, 能够避免复杂物理建模和计算的困难, 同时利用丰富的试验数据信息, 有望将原来的"合成-表征-理论分析"的范式转为为"发现-合成"的范式, 进而加速材料的发现和应用(Agrawal & Choudhary 2016 , Dimiduk et al. 2018 , Ramprasad et al. 2017 , Sumpter et al. 2015 , White 2013 ). ...
X-Mechanics—an endless frontier. Science China Physics ,
2019
Deep learning approaches for mining structure-property linkages in high contrast composites from simulation datasets
2018
Numerically explicit potentials for the homogenization of nonlinear elastic heterogeneous materials
1
2009
... 大数据及数据驱动方法用于求解上述边值问题能够避免经验建模的困难及误差. 目前学术界所采用的方法可以归为3种方式, 如图9 所示: (1)驱动经验模型的改进: 相关研究工作包括采用演化推理算法构建最适合于当前数据的本构模型形式(Gandomi et al. 2016, Javadi et al. 2012 ), 采用增强学习方法自动搜寻最佳的经验函数组合等(Wang & Sun 2018 ). (2)采用数据挖掘构建本构模型: 基于材料力学性能的数据库和数据挖掘, 构建数据驱动的材料本构模型, 避免经验模型引入的误差. 这方面的研究工作包括: 法国国家科学中心Yvonnet等(2009) 、美国西北大学Liu K M团队采用微细观模型构建材料力学行为数据库, 而后采用插值或机器学习的方法, 构建本构模型并用于结构计算(Bessa et al. 2017 , Shakoor et al. 2018 ); ESI公司Ibañez等(2017 , 2018 )利用复杂试样的复杂加载试验, 提取不同载荷状态下的材料力学行为, 并采用流形学习的方式对复杂数据进行降维, 构建本构模型, 并应用于弹性、非线性弹性与非线性材料行为的建模中. 在此基础上, González等(2019) 发展了考虑物理约束的方法. Miñano等(2018) 与Crespo等(2017) 直接利用试验数据构建本构模型, 避免建模中误差, 发展了WYPiWYG损伤力学方法. (3)数据直接用于计算: 加州理工Kirchdoerfer与Ortiz (2016 , 2017 ) 提出了一种不同的范式, 叫"数据驱动计算". 直接利用试验材料数据构建计算过程, 同时满足基本的以及守恒律的要求, 而直接避免整个经验式的材料建模过程. 通过构建变分原理, 在满足基本物理约束和守恒方程的同时, 通过最小化结构材料点状态和数据点的距离, 来实现问题的求解. 初步研究表明, 这种新的计算范式随着数据量的增加收敛性较好. 而后这种方法又被拓展到非线性弹性力学问题的研究中(Nguyen & Keip 2018 ), 同时采用Mahalanobis距离来增强方法对噪声的稳健性(Ayensa-Jiménez et al. 2018 ). 在这种方法中, 由于直接采用数据计算, 不存在经验建模的误差, 模型的预测能力直接由数据库决定, 因而建模问题也转变为数据的收集问题. ...
Data-intensive applications, challenges, techniques and technologies: A survey on Big Data
2
2014
... 麦肯锡的一份报告指出, 大数据通过给出有益的模式或知识, 已经成为生产力和创新的下一个前沿(Manyika et al. 2011 ). 在商业中, 大数据在提高运行效率、指导商业决策、改善客户服务、发现新市场等环节中起到了重要的作用, Brynjolfsson 等 (2011 )发现采用"大数据分析"的美国公司的产出和生产率比他们的其他投资和信息技术的使用要高出5% ~ 6%. 在工业部门, 利用大数据可以构建智能工厂、设备机群自动优化与预防性维护、能源管理、生产线调整等(Wang et al. 2018 ). 在医疗健康领域, 大数据在公共卫生管理、医学图像信号分析、个性化医疗等领域已经获得成功应用(Belle et al. 2015 , Groves et al. 2013 , Viceconti et al. 2015 ). 在科学研究中, 高能物理、天文学、气象学、地球物理、生物信息学等领域已经成为典型的数据密集型科学. 在工程实践领域, 大数据被普遍用于优化流程、诊断结构或装备状态(Wu et al. 2018 , Kapliński et al. 2016 ). 有关大数据在各领域的应用, 已经有较多综述性文章(Katal et al. 2013 , Min et al. 2014 , Wamba et al. 2015 , Zhang & Chen 2014 ), 本文不再赘述. ...
... 随着全场特征观测手段如基于图像的全场应变观测技术(Wang et al. 2017 ), 及多物理量同时测量技术的发展, 单次试验中所能观测到的数据越来越丰富, 高通量力学性能试验越来越受到关注(Green et al. 2017 ). 与传统的力学性能试验强调的均匀性、非耦合相反, 在高通量试验中强调复杂状态、多场耦合和全场数据采集 (Sanchez 2014 ). 一种思路是采用微小型试样结合高通量的试验制备技术, 在单次试验中实现大量试样的试验(Zhang & Xiang 2017 ). 另一种思路则是在单次试验中, 尝试获取多维度的、全域等更为丰富的试验数据(Hild & Roux 2006 , Leplay et al. 2012 ). 例如, 采用复杂试样设计 $+$ 复杂载荷途径, 结合全场应变测试, 实现在单次试验中获取多种状态下的材料应力应变行为数据. 深圳先进技术研究院李江宇团队(Eshghinejad et al. 2016 , Huang et al. 2018 )搭建了高通量的扫描探针试验系统, 如图12 所示, 基于扫描探针的力电耦合效应, 在试验表面单点获取全激励频域的响应特性, 以区分材料的微细观特性; 采用时变信号激励与全时域数据, 获取高阶响应并辨识不同的物理机制等; 采用多物理场激励并获取多类型数据发展扫描热离子探针试验方法等, 在研究微纳尺度的复杂介质多物理场耦合机制取得了良好的效果, 并注重在试验中采集更为丰富的数据, 利用数据融合和数据挖掘, 为认识材料复杂行为提供新的视角和思路. 文献(Belianinov et al. 2015 )介绍了各类数据挖掘方法在SEM高维数据分析中的应用, 包括采用主成分分析揭示数据的结构和趋势, 采用独立成分分析提取独立的信号, 采用贝叶斯分层给出具备物理意义的数据分离, 采用人工神经网络识别和辨识图像特征, 采用$K$均值聚类对图像特征进行分离和分类等. 声发射能够为分析材料和结构损伤提供丰富的信息, 但传统的数据分析方法只能将声发射大数据与材料的损伤建立定性的联系. Qi与Wayne等(2014) 利用所有声学数据建立了随机损伤事件的多变量矩阵$\pmb D$, 其中列向量为相同幅值下声发射数据, 行向量为相同时间/载荷下声发射事件的数据. 基于损伤矩阵$\pmb D$定义了不同载荷水平下声发射数据的信息熵, 对3种水泥变体在拉伸下的信息熵与应力的关系进行了分析. 结果表明, 3种材料表现出了明显的差异, 而常规拉伸试验和扫描电子显微镜结果的分析未能确定这些水泥变体之间的差异. 上述关系为材料损伤的定量化分析奠定了基础. ...
Combinatorial approaches for high-throughput characterization of mechanical properties
1
2017
... (2)大量数据下的实时计算: 大数据的上层需求和下层的数据都处在动态之中. 针对大数据应用的数据密集特点, 总体上需要`将计算靠近数据'. 一方面发展内存计算、内存存储以及高速互联网络等硬件构架, 同时依据硬件特点对大数据分析处理的软件、工具进行底层优化, 如将机器学习算法与底层系统配合起来的大学习系统; 另一方面, 发展数据压缩技术、数据采样与近似及数据降维等能够降低数据杂度, 以及适应于大量数据的简单算法、组合建模与混合建模等方法以降低计算的复杂度; 与此同时, 在并行化与分布式技术的基础上, 针对表格、数组、及图模型等不同类型数据及应用场景, 优化批量计算、流式计算、图计算等计算范式, 发展各类MapReduce等并行编程模型及相应的软件平台以提高处理效率, 并通过平台技术融合实现不同计算范式以满足不同应用需求的协同(Kaisler et al. 2013 , Ur Rehman et al. 2016 , Yan et al. 2015 , Zhang et al. 2017 ). ...
A survey on emerging computing paradigms for Big Data
2017
Machine learning on Big Data: Opportunities and challenges
1
2017
... "机器学习"是当今最热门的研究方向之一, 是指采用计算程序的方法从数据中获取知识, 包括关联、分类、聚类和回归4类典型模型(Al-Jarrah et al. 2015 , Qiu et al. 2016 ). 大数据的出现使得数据驱动的机器学习方法性能出现革命性提升, 成功应用于各个领域(Dhar 2013 , O'Leary 2013 , Zhou et al. 2017 , 孙松林和陈娜 2016 ). 以机器翻译为例, 20世纪90年代以前的机器翻译尝试通过模仿人类学习外语的方式, 通过定义语法规则来进行翻译, 但发现语法规则达到2万条以后仍有约20%的英语语言现象无法覆盖. 可以认为这一时期的机器翻译是基于模型的, 但针对语言这样的复杂系统难以奏效. 90年代后IBM设计出采用数学模型+数据的方法翻译自然语言的框架, 但由于当时数据量不足, 这种基于统计的机器翻译效果并不如基于规则的方法. 而后, 谷歌机器翻译系统将数据量提高到原来的10 000倍, 在短短半年内将机器翻译和人类翻译的一致性提高到35%以上(人类专家的翻译一致性仅50%), 远超世界各类机器翻译系统(吴军 2012 ). ...
Big Data opportunities and challenges: Discussions from data analytics perspectives
1
2014
... 当然, 学术界对大数据作为科学研究的第四范式也持有不同观点(Ekbia et al. 2015 , Frické 2015 , Mazzocchi 2015 , Succi & Coveney 2018 , Zhou et al. 2014 ). 批评的焦点在于大数据能否有效进行科学发现: (1)相关性能否替代因果关系; (2)缺乏理论指导能否有效进行数据的收集、挖掘; (3)复杂系统对数据微小错误十分敏感, 数据间的冲突会导致数据的价值随着数据量增加而降低等; (4)大数据幻觉, 即出现"假阳性"等. 这种批评是十分有益的, 它使得我们认清大数据并非万能, 而是存在着明确的能力边界, 即: 大数据本质上处理的是具有足够多、高维度数据, 并只能给出相关性的解释. 与此同时, 也需要发展大数据的科学哲学理论以及更为先进的数据分析方法. 但上述批评与当前各学科(当然也包括力学)采用大数据的方法、结合学科自身的特点开展尝试研究并不矛盾. ...