章昌平:超越数据洪流:第四研究范式下的社会科学研究数据基础设施论文

章昌平:超越数据洪流:第四研究范式下的社会科学研究数据基础设施论文

内容提要在信息技术快速发展的背景下,科学研究信息化和科学数据的结合推动了科学研究第四范式——数据密集型科学发现的产生,并促进科研数据管理进入一体化、共通共用的发展阶段。但是,社会科学研究的信息化(e-Social Science)与社会科学科研数据管理却未引起学界太多的关注,存在理论研究和经验总结的滞后性。为更好地推动社会科学研究范式的转型,借鉴自然科学研究信息化和科研数据基础设施发展经验,本文界定了社会科学科研数据基础设施的概念与内涵,并在此基础上提出社会科学研究与数据管理组合生命周期模型和社会科学科研数据基础设施框架模型,并对上述两个模型框架实施需要的保障条件进行了简要论述。

关键词第四研究范式 社会科学 科研数据基础设施 大数据

引 言

随着大部分领域的科学研究从“村舍”活动逐渐过渡到大规模“行业化”努力,科技创新越来越依赖于优势互补和协同创新的合作网络。在此过程中,科研基础设施以其供给的“不可分性”和配置“初始集聚性”、知识平台效应、人力资本效应、协同创新效应等作用机制①,成为加强科技创新的有效途径②。这一途径的达成,需要依赖广泛信息共享和海量信息的交汇融通。这是因为随着新一代信息技术与科学研究过程的结合,促进了科学研究新范式的诞生:继实验、理论和仿真之后的第四科研范式——数据密集型科学发现,以仪器收集或模拟方法产生的海量数据作为驱动科学研究的重要资源。当今已没有无数据的科学,也没有无科学的数据③,每个学科正在演变为两个分支:收集分析信息的X-Info和计算、仿真的Comp-X④。科学研究的进步越来越依赖于如何有效地处理数据,“数据洪流,尤其是科技领域的数据洪流,已经发出了构建新的研究基础设施的挑战”⑤。

在此背景下,科研数据基础设施(Research Data Infrastructure,简称RDI)成为科研基础设施的“基础设施”。在处理科学研究过程中不断积累的数据与知识,对促进科学研究合作网络形成和有效连接,优化不同学科之间数据流动,促进科研基础设施开放与共享,减少资源与工作重复性浪费,促进多学科融合发展等方面起到重要作用。因此,科研数据基础设施的建设受到了世界各主要国家和国际组织的重视,被纳入国家、区域科技发展战略或国际合作框架之中。2008年,八国集团科学部长会议决定成立全球研究基础设施高级官员小组(GSO)负责推动和加强全球研究基础设施(GRIs)的国际合作,其中“明确措施,确保妥善处理、存储和访问科学数据”是其主要目的和内容。2010年,欧盟“第七框架计划”(7th Framework Programme,简称FP7)资助了GRDI2020项目,指出科研数据基础设施面临的挑战和问题,并提出10项建议和发展愿景,用以指导全球科研数据基础设施生态系统建设⑥。此后的地平线2020(Horizon2020)科研规划中,也将e-基础设施作为其中重要的组成部分。2012年,澳大利亚成立了专门的“科研数据基础设施委员会”(RDIC)评估其科研数据发展前景并提供科研数据基础设施投资优化咨询。

加快渝黔区域合作,推动边界经济走廊建设,要强化顶层设计,加快两地各种资源流动共享,增强两地经济发展粘合度,因地制宜,因势利导,科学指导。

21世纪以来,我国开始重视科研基础设施建设和科学数据的开发、共享工作。2004年,科技部等4部门发布《2004-2010年国家科技基础条件平台建设纲要》,推动科技基础条件平台建设和大型科研仪器、科学数据资源开放与共享。2015年,《促进大数据发展行动纲要》中将“发展科学大数据,构建科学大数据国家重大基础设施”“建立国家知识服务平台和知识资源服务中心”等列入“万众创新大数据工程”之中。2016年,加快科研信息化纳入《国家信息化发展战略纲要》,提出了“加快科研手段数字化进程,构建网络协同的科研模式,推动科研资源共享与跨地区合作,促进科技创新方式转变”的要求。科研数据基础设施建设在国家信息化、创新体系建设与大数据发展战略中的地位不断上升,国家科技基础条件平台、科学数据共享中心等科研数据基础设施建设稳步推进,并逐步实现对社会开放。

但是,目前我国科研基础平台建设与科研信息化尚处于初级阶段,甚至出现一些误读。一方面,我国往往将科研数据基础设施视为科研信息化的组成部分,其应用主要集中在作为科技基础设施、大型仪器设备和科学数据开放与共享的信息技术支撑,而未将其视为科学研究范式转型的驱动力和综合服务手段,缺乏运营机制、协同设计、算法与模拟应用等服务手段的提升和平台开发,在互联互通、互操作等方面存在一定的短板,更缺乏自主产权的核心软件与算法,无法满足科研范式转型的自主创新需求。另一方面,科研数据基础设施建设是一项系统工程,其服务能力不取决于单一项目或系统的规模、性能和指标,而需要一套科学的长效运行机制。目前,我国尚缺乏从整体上把握科研数据基础设施建设一揽子计划的顶层设计,尤其是未将社会科学研究领域的科研数据基础设施纳入其中。更为紧迫的是,目前我国科研数据基础设施投资和建设主要集中在自然科学研究领域,社会科学研究领域的科研数据基础设施研究、投资和建设严重滞后。大数据等信息技术的发展为科学研究范式的转换提供了可能,这种可能也体现在社会科学研究的可计算、信息化及大数据化等方面,形成了促进社会科学研究范式在定性、定量和仿真之外产生大数据驱动的第四研究范式,以实现社会科学“通宏洞微”的可能性及个体化、全样本的发现和预测研究⑦。为适应这一社会科学研究范式的转型,我们需要构建新型社会科学发展的科研数据基础设施予以支撑。

历程回顾:科研数据基础设施一体化与新的研究范式

(一)科研数据基础设施的发展历程

②路甬祥:《中国至2050年重大科技基础设施发展路线图》,科学出版社,2009年。

萌芽阶段(20世纪40年代)。国际社会的科学技术研究基本处于“村舍”阶段,对科研数据缺乏管理,甚至未能认识到科研数据的重要性。但这一阶段也已经出现了科研数据基础设施的萌芽:(1)从科研数据管理生命周期来看,主要还是集中在研究成果(文献)的管理上,但也出现了零散的数据收集和数据再利用⑨。开始记录实地观测的科学数据,成为长期的科学数据积累的起源,如我国黄河流域水土保持监测即开始于这一阶段。再利用则主要是对研究成果特征数据的挖掘,将文献的载体数据、内容数据独立于研究文献之外,作为单独的数据用以分析与管理,总结科学研究发展的规律,如布拉德福定律、Zipf定律、齐普夫定律和洛特卡定律等。(2)计算机和计算机模拟方法被发明,并用于“曼哈顿计划”的研究。(3)由于科学问题和社会挑战空前复杂,科技活动逐渐突破个体小规模、零散发展的基本特征,出现了规模化、工程化、协同化的“大科学”发展格局。“大科学”产生了跨国、跨机构、跨学科的协同和对海量科学数据进行采集、存储、管理和分析的需求,也是科研数据基础设施产生的重要背景。

建立基础地位阶段(1950-1989年)。科研数据的重要性逐步得到国际社会的认可,科研数据管理逐渐成为重要的科技领域。(1)科研数据管理开始逐渐覆盖科研数据生命周期各阶段,重点集中在数据的收集、整理、系统化、标准化和交流服务上。特别是世界数据中心(WDC,1955)和世界天气监测网(1980)等的创立,推动了地球科学、环境科学与空间科学领域的数据收集、存储、检索和利用。美国国家大气研究中心(NCAR)、政治与社会研究校际联盟(ICPSR)、社会科学数据项目(GSS),德国综合社会调查项目(ALLUBS)等研究和数据中心得以建立,促进了科研数据管理和运行模式逐渐成熟:机构的结构化数据库、跨部门的数据管理平台或中心共享。(2)软硬件建设和发展主要集中在科研数据管理系统开发与利用方面,如数据库、信息管理系统、元数据、超级计算中心等,并建立了数字数据馆藏蛋白质数据银行,为科学研究提供科研数据的收集、仓储、存储管理、建模与计算等服务。(3)科研数据管理的国际合作、国家联盟等科研合作与协同开始形成,国家资助机构开始承担研究数据管理平台的建设与维护工作。如国际科学联合会相继成立了世界数据中心和国际科技数据委员会(CODATA),致力于提高科研数据管理的国际合作。

快速发展阶段(1990-2002年)。科研数据基础设施建设逐渐加速,并从重收集、重建设向重共享、重长期保存与服务转变,各类科研数据管理政策配套逐步完善,科研数据成为推动科技创新、科研项目管理、经济结构调整与国际关系制定的基础。(1)科研数据的收集、存储、整理等阶段的管理与运行模式逐渐成熟,开始侧重于科研数据的共享、长期保存与服务利用。主要以1990年美国正式批准全球变化研究计划(GCRP)为代表,其为美国分布式数据档案中心群(DAACs)的其中一个数据中心。该项目的启动标志着美国科研数据共享走向全面推进阶段。美、加、澳等国在该阶段启动国家空间基础设施建设,整合多个国家级数据中心的数据资源。我国也在2002年正式启动科学数据共享工程。(2)数据仓储及管理系统、元数据和超级计算中心等技术继续发展,数据统计分析工具得到广泛应用,互联网技术、WebService、搜索引擎、集成数据管理系统、网格技术等开始在科研数据管理中应用。(3)e-Science(科学研究信息化)提出,促进了科学研究合作与虚拟协同环境的形成。

稳定发展阶段(2003-2008年)。e-Sciences环境逐渐形成,科研数据管理开始建立“从摇篮到坟墓”的全生命周期管理。(1)不同类型的数据生命周期模型研究及管理对策的提出,数字出版与开放存取成为重要内容。其标志性成果为开放获取的“柏林宣言”(2003年)和世界经合组织的“开放获取公共资助研究数据的宣言”。美国国家科学基金会(NSF)、英国研究信息网络(RIN)等发布了相关政策,强制推进科研数据的开放与共享。2007年,Jim Gray指出数据密集型科学研究的完整生命周期包括数据获取、管理、分析和可视化四个过程。数据归档、长期保存、数据管理计划等科研数据管理前后置阶段也都被纳入进来。(2)网格计算、语义网格、科学工作流管理成为热点话题,高速科研专用网络建设、Web 2.0、数据管理计划创建工具、机构知识库、数字分发与出版、无线互联网等技术得到较大的发展。(3)e-Science环境逐渐形成,科学研究的合作与协同进一步加强,全球科学信息共有先导(GICSI)计划、促进发展中国家科学数据共享与应用全球联盟(UNe-SDDC)计划实施,开放科学、数据密集型科学等理念逐渐被人们所接受,科研范式与科学交流、传播方式的变革呼之欲出。

全面发展阶段(2009年至今)。科研数据在学术产出中“二等公民”的地位得到改变。为应对大数据带来的挑战,世界主要国家纷纷制定大数据发展战略,并将科研大数据纳入其中。数据密集型科学范式逐渐形成,促使科研数据成为科学研究的重要驱动力量。2010年以来,随着欧盟、美国、澳大利亚等国在科研大数据和科研数据基础设施等领域系列战略和项目的实施,科研数据基础设施三大线索逐渐汇流,开始形成基于科研大数据的一体化科研信息化基础设施。高速科研专用网络建设(如欧盟的GÉANT、北美的Internet2和亚太地区的APAN等)、科学数据及应用管理(如美国的DataNet计划、英国DISC-UK数据共享项目、澳大利亚的ARDC科研数据共享基础设施)、高性能计算开发与部署(如欧洲的PRACE计划与DEISA计划、美国的ASCR计划、日本下一代超级计算机战略)、数据与计算平台建设(欧洲开放科学云计划、极限科学与工程挑战环境、欧洲人脑计划ICT平台)等领域的实践也日渐丰富,出现了蓬勃发展的态势。

(二)从eS到eSS再到社会科学研究第四范式

e-Science(eS)产生的动机就是“科研的信息化”⑩,其目的是全球、跨学科、大规模的科研合作以及跨时空、物理障碍的资源共享成为可能。eS于20世纪末由英国提出,最初的界定是“在重要的科学领域中的全球性合作,以及使这种合作成为可能的下一代基础设施”,美国科学基金会提出的Cyberinfrastructure和欧盟的e-Infrastructure是与之类似的计划。此后,随着实践的发展出现不断泛化,目前从广义上说,e-Science实质上包含“信息化基础设施”和“信息化的科研活动”两个方面。前者主要由三个部分组成:信息化基础设施,如网络设施、高性能计算设施、科研数据资源、数字图书馆等;数字化科研仪器、设备,如各类传感器、CCD、观测设备及其软件、网络和中间件;三是eS的软环境,如政策、法律、法规、标准及人才培养环境等。而在科研活动中,虽然各学科领域的需求、规律和工作方式各不相同,并且依赖于科研人员的脑力活动。但信息化的科研活动也呈现出系列相同的特性:一是在“大科学”环境中以网络化条件的资源共享和工作协同;二是信息化提供的新技术、新方法,如高性能计算、仿真模拟、数据挖掘、数据分析和信息可视化等;三是科研活动与数据管理生命周期在科研活动信息化和科学工作流管理下走向协同。正是两者的结合,使得eS与Science2.0、开放科学、开放创新、数字人文等概念具有一定的相关性,呈现出开放式、共享性、协同式、高效率的科学研究基本特征。

第四研究范式的产生与定性、定量和仿真三种范式之间并非从一到四相互递进取代的关系,四种研究范式事实上是一个研究方法不断迭代的过程,而且可以通过混合研究设计走向融合,并逐步弥补各自的缺陷。在大数据的驱动下,社会科学研究活动生命周期的开端不再一定从理论假设开始,也可以是从数据分析得到的奇点相关的引导下构建因果和结构关系。基于此,本文提出eSS和eSS环境下社会科学科研与数据组合生命周期模型(如图1所示)。该模型体现了社会科学第四科研范式的研究活动生命周期与eSS数据管理生命周期的双向嵌入。在数据的生命周期内,该模型必须保证数据的安全性和访问控制,并能够实现数据的采集(含过滤、清洗与整合)、数据分析(分类、挖掘、实验、分析)、数据感知(可触、可听、可嗅、可视)、数据存储与再利用,数据存档、数据共享与出版等,整个过程都要求数据的存储、保护与重用。同时,数据管理的生命周期能够嵌入社会科学研究生命周期,为eSS提供对研究的起点(理论模型或假设、数据发现的相关性)、研究过程、研究结果(展示和再利用)的支持。而数据管理计划与研究设计则是实现这一嵌入的关键环节。

e-Social Science(eSS)是一个相对前沿的研究领域,是eS在自然科学研究领域取得良好成绩,信息技术对社会科学研究带来冲击,以及信息技术所创建的虚拟合作环境中对社会科学的挑战和需求共同作用下的产物,也是人文社会科学领域对eS的引进和发展。目前对eSS的概念还未达成统一的认识,有学者认为其是eS的分支,也有学者将其限定在使用网格技术的社会科学这一更狭窄的范围,而英国国家eSS中心则将其定义为计算机专家与社会科学家之间的合作,其目标是两者合作设计和开发研究工具,以解决社会科学家在研究中遇到的问题,并探索新的研究领域或加快社会科学研究。褚鸣认为eSS的内容主要集中在五个方面:(1)用于社会科学研究的网格中间件和研究工具的开发,(2)语义网络,(3)数据搜集、整合、共享、修复和管理,(4)科研信息化技术的社会形成,(5)虚拟协同研究环境的构建;并认为缺乏资金和人才、高成本是阻碍eSS发展的主要原因,种子基金、协作、研究兴趣和学术带头人是推动eSS发展的重要影响因素。雷枫则将eSS体系构成等同于eS,认为其包括“信息化基础设施”和“信息化的科研活动”两个方面,前者主要指基础资料的获取、存储、处理等基本手段信息化,后者是对研究对象的计算机模拟与仿真,eSS体系建设需要重视社会科学定量化研究、社会复杂系统的综合集成研究、社会科学数据中心建设和eSS体系的实现四个方面的问题,从而搭建人工社会系统实验室,实现对社会科学研究对象的模拟实验。学者们对边疆研究中的数据中心建设、数字世界史学等具体社会科学研究领域的eSS应用进行了探索。

近年来,随着新一代信息技术的不断发展,eS中“信息化基础设施”的三个组成部分的数字化、自动化、智能化、宽带化、无线化的趋势不断加强,“信息化的科研活动”则产生了全新的变化,越来越依赖数据驱动与信息化技术。在此基础上,Jim Gray提出了全新的科学研究范式:数据密集型科学研究。在这一研究范式中,数据由仪器收集或仿真产生,而不再由科学家操作仪器进行直接的观察和记录;数据的处理过程(采集、整理、分析及可视化)由软件进行处理,其规模和速率都远远超出了人脑的存储和计算能力;由计算机存储信息和知识,形成人脑+外挂知识系统;科学家通过数据管理和统计方法分析数据和文档,科学家在整个工作流中相当靠后的步骤才开始审视数据。这种影响在eSS中也正在显现,由于大数据、物联网、移动互联网和智能终端技术的发展,eSS中信息化基础设施正在不断实现“万物智能”“万物联网”,从而将社会科学研究对象的属性数据、时空数据、行为数据在大数据环境中得到融合,引发了“万物皆数据”和“计量一切”的趋势。第四研究范式下的社会科学研究活动也将呈现更加依赖数据驱动和信息化的特征,“社会科学研究的对象也从传统的人参与的社会系统和社会过程转变为现实世界和虚拟世界平行系统互动形成的数据网络”,并不断促进社会科学与自然科学在数据驱动研究过程的学科交融。

社会科学科研数据基础设施的内涵分析

从上述两个历程的回顾可以看出,正是科研数据基础设施的演化和进步,在技术和科学研究之间形成双螺旋结构,相互影响和相互作用不断完善e-Science环境,促进了数据密集型科学发现范式的形成。目前对自然科学领域的科研数据基础设施有了一定的认识,并已发展到“一体化”“共通共用”“领域专用”的阶段,但对社会科学第四研究范式的研究依然滞后,支持社会科学第四研究范式的科研数据基础设施的探讨十分缺乏,甚至有学者认为社会科学依然是“小科学”研究。在eSS的分析中,我们可以看出社会科学科研数据基础设施依然主要局限于作为技术支撑的基础资料数字化获取,主要集中在科研数据管理生命周期的数据采集、检索和成果管理等阶段,既没有形成全管理生命周期的覆盖,也没有形成“一体化”的数据与计算平台。因此,本文认为有必要对社会科学科研基础设施进行界定,并根据社会科学第四研究范式的特点,对其建设对策予以分析。

本工程土钉长度在基坑底部第一排为12m,其余每排土钉长度均为为9m,土钉直径48mm,壁厚3.5mm,间距采用1m×1.1m进行布设,注浆工艺采用两次注浆,在第一次注入水泥浆,第二次注水泥砂浆。坡面采用冷轧带肋钢筋网进行铺设,为φ8,200×200mm钢筋网,对其进行喷射100mm厚混凝土坡面防护,其中在土钉部位设置φ20井字压筋。

根据社会科学科研数据的特征,借鉴GRDI2020项目专家组的界定,本文认为社会科学科研数据基础设施(Social Research Data Infrastructure,SRDI)是一个以大数据为中心,包含服务与工具的管理网络环境及HS+CA一体化建模与计算实验平台,支持:(1)社会科学研究整个生命周期和社会科学研究数据管理生命周期,并实现两者的互嵌;(2)不同学科之间研究数据的流动与语义理解;(3)通过连接来自不同学科的数据集和情境数据来创建开放关联的数据空间;(4)管理科学工作流;(5)研究数据与文献之间的互操作;(6)一个集成的科学政策框架。由于社会科学研究的特色性、复杂性,SRDI不仅需要支持社会科学科研数据的分享与重用,促进资源共享和科研合作,加速社会科学创新与研究结果涌现,还应该促进不同学科间的语义理解和数据、研究结果与应用情境的结合。只有这样社会科学才能实现科研数据基础设施的技术体系与社会科学研究的思维体系相互促进,产生社会科学研究结果的智慧升华。SRDI才能成为eSS得以高效运转、不可或缺的支撑性基础设施。此外,由于社会科学研究对象的特殊性、复杂性,其面临的大数据虽然能够提升数据测量质量、具备全样本和高容错性等,但其仍然无法具备自然科学数据的同质性,并且受更多伦理与规制约束。因此,社会科学科研基础设施中的数据管理生命周期、数据流动与互操作、科学工作流管理及政策框架等方面呈现自身的特点。

面向知识:创建新一代社会科学研究的数据基础设施

(一)基于eSS的科研与数据组合生命周期模型

盛情难却,竹韵只得安心坐下来准备接受海力的宴请了。海力把采单递给竹韵要她点菜,竹韵看了一眼花花绿绿的菜单却无从下手,便又抱歉地把菜单递回去说,我很少进酒店吃饭,不晓得点菜。海力笑笑没再客气,一口气点了好几道竹韵从来没有听说过的昂贵菜肴,又上了一瓶长城干红。服务员一上菜,海力就开了酒倒上两杯。

图1基于eSS的科研与数据组合生命周期模型

(二)社会科学科研数据基础设施框架模型

武成龙离开厢房柳含烟和白雪马上去了井台,然而不仅在石屏上的宝蓝色长衫没有了,而且柳含烟落在井台旁肮脏的衣服和靴子也没有了踪影。白雪打了个寒噤低声喃喃:“要是引起那书生误会就糟了。”

因为数据海量异构的特征,社会科学研究数据采集层较为复杂,并且呈现出种类繁多、碎片化和多变化特点。数据采集涉及调查问卷数据、文献(文本)数据、智能终端数据、传感器数据、空间大数据、社会媒体及UGC数据等,这是由于数据来源与存储的差异性造成的。数据采集需要根据研究设计和数据管理计划进行,不同来源的数据其存储、调配、传输以及用途需要差别对待。如网络社交媒体数据,既可以短期存储在研究团体或机构知识库中,也可以存储于更大范围的数据档案馆或数字图书馆中,其用途可以用以验证因果假设,也可以用以计算、仿真,发现相关性。同时,数据采集层需要多种设备与工具的组合应用,要注意数据的互操作性、信任性以及数据获取的成本(可获得性)。

由于社会科学研究对象的复杂性,以及大数据环境下学科融合的发展趋势。使得社会科学数据来源具有多元性的特征,既有传统社会科学研究所使用的文本(文献)数据、也有各类智能终端或传感器产生的时空大数据、行为大数据和属性大数据。各类数据存储在异构多源环境中,要对其进行识别和采集,就需要对数据源进行甄别和管理。在eSS环境和面向知识的社会科学研究,拟通过构建研究问题的大数据知识源聚合网络进行解决。通过研究问题(对象)的领域本体,构建数据采集的信息参照集,从而覆盖与之相关的所有数据源,便于根据研究设计制定线上线下结合、大数据与小数据结合、多类型数据聚合的数据管理计划。

按照eSS的科研与数据组合生命周期划分为数据源层、数据采集层、数据分析层和数据应用层四个层次。上述不同层次基础设施不是孤立存在的,它们彼此作用构成新型社会科学发展的基础设施平台:数据源层主要为社会科学研究的对象——人及其社会环境构成的社会经济技术系统;数据采集层主要是数据采集的物理层,涉及数据传感器、可穿戴计算设备、数据传输网络的等物理环境,数据存储、调配等初级数据处理设施;数据分析层,包含可共享的社会科学数据分析工具、仿真平台或可计算社会实验平台;数据应用层,则提供接入或反馈社会问题的操作界面。

数据分析层则为社会科学研究提供分析方法、仿真工具和实验平台,统计分析、数据挖掘、内容分析、自然语言处理、数据可视化等技术在其中得到应用。人工智能的发展以及算法的进步,为该层次的应用提供了丰富的研究手段。这一层的主要目的是实现数据到信息到知识到智慧链的提升。这就要求这一层不仅需要进行信息的分析,更需要注意不同学科之间研究数据的流动与语义理解。当我们在使用社会科学科研数据基础设施的时候,丰富语义的访问支持,甚至知识自动获取和共享,将会为跨学科研究和协同创新提供良好的支持。

社会科学的研究团队和研究项目具有多边性,更应该强调大范围的资源共享和协同合作。但目前社会科学界对仿真和大数据方法、工具的采用尚处于犹豫不决和摇摆不定之中,甚至对其提出一定的质疑。因此,建立良好的应用层,提供友好、便捷的接口就显得十分重要。良好的应用层接口、界面与反馈机制,将会吸引更多地社会科学研究人员采用科研数据基础设施,从而避免其因操作难度望而却步。

(三)保障条件:技术共同体与规则共同体的支撑

社会科学研究数据基础设施的建设,必须要有技术共同体和规则共同体的支撑。一方面,是社会科学研究环境的泛信息化,将包括无所不在的数据传感收集系统、大容量数据传输网络,云存储及其数据处理系统、可共享的算法及其仿真研究平台等。另一方面,从学术研究的角度讲,传统学科领域的划分可能会弱化,基于层次划分和融合的集成研究或是未来趋势,社会个体的微观心理及行为研究和基于群体、组织系统的宏观研究有望在大数据中走向通宏洞微的连续谱;社会复杂系统及社会网络认知将可能以社会仿真与社会实验的方式呈现。同时,新型社会科学的理论体系,研究方法及其操作准则,学术成果评价与交流规范,新型科学问题与研究对象的界定准则,认知限度和认知检验,学科融合与学术规范,交叉学科的语境和逻辑等将会为社会科学研究数据基础设施的建设提供规则共同体的支撑。

至此,社会科学科研数据基础设施框架模型如图2所示:

图2社会科学科研数据基础设施框架

研究发现与展望

通过对科研数据基础设施的发展历程的回顾,我们发现在科学研究中,科研数据的使用正从作为科学研究的技术支撑、辅助手段逐渐转变为科研数据管理与过程控制,目前已经进入科研数据基础设施新的发展阶段,形成了“一体化”“共通共用”和“领域专用”并存的特征。这种转变与e-Science环境的不断完善,并为其提供支撑相互促进,逐渐促使了自然科学第四研究范式的形成。然而,在社会科学研究领域,我们还尚未实现这一转变。社会科学研究正面临全新的信息化环境和数据海啸的挑战,这一挑战不仅仅来自社会科学研究对象的高度数据化,更来自社会科学研究本身信息化不足和科研数据管理的轻忽。这导致了在我们快速全面进入信息化社会、信息环境面临巨大改变的时候变得手足无措。社会科学研究应该拥抱大数据,不仅将其作为研究对象和方法,更应该将其视为基础设施,从而推动e-Social Science环境的形成。

模糊控制器的设计是模糊控制方法的应用重点,模糊控制系统的性能主要取决于模糊控制器的结构、所制定的模糊规则、推理算法及模糊决策的方法等因素[3]。具体的设计结合机械臂拾取系统进行详细说明。

本文虽然提出了社会科学科研数据基础设施平台的概念和内涵,构建了eSS和第四研究范式下的数据管理生命周期与社会科学研究活动周期嵌入模型,社会科学科研数据基础设施基本框架。但对上述两大模型的论述还较为简单,停留在较为表层的论述。在未来,需要通过具体领域和实证案例的研究,构建更为具体、切实可行的社会科学研究领域科研数据基础设施对策。并加强社会科学研究数据管理政策、数据治理、数据管理计划、人机网络的数据互访问互操作、数据出版与可信存储、开放获取及区块链等新兴技术在该领域的应用研究。可以说,社会科学科研数据基础设施不仅仅是第四研究范式的基础建设,更是社会科学走向一个全新时代的基础中的“基础”。

①李平、黎艳:《科技基础设施对技术创新的贡献度研究——基于中国地区面板数据的实证分析》,《研究与发展管理》2013年第6期。

从概念来看,目前对科研数据基础设施尚未有统一的界定,澳大利亚科研数据基础设施委员会和欧盟GRDI2020项目专家组对其均采用了较为宽泛的定义。其主要内容包括:(1)科研数据基础设施包含覆盖整个科研活动以及科研数据产生、收集、管理、分析和应用两个“生命周期”;(2)以科研数据操作为中心,包括基于数据支持科研活动的系列硬件、软件、规则、政策、人员和工具的数据生态系统,包含数据本身;(3)其目的是支持不同学科之间科研数据的有效流动、互操作,管理科学工作流,建立科研合作与协同,提高科技创新效率⑧。因此,科研数据基础设施的发展历程梳理从上述三个维度进行界定,分别从科学数据管理(科研活动)生命周期所处阶段、科研数据管理的软硬件设施建设与开发、科研合作与协同方式三个方面回顾各阶段发展特征。

③赵鹏大:《大数据时代呼唤各科学领域的数据科学》,《中国科技奖励》2014年第9期。

④⑤Gray J. E-Science: A Transformed Scientific Method, Hey T., Tansley S., Tolle K., In TheFourthParadigm:Data-IntensiveScientificDiscovery, WA: Microsoft: Redmond, 2009.

⑩Kirk D. Borne, Data-DrivenDiscoverythroughe-ScienceTechnologies:the2ndIEEEInternationalConferenceonSpaceMissionChallengesforInformationTechnolog, Washington,DC, 2006, IEEE Computer Society.

ERP系统在优化企业的内部结构,合理配置各种信息和资源方面具有一定的优势,但是,各种信息资源的合理使用及配置必须要有一套先进的管理制度作为前提,只有这样,才能有效实现各种资源的合理利用。所以,企业要想更好地发挥ERP系统的影响及作用,就要建立相关的管理制度,以此来明确和规范各个部门、员工的工作职责和分工,只有供应、销售、物资、生产等各个部门都明确自己的职责,才能及时、准确的录入信息,最终方便企业财务部门汇集、整理所有的数据和信息。

⑦米加宁、章昌平、李大宇等:《第四研究范式:大数据驱动的社会科学研究转型》,《学海》2018年第2期。

⑧Department of Education and Training (Australia). The Australian research data infrastructure strategy[EB/OL]. (2014-12-08)[2019-4-2]. https://apo.org.au/sites/default/files/resource-files/2014/12/apo-nid42792-1244466.pdf; Global Research Data Infrastructures: The Big Data Challenges[EB/OL]. (2015-01-20)[2019-2-10]. http://www.grdi2020.eu/Repository/FileScaricati/fc14b1f7-b8a3-41f8-9e1e-fd803d28ba76.pdf;王敬、王彦兵:《国外科研数据基础设施研究及实践的调研与分析》,《情报资料工作》2016年第6期。

⑨各机构根据自身需要建立了不同类型的科研数据生命和科研活动周期管理模型,据CEOS统计2012年4月已达到55个。该处研究生命周期阶段划分的依据为DDI3.0版组合生命周期模型。

古时候,祁连地区是羌、匈奴等少数民族生息繁衍的地方,也是古“丝绸地,为历代兵家所重视,三角城、峨堡城等古城的遗址见证着祁连县的发展和变迁;如今,这里成为了汉、藏、蒙古、回、土等15个民族的聚居地,多元化的民族风情构成了一道独特的人文景观,令人向往。

⑥GRDI2020-Towards a 10-Year Vision for Global Research Data Infrastructures[EB/OL]. (2011-12-30)[2019-3-15]. https://www.trust-itservices.com/portfolio/grdi2020-towards-10-year-vision-global-research-data-infrastructures.

李进华、王伟军:《知识网格及其在e-Science中应用研究(四)——知识网格在e-Science中的应用》,《情报科学》2007年第10期。

科技部国际合作司:《E-science研究在英国全面展开》,《中国基础科学》2002年第3期。

流行性乙型脑炎(epidemic encephalitis type B)是由日本乙型脑炎病毒(Japanese Encephalitis Virus, JEV)引起的一种虫媒性人兽共患传染病[1]。人和多种动物均可感染本病,以猪群感染最为普遍[1]。病猪多引起非化脓性脑炎,病人最主要特征是中枢神经系统受害而出现意识障碍、惊厥等神经症状[2]。本病被世界卫生组织列为需要重点控制的传染病。

桂文庄:《什么是e-Science?》,《科研信息化技术与应用》2008年第1期。

所谓单独研究,是从个案研究方法中演变出来的,这种研究方法着重于副词的属,认为副词是一种半封闭半开放的词类。

阎保平、桂文庄、罗泽:《我国科学研究信息化的发展与启示》,《科研信息化技术与应用》2010年第1期。

曾伟忠:《科学研究的信息化:e-Science的产生和发展》,《现代情报》2006年第2期。

当所有蚂蚁完成一次循环后,为使搜索过程更具指导性,让蚂蚁的领域集中在当前循环为止的最好路径领域内,需对全局最优及全局最差路径的信息素轨迹量进行更新。

陈文娟、肖峰:《e-Social Science与社会科学研究》,《探求》2010年第6期。

褚鸣:《社会科学研究信息化的内涵与发展》,《国外社会科学》2010年第1期。

雷枫:《社会科学e-Science的思考》,《科研信息化技术与应用》2010年第2期。

常永宽:《基于E-Social Science的数据中心构建与应用——以中国边疆研究为例》,《甘肃科技纵横》2018年第8期;王旭东:《数字世界史:基于e-Science的历史学整体研究理论及环境建构》,《科研信息化技术与应用》2010年第2期。

某工程地块占地面积约37756.61m2,目前主要为拆迁用地。项目由9栋13个单元22~23层高层建筑及1~4层底商及一栋独立商业组成。地下室均为2层。1#~7#楼突出外墙的线条及构件较多,结构复杂,采用何种外墙涂料至关重要。

*本文系国家社科基金重大项目“数据科学对社会科学转型的重大影响研究”(项目号:17ZDA030)、国家自然科学基金面上项目“知识源深度挖掘的政府精准治理研究”(项目号:71673068)、广西哲学社会科学规划研究课题“大数据驱动下面向科研第四范式的高校图书馆应对策略研究”(项目号:17FTQ004)的阶段性成果。

作者简介:章昌平,桂林理工大学公共管理与传媒学院副教授,哈尔滨工业大学博士研究生;米加宁,哈尔滨工业大学管理学院教授、博士生导师;黄欣卓(通讯作者),哈尔滨工业大学管理学院副教授。哈尔滨,150001

〔责任编辑:王 婷〕

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

章昌平:超越数据洪流:第四研究范式下的社会科学研究数据基础设施论文
下载Doc文档

猜你喜欢