是沁:数据驱动的人文社科研究困境与对策:基于微观数据层面的考量*论文

是沁:数据驱动的人文社科研究困境与对策:基于微观数据层面的考量*论文

摘 要:文章从人文社科研究过程入手,分析了数据驱动的人文社科研究在数据获取、数据处理、数据共享各阶段存在的数据需求、数据隐私、数据质量、数据权益等问题。最后,从微观的数据层面,对数据驱动的人文社科研究提出了促进人文社科数据资源开放共享、构建多维度的人文社科研究数据管理与监督机制、加强人文社科研究人员的数据素养教育等3 个方面的对策建议。

关键词:大数据;数据驱动;人文社科研究;应对策略

大数据作为一种新的理念和技术, 对现代生活产生了巨大影响,同时它作为一种新的科学图景,为不同学科发展带来了新的机遇[1]。 在大数据时代,社会信息化和智能化程度有了前所未有的提升, 技术环境也发生了巨大的变化, 这些变化渗透到了人文社科研究的各个领域, 推动了人文社科研究向数据驱动的“第四范式”转变。一方面,大数据使人文社科数据收集更加全面高效, 社交媒体数据、 传感器数据、 社会管理数据等扩大了人文社科研究的数据规模,使研究成果更加科学化、精确化;另一方面,大数据为人文社科带来了新的研究方法,社会网络分析、数据挖掘、 机器学习等使研究人员在开展研究时更加得心应手,为跨领域、跨学科研究提供了可能。

毫无疑问, 大数据能够提升人文社科研究的质量,为人文社科研究带来新的活力,但近些年的研究表明,大数据带来的风险与挑战也是不容忽视的。如倪万和唐锡光[2]就大数据应用于社会科学研究的基础性问题展开研究, 指出大数据环境下的社会科学研究存在“总体”与“样本”、“混杂”与“精确”、“相关”与“因果”四个方面的悖论;陈泓茹等[3]指出要警惕大数据融入人文社科研究的基本限度:其一,大数据改变了人文社科研究的存在形态,但从本质来说,精神世界是无法数据化的; 其二, 充分认识数据固然重要,但是要警惕数据崇拜;其三,大数据能提高人文社科研究的精确化程度, 但是精确化并不等于科学化;米加宁等[4]指出第四范式驱动的社会科学研究需要关注大数据的技术伦理问题与以往社会科学传统价值的挖掘问题。

目前这些已有的研究在一定程度上揭示了大数据应用于社会科学研究的共性问题, 但更倾向于宏观问题的描述, 缺乏对大数据环境下人文社科研究中数据问题的细粒度分析。 虽然有些学者已经提及了数据伦理、数据崇拜等问题,但并未对问题及其产生原因进行深入系统的分析。基于此,本研究对大数据环境下人文社科研究的数据问题进行多方面的综合考量,并有针对性地提出应对策略。

1 数据驱动的人文社科研究困境

大数据环境下人文社科研究的数据问题作为“元问题”, 由一系列子问题共同构成人文社科研究数据问题的框架, 这些子问题主要包括数据需求问题、数据隐私问题、数据质量问题、数据权益问题等。

通过国家企业信用信息公示系统平台,企业可以在第一时间对客户信用有大致的了解。根据公示系统提供的资料,可以初步判断对方的营运状况、信用记录,并对其中涉及的股东、董事、法人等自然人的信用信息进行调查,可以帮助企业对客户的信用有一个整体的了解。

1.1 数据需求问题

此处也是用典修辞格的使用。典故出自《相思》句“愿君多采撷,此物最相思”,此处既是妻子对丈夫的思念,也是妻子对丈夫思念自己的渴求。

大数据时代,数据生成与科学研究分离,加上数据的极度丰富与多维属性, 研究人员因个人原因造成的“观念先行”“材料拼凑”“以偏概全”等问题被认为可以有效避免[9]。 因此,有研究认为“大数据时代,人文社科研究从海量数据中获得的结论, 相比通过传统抽样统计分析的结果更为准确”[10]。 事实上,数据的生产与科学研究相互独立, 不但未能有效排除影响因素, 反而可能在一定程度上招致更多的干扰因素。 各种外部环境干扰与人为干扰隐藏在数据生产到数据分析再到结果展示的各个阶段, 持续影响着人文社科研究的数据质量。

大数据环境下人文社科研究可以通过社交软件、智能设备、网络日志、开放API 等方式获取实时数据,对数据进行清洗、脱敏、匿名后通过社会网络分析、聚类分析、关联分析等方法揭示多源异构数据之间的相关关系、时间关系与空间关系,形成相关研究, 但在这个过程中随时有可能造成个人隐私数据的侵犯。

1.2 数据隐私问题

人文社科研究人员数据需求日益迫切, 人文社科数据资源建设与管理的现状却不乐观。近年来,中国人民大学、复旦大学、武汉大学、《图书馆杂志》出版社等先后搭建了数据中心以支撑人文社科研究的发展。但是数据资源建设蓬勃兴起的同时,仍然存在资源分散、管理混乱、内容单一等问题:(1)国内人文社科数据平台功能相对单一,仅提供浏览、查询等服务,不支持机器的读取和原始下载。如中山大学社会科学调查中心规定数据知识产权划归数据原始持有机构所有,规定数据获取需要审核;(2)人文社科数据资源建设标准不统一,不利于数据互联互通。由于人文社科数据资源建设标准不完善, 普遍缺乏数据读取和交互操作的数据接口, 科研人员无法查看详细数据结构, 更无法通过关联数据的方式相互共享链接[5]。目前,中国人民大学社会调查与数据中心、复旦大学社会科学中心等明确使用DDI 元数据标准,而其他很多机构在人文社科数据标引规则、 数据互操作、数据存储等方面尚需要进一步统一;(3)数据内容揭示不足,数据资源整合层次较浅。 目前,一些人文社科数据资源平台能做到对数据或者数据集进行标引,但是缺乏对数据内容的深入标引,大多数平台不具备全面的高级检索功能, 无法满足人文社科研究人员的数据多元化跨领域的数据需求。

人文社科研究的数据类型包括用户生成内容(UGC)、空间位置数据与电子踪迹等,这些规模庞大且杂乱的数据中包含着个人识别信息、 个人身份信息、个人偏好信息等隐私数据(见图1)。 在数据采集阶段, 这些隐私数据在用户毫不知情的情况下被获取,自此潜在威胁开始显露。 政府网站、数据中心等开放平台的数据一般都通过去识别化处理将数据与其来源相剥离, 通过爬虫获取的数据也会进行匿名处理,但是这些方法不是绝对安全的,多个数据集跨域互联之后, 即使是已经匿名化的数据也会慢慢清晰。 研究者通过数据挖掘和知识推理技术将毫无关联的数据进行加工与整合, 将碎片化的静态单元信息通过时空组合形成网状化模块数据, 不直接触及到隐私的信息经过科研人员叠加处理, 可以轻易用数据画像还原个人生活全貌。 Latanya Sweeney 通过对去识别化的出生日期、性别、邮政编码信息、投票登记记录进行数据配比, 从而重新确认州保险委员会发布的匿名化的健康记录信息[6]。 在数据管护阶段,如果不能有效存储数据和合理开放数据,也会对个人隐私与数据安全造成巨大威胁。 大数据时代科学数据不断增长, 存储与传输系统处理这些科学数据需要坚实的组织与技术保障, 并且需要通过相互协作来汇集不同来源的数据。然而,目前我国缺乏统一的数据管护平台, 人文社科各数据管理中心的数据安全评估标准与数据安全防护机制也不完善,这些因素都可能成为隐私泄露的原因。

图1 人文社科研究过程中的数据隐私侵犯

数据管理中心数据政策缺失是隐私侵犯的原因之一, 其根本原因在于我国缺乏个人隐私保护相关法律对研究人员行为进行规范。从全球来看,联合国有113 个成员国建立了数据保护法或其他等同法案。反观我国截至目前没有独立完整的数据保护法,相关规定分散在各种法律法规中。最新的《中华人民共和国网络安全法》新增了最少够用原则、个人信息共享条件等新规定[7],《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》补充了《刑法》,明确了侵犯公民个人信息罪的定罪量刑标准、相关法律适用等内容[8]。 但上述个人隐私保护的法律条款侧重对一般社会行为下的隐私侵犯行为的处罚,不足之处主要表现在:没有对科学研究中的隐私侵害行为进行界定, 就目前国内的隐私保护条例而言, 公民的隐私信息受法律保护, 那么公民就有权利要求科研部门在避开个人隐私数据基础上开展研究, 这是法律较难平衡和界定的部分。 我国缺少对数据驱动的人文社科研究存在的问题进行底线约束, 也未形成完善的道德规范体系进行预防。 我国早在2009 年就颁布《高校人文社会科学学术规范指南》, 该指南涉及到了学术伦理、引用规范、学术评价规范等方面,然而随着时间的推移, 该指南已经无法适应大数据环境下人文社科研究的新场景、新范式、新问题。

(1)由政府机关完善数据所有权相关法律。大数据环境下的人文社科研究在数据收集、数据处理、数据开放共享过程中都不可避免的涉及到数据隐私问题、数据权益与责任的界定问题、法律执行等操作性问题。因此,国家应该在法律层面就大数据技术的伦理问题,尽快完善全方位保护数据所有权的立法。一方面将数据所有权纳入到知识产权体系中, 规定具体的权利内容与对应的义务;另一方面借鉴《数据时代知识发现海牙宣言》[13]原则中与数据挖掘相关的三大原则(知识产权与促进研究相一致原则、合同许可条款不得限制个人使用原则、 知识产权法不限制基于数据和思想的创新与研究原则),对知识产权侵权行为归责原则进行补充,保护数据主体的权益、规范数据使用行为、规避知识产权风险。

免耕播种技术是技术的一种方法,是在地表存在农作物残茬的基础上,选择使用免耕播种机,一次性完成农作物播种施肥工作,有效降低了对土壤的翻动,减少机械设备在农业耕地上的反复碾压次数,降低人工成本投入。

1.3 数据质量问题

先进的用户身份鉴别、特定的信息交流方式和计算机防火墙技术都是提高安全系数的有效方式。一个系统可以使用多种方法结合,除了常见的静态口令鉴别(字母、数字及特殊符号等),还应有生物特征鉴别、动态口令特征鉴别、智能卡鉴别等。生物特征是通过生物特征进行鉴别的技术,如人脸扫描、指纹掌纹识别、虹膜识别等;动态口令鉴别是每次登录密码更新,即一次一密的方式;智能卡是一种不可复制的硬件内置集成电路的芯片,具有硬件加密功能。

首先,数据本身的真实性存在很大的疑问。如以互联网大数据为例,Twitter、新浪微博、知乎等互联网平台带有浓厚的商业色彩, 这些平台不是以服务科学研究为目的而建立的, 而是追求利润的商业平台, 因此生成的数据在一定意义上可以被理解为是销售与消费行为交互作用的结果。在市场逻辑下,围绕信息生产、分配与交换形成一种“数据商业”,大量的人为操纵因素被注入到互联网大数据中[9]。如微博热搜、知乎问答、微博公众号等的阅读数都存在着大量水军操纵的痕迹。对于人文社科相关研究而言,这些“重新制作”的数据从商业用途转用于科学研究,如果研究人员不能对其进行有效甄别与剔除, 数据有可能会存在偏差,最终导致研究结果出现错误。然而, 对于虚假数据的识别与筛选仍然是目前研究人员有待解决的技术难题。

(2)搭建一站式人文社科数据开放平台。 当前,国内许多人文社科特色数据库及人文社科数据中心普遍存在规模小、数据质量差、聚合程度低等问题,数据难以得到有效的应用。 搭建功能齐全、 资源丰富、 质量保障的人文社科研究数据聚合与一站式服务平台势在必行。①实现数据的有效组织,建立数据共建、共用、共享的开放系统,明确统一的数据开放端口,并根据数据主题、机构、学科等对数据进行分类, 实现人文社科资源平台互联互通的同时保障数据的一致性;②完善数据开放服务功能,以大数据环境下研究人员数据需求为中心,增设交互功能,实现一站式服务。 人文社科数据资源开放平台应具备数据存储、管理、浏览、检索、关联查找、互动与反馈评价功能。

最后,即使经过处理的数据真实可靠,对数据进行分析时也难免掺杂研究人员的个人意志。一方面,从社会学角度看,所有的数据说到底都是关于“人”的符号,是一种具有社会文化意义的建构行动[12]。 大数据环境下的人文社科研究执着于“客观数据”的解读,缺少对“主观数据”的反映,忽视了数据符号所蕴含的社会文化意义的挖掘;另一方面,人不是法律规范的机械执行者,社会行为必须结合其所发生的具体情境才能被更好地理解。 然而,现实情况下人文学科的许多情境因素都未能被记录到大数据之中,而即使是那些被记录、被解读出来情境,也应当不断反思是数据本身的意义还是研究人员对数据意义的过度解读。

1.4 数据权益问题

当前数据驱动的研究范式下, 科学数据已经成为一种必不可少的资源, 只有实现更大范围的数据共享,才能推动人文社科研究的创新。保障科学数据权益是提高数据生产者共享积极性的关键, 其既包括各利益主体的权益与义务的协调问题, 也涉及到科学数据相关法律与政策文本是否完善的问题。

(1)数据获取阶段权益问题。 随着大数据、物联网、数字中国建设推进,人文社科领域的研究资源逐渐从调查获取向感知获取转变, 研究人员通过网络媒体系统、电子政务系统、电子商务系统等获取社交媒体数据、金融系统数据、用户隐私数据等[5],在这一过程中,数据生产者的数据所有权被研究人员获取。从数据收集的对象来看,其本身是数据的生产者,但是被直接剥夺了数据的所有权, 进而也就失去了数据产生价值的收益权。 “数据知情权”是数据搜集中被普遍认可的权利,但是在大数据环境下,知情同意的难度较以往大幅增加了。 个体签署同意书通常在数据收集之前,而对信息的实际利用发生在其后。与小数据时代数据利用的目的相对确定不同, 大数据时代数据处理具有频繁性, 数据获取主体与使用目的常常难以预知。 因此,即使数据是合法收集的,个体再也不知道他们的数据会被用来做什么。 此外,考虑到时间与成本等因素, 研究人员在数据获取之前也不可能一一履行告知义务。

(2)数据共享阶段权益问题。科学数据开放共享最核心的问题是“最大程度的利用数据”与“最大程度保护相关者的权益”之间的平衡问题。数据权利化是数据开放共享的现实需求, 但是现行的法律与政策对知识产权、数据产权的规定甚少。科学数据的所有权尚未在制度层面予以明确,使得数据存储权、使用权、重用权等无法进一步厘清,给科学数据开放获取的实施增加了难度。另外,我国的人文社科数据管理平台没有对科学数据生产者作出明确的界定,对于数据使用者的权限规定也仅停留在网站的“政策说明”或者“网站申请”的层次。 与自然科学领域的学术期刊相比, 人文社科类学术期刊的数据政策尚不完善。如在图书情报领域,很多期刊并没有明确的数据管理政策,一些期刊如《数据分析与知识发现》和《图书馆杂志》要求作者在提交论文时上传支撑论文的研究数据,并且有相应的数据提交要求,然而这些要求仅涉及到数据格式、存储形式、提交方式等内容,并未对数据权属、数据引用等问题制定相关细则。科学数据汇交政策、保存与权限控制政策、科学数据重用等规定的模糊, 会造成人文社会科学数据生产者、数据管理者与数据使用者权益分配的混乱。

综上所述,只有监管部门和施工企业加强对施工现场的扬尘管控,才能有效的减少建筑施工所带来的环境污染,改善生态环境,使人与自然和谐共处,促进资源共享及社会的可持续发展。

2 推动大数据与人文社科研究深度融合的对策

2.1 促进人文社科数据资源开放共享

(1)构建一套完整的人文社科数据资源标准体系。首先,人文社科数据资源建设需要一套统一且规范的数据标准,包括数据资源建设机构的资质要求、数据库选型要求、数据资源筛选分类标准、数据清洗标准、数据资源组织标准、数据资源开放标准等;其次,需要加强薄弱环节建设,管理和评估标准是人文社科数据资源标准规范体系中的薄弱环节, 重点建设评估规范、 整合服务规范。 人文社科数据类型复杂,不仅包括数值数据,还包括文本数据、档案数据、汇编数据和PDF 格式等,根据不同形式的数据制定相应数据评估标准。

从表1可知,浓缩液含有较高浓度的有机污染物,且大部分属于难降解有机污染物,普通生化法难以降解,而且氨氮和总氮浓度都较高,究其原因主要有2个方面:一是污染物本身是难降解有机污染物,普通生化法难以将其分解成小分子;二是浓缩液中的其他污染物的浓度过高,如高含量的无机离子,对微生物的生长不利。综上,由于浓缩液的高危害性,在排放前必须进行有效处理。

其次,即使生成的数据足够科学客观,但对数据的采集与处理同样是一个主观的操作过程。 舍恩伯格认为大数据时代的数据一定是基于总体的, 数据驱动的人文社科研究追求获得总体数据, 但是在具体的研究往往与舍恩伯格的愿望相差甚远。 人文社科研究对象的性质决定难以获得全体数据, 在实际研究中能够通过数据量化的总体几乎不会出现,并且一旦追求大而全的数据样本, 不可避免的会以牺牲数据源的甄选作为代价。另外,数据量的庞大和数据的多样性给科研人员数据处理带来了一定的挑战,但同时也赋予其更多的对数据进行选择的权利,这就意味着在数据处理的环节, 很有可能出现随意取舍、组合数据,删除与期望不符的数据以获得研究结果的现象。 如2014 年12 月,《科学》杂志刊登的题为 “When contact changes minds: An experiment on transmission of support for gay equality”[11]的论文由于数据获取方式及验证性存疑, 在政治社会科学领域引起关注并引发争论。最终,论文作者承认数据造假并于2015 年5 月正式向《科学》提出撤稿申请。

2.2 构建多维度的人文社科研究数据管理与监督
机制

数据驱动的人文社科研究数据管理与监督机制构建的关键在于两个方面: 其一针对人文社科研究中存在的数据问题制定相应的法律、 政策和规范性文件; 其二构建大数据环境下人文社科研究管理与监督共同体,明确多个参与主体职责(见图2)。

随着精英文化的衰落和大众文化的崛起,以身体消费为中心的感官刺激和感性化追求逐渐成为大学生审美情趣的主流。同时,文化符号也开始由先前的文字、语言更多地被图形图像所替代。这就导致当今部分大学生在审美活动中过多地去注重体验,而不是去多加思考,使他们的审美价值观发生了严重错位,并始终处于被重构、被改革的过程中。而审美价值观与世界观中的社会观、政治观、文化观,与人生观中的自我观、道德观等是密切渗透、相互影响的。因此,这对当今大学生思想政治教育工作来说也是一个极大的挑战。

随着数据驱动的第四研究范式的兴起, 数据的价值日益凸显, 人文社科研究人员数据需求也发生了一系列的变化, 主要表现为多元化的数据来源需求、 多样化的数据类型需求、 全方位的数据主题需求。 首先,在数据密集型的科研环境下,人文社科研究人员不仅可以通过搜索引擎获取互联网大数据,还可以通过数据中心或者数据平台等专业数据库获取用于科学研究的大数据;其次,人文社科数据类型复杂多样,数值型数据、文本、图片、视频等结构化、半结构化、 非结构化数据都可以被嵌入到人文社科研究中,尤其像历史学、心理学、社会学等学科对非结构化数据的需求更为强烈;最后,人文社科各学科之间的融合与交汇不断加深, 科学研究活动往往需要跨领域数据的支持, 科研人员需要获取跨学科的数据以链接不同领域的知识点。

(2)教育部社会科学委员会学风建设委员会在考虑新技术产生的社会性与伦理性影响基础之上,重新修订《高校人文社会科学学术规范指南》。高校、科研机构等可以考虑增设专门的“研究规范指导委员会”和“学术道德问题咨询委员会”,将大数据环境下的数据伦理要求与项目申请、项目审批挂钩,严格规范人文社科研究人员的学术行为。另外,积极为人文社科研究人员提供系统的科研规范教育和学术道德问题咨询服务,通过正向引导与教育,强化科研人员的道德意识,促进道德内化。

图2 人文社科研究数据管理与监督机制

(3)人文社科出版机构应该在初稿检测、编辑校核、终稿出版、事后监督四个方面承担责任,重点完善数据提交政策与数据质量审核机制, 对数据收集方式、数据集完整性、数据描述充分性、数据重用价值进行评价,做好学术不端行为的最后一道防线。

(4)人文社科数据中心需要选择合适的科学数据授权协议,并对关键数据进行识别,形成科学数据分析报告,用于判定科学数据开放共享级别,保障科学数据安全。人文社会科学数据的创建、管理与共享过程涉及的权益主体大体可归纳为生产者(科学数据汇交者)、管理者(科学数据中心)、使用者三个部分, 人文社科数据中心需制定科学数据权益主体权限分配办法等指导权限控制,规避侵权风险。

“我这辈子最大的幸福,就是自己所做的一切,都和祖国紧紧地联系在一起。我最大的心愿就是国家强起来,国防强起来。”

(5)图书馆、档案馆在客观上独立于科学数据利益相关者主体之外, 可作为科学数据的第三方监管为人文社科数据中心提供知识产权证明、 数据完整性证明等。图书馆、档案馆等通过记录知识产权归属协议、 数据来源说明等一系列知识产权归属相关细节, 为有效维护人文社科研究人员权益与解决知识产权纠纷提供依据。

2.3 加强人文社科研究人员的数据素养教育

数据素养是信息素养在大数据时代的延续和衍生,不仅强调数据的敏感性,还包含对数据能力和数据道德的要求。 数据驱动的人文社科研究围绕密集型数据展开,数据获取能力、数据处理能力、数据道德等显然是保证科研成果科学性的重要前提。

加强人文社科研究人员数据素养教育关键在于建立专业性的服务团队,基于虚拟现实空间、现代信息技术,通过新颖的教育方式提升数据认知素养、数据道德素养、数据能力素养,实现人文社科研究成果的高效产出与交流共享。 数据认知素养主要从空间认知、学科认知、智慧认知三个方面展开,其中空间认知培养指提高科研人员感知物理空间、学术空间、虚拟网络空间所需的数据素养的能力; 学科认知培养即通过课堂学习、 参加研讨会等形式感知从事相关科学研究所需要的数据素养来实现自我素养的提升;智慧认知培养指培养科研人员的前瞻性、创新性思维和能力。数据能力素养主要从数据获取能力、数据管理能力、数据分析能力、数据存储能力、数据引用与共享能力等方面进行培养路径构建。目前,熟练掌握大数据技能的研究人员主要集中在计算机、统计等理工科专业, 人文社科研究人员在大数据知识的掌握与技术的应用方面存在一定困难。因此,数据能力素养的教育是大数据环境下人文社科研究人员数据素养教育的核心。 数据道德素养教育主要是提升科研人员数据获取、利用、开放过程中的法制观念与判断力,在数据驱动的人文社科研究过程中,多类型的数据来源、参差不起的数据质量、敏感的个人信息都是不可忽略的问题。 随着科学数据开放进程不断加快与数据论文的出现, 规范数据引用也成为了数据伦理与数据道德教育的重点。

人文社科研究人员数据素养教育的形式可采用在线课堂、虚拟课堂、讲座、研讨会等形式来实现理论的灌输和操作实践教育。 高校图书馆作为数据素养教育的主要承担者,在提供相关数据服务的同时,印发有关数据引用规范、 数据分析规范等材料供研究人员学习。 同时,积极开展数据文化建设,围绕大数据环境下人文社科研究建立特色的科研社区,开展丰富的主题活动, 进一步将数据素养的核心问题灌输给科研工作者。

3 结语

作为一种科学图景,大数据以全景式的数据规律弥补用小数据小样本来推导复杂社会因果关系的不足, 从而推动人文社科方法论的变革与认识论的跃迁。 与此同时,大数据凭借其自身优势为科研人员留下了“数据万能”的心里烙印,数据似乎成为人文社科研究科学性的一种象征。 然而,大数据所描绘的理想状态与人文社科研究的现实状况还存在一些差距。总之,大数据为人文社科研究提供了更高的数据起点和更广阔的方法论视角, 但是并没有到可以替代传统研究方法的地步。相反,人文社科研究人员如果能将大数据与传统的统计调查、实验法、访谈法等相结合,无疑会开启人文社科研究的另一扇大门。

参考文献:

[1]马费成,张瑞,李志元.大数据对情报学研究的影响[J].图书情报知识,2018(5):4-9.

[2]倪万,唐锡光.大数据应用于社会科学研究的价值与悖论[J].东南学术,2017(4):68-78,247.

[3]陈泓茹,赵宁,汪伟.大数据融入人文社科研究的基本问题[J].学术论坛,2015,38(12):106-110.

[4]米加宁,章昌平,李大宇,等.第四研究范式:大数据驱动的社会科学研究转型[J].学海,2018(2):11-27.

[5]王晓光.加强人文社科数据资源建设与管理[N].光明日报,2018-07-05(11).

[6]Simple demographics often identify people uniquely[EB/OL].[2018-11-20].http;//www.privacylives.com/wp-content/uploads/2015/02/Latanya-sweeney-uniquencess-2000.pdf.

[7]中华人民共和国网络安全法[EB/OL].[2018-11-20].https://baike.baidu.com /item/中华人民共和国网络安全法.

[8]最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释[EB/OL].[2018-11-20].http://www.court.gov.cn/zixun-xiangqing-43942.html.

[9]郝龙.“计算”的边界:互联网大数据与社会研究[J].中南大学学报(社会科学版),2018,24(2):148-158.

[10]罗小燕,黄欣荣.社会科学研究的大数据方法[J].系统科学学报,2017,25(4):9-12,44.

[11]郜书锴.《科学》杂志怎么应对数据造假[J].现代出版,2016(4):76-78.

[12]文军,吴晓凯.找回失去的传统:“大数据”研究范式的反思与重构[J].新疆师范大学学报(哲学社会科学版),2018,39(1):63-71,2.

[13]LIBER.The signatories of Hague Declaration on knowledge discovery in the digital age[EB/OL].[2018-11-20].http://thehagedeclaration.com/the-hague-declaration-on-knowledge-discovery-in-the-digital-age/.

Discussion on Dilemma and Countermeasures of Humanities and Social Sciences Research: A Micro Data Perspective

Abstract Clarifying the data problems faced by humanities and social sciences research under the big data environment is conducive to promoting the deep integration of big data and humanities and social sciences research. Starting from the research process of humanities and social sciences, this paper analyzes the problems such as data requirements, data privacy, data quality and data rights in data acquisition, data processing and data sharing of humanities and social sciences research. Then,targeted suggestions are put forward in three aspects: promoting the sharing of humanities and social sciences data resources, informing multiple-dimension data management and supervision mechanism of humanities and social sciences research, and strengthening data literacy education for humanities and social sciences researchers.

Key words big data; data driven; humanities and social sciences; coping strategy

中图分类号:G250.2;C3

文献标识码:A DOI:10.11968/tsyqb.1003-6938.2019003

*本文系国家社科基金重大项目“人文社科专题数据库建设规范化管理研究”(项目编号:18ZDA326)研究成果之一。

收稿日期:2018-12-20;

责任编辑:魏志鹏

作者简介:是沁(1992-),女,南京大学信息管理学院博士研究生;李阳(1989-),男,南京大学信息管理学院博士后。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

是沁:数据驱动的人文社科研究困境与对策:基于微观数据层面的考量*论文
下载Doc文档

猜你喜欢