以“厚数据”深化数字人文研究
人工智能、大数据分析、量子通信的兴起,彻底改变了人类社会的存在方式和传统联结方式。在这种巨大的社会变革下,人文社会科学的各个分支也在试图重建学科的问题域及其与现实之间的联系。这意味着“新文科”的发展不仅需要通过对数字时代出现的新知识、新问题进行研究,实现多学科融合和理论创新,而且需要以人文学科特有的批判性张力穿透数字现象,解读其有效性的条件边界,形成富于时代内涵的新的学科生长点。数字人文研究的真正意义即在数据技术之上纳入人文的向度,这不是对算法的摒弃,而是对算法的正向优化。
以大数据技术为例,海量数据形成的体量已经达到空前规模,但如何拓宽其深度使其更精准地描述人类社会,既是数字技术应解决的问题,也是人文研究关注的重点。越来越多数据库的创建不但为诸多自然科学研究提供了更便捷的数据收集和分析的途径,也使得之前极其依赖文献资料的人文社会科学研究获得了更加丰富多样的资料基础和数据样本。高效率的识别软件和分析工具,使得词频、图表等传统人文研究中并不常见的方法得以被激活。在技术对人文的不断渗入中,新的视域、方法、观点和角度都有了生长的空间。然而,数据和之前表意符号不同,它仅以被表征的方式出场却不在场;当它在场的时候,却脱离了任何表征形式,不能直接被阅读,只能经由从结果回溯的方式来把握。这也就造成了批评者指责数字化消解了纯粹经验与其形成情境之间的内在关联。针对这一显而易见的弊病,克里斯蒂安·马兹比尔格化用了人类学家克利福德·格尔茨在1973年提出的用以形容人类行为与其文化背景之间联系性的术语“深度描述”一词,创造性地提出了“厚数据”的目标。“如果薄数据旨在根据我们的行为来理解我们,那么厚数据就是根据与所生活的世界的联系来理解我们。”这种数据抓取上的要求诉诸一种更整体、更有深度的世界观。相较于大数据描述的是数据搜集范围的广度,厚数据的提出则意在增加数据自身的深度,进一步细化对数据的诠释,以及反向加强数据的阐释力。这是一种更为情境化的数据提取和优化机制,它试图将“事实—数据”这一抽象化过程中丢失的丰富内容重新找回,并将“过程性”纳入数据能够展示的图景中。
厚数据将不可被数字捕获的经验性内容(相当一部分表现为随机的)包含在内,这原本在算法的刚性边界中被排除为数据冗余和无效联系,但在现实的经验世界中却呈现为主体建构的特殊性——主体不可预知的创造性、偶然性、意外性,以及文化的复杂性。从这个意义上说,厚数据所要求的是形成观察人类行为的整体性视角。而这正是人文社会科学所致力于获得的东西,因为“文化为事物提供了其在社会世界中呈现的意义”。它观察的对象不是数据呈现出的独白,而是布尔迪厄所言的“惯习”,是生成之场域。需要特别指出的是,厚数据对情境的指认,并非是一种简单的直接性还原,而是反思的批判性认知,这种认知不但致力于追寻事实背后的价值,同时还消解了它通过排除和遮蔽其他认知方式而获得的普遍性。
这也正是“湿件”概念在今天显得尤为重要的原因。与计算机显性设备(硬件)和编码化知识(软件)形成鲜明对照的是“湿件”。它不单单指以抽象概念思维为基础的人类大脑所具有的能力,更意指一切生物系统所具有的有机特征。由此可见,湿件之“湿”在于其所强调的生命性和联系性,它是社会有机体得以有效聚合和实现再生产的前提。它可以有效描述常规数据模型不能把握的社会结构复杂性中的非线性批判分析、创造性洞见的生成,从而穿透以线性逻辑对人类行为的连缀方式,开始关注自然经验的随机性和无组织性。这种对人类经验的非线性理解和“湿化”处理,是以人为本的情境和经验性研究的展开,是对“事件”的生成性过程的关注,它或许可以帮助研究者和使用者穿越有限的数据模型的谬误和线性逻辑的藩篱。既不舍弃大数据,也不排除非数据化方法,而是通过大数据和传统研究方法的并存,拓展对人类社会及个体的深境理解。
建立在厚数据基础上的“湿件”模式,对于目标问题的提出和算法设计者都提出了更高的要求,它打破了技术与人文在某种程度上的对立,要求将人文的张力嵌入技术的构思和执行的过程。对于一个算法设计者,他自身具有的人文素养越丰厚,对世界的理解就越立体,体现在算法设计中的数据维度自然会更加优化。从本质上说,厚数据改变和优化的不是技术的软硬件基础和条件,而是理解世界、穿透问题的方式,它是世界观和价值观在技术问题上的正面体现,这也正是“新文科”建设应当推进以专业为基础的通识性教育的原因所在。基于此,我们不但可以实现以跨学科的社会公共性认同来克服专业分化,同时可以增强大学人文关怀和责任感培养,从而提升社会认知力和凝聚力。
(作者单位:南京师范大学数字与人文研究中心)
责任编辑:甘霖