“从此,我们多了个天眼般的阅读者”

“用数字史学的方式去研究历史,人的价值或者个性怎么办?”

发自:上海、广州

责任编辑:刘悠翔

《收获》杂志复刊四十年来刊载的小说中,第一个十年最突出的高频词是“我要”。从第二个十年开始,高频词变成“我们”“他们”“自己”。文学创作也逐渐恢复到对日常生活的关注和书写。 (受访者供图/图)

(本文首发于2019年12月19日《南方周末》)

“计算机不理解任何人类语言,但是它有两个好处,第一很快,第二很稳定。你让我看两千万字的小说,我看到后面就完全忘记前面。”

“用数字史学的方式去研究历史,人的价值或者个性怎么办?”

战玉冰用12.5小时“读”完了749部中国网络小说,总字数七亿两千九百多万字。即便按一天一部的速度阅读,普通人要用两年多时间才能读完。战玉冰只用了半天时间,因为他借助了一款大数据软件。

软件是上海作家走走开发的。2017年,走走辞去《收获》杂志社的编辑职务,与郑翔宇联合创业,新业务主要是为影视公司评估文学作品。当时,影视公司热衷于购买网络文学的作品版权。这些作品动辄几百万字,走走读完一部就需要一周。这也是行业内普遍的烦恼。走走畅想,如果有一个工具,能帮大家迅速看完小说,告诉大家情节是什么就好了。大数据软件的雏形诞生了。

软件研发不久,影视行业遭遇寒冬,走走和郑翔宇的公司业务短缺,面临转型。2019年,《收获》杂志复刊四十周年,杂志社得知走走的软件,想用这款软件做一个报告,分析过去四十年《收获》刊载小说的风格变化。走走的软件从此迈向人文学科。

报告由复旦大学博士生战玉冰撰写。战玉冰的专业是中国现当代文学,学者们研究时也会用到统计,比如鲁迅《狂人日记》里写到了多少次“狂人”、多少次“吃人”。“通过统计数据来树立小说的主题,这样的研究很多。”战玉冰的博士论文需统计民国时期侦探小说发表情况,他用了半年时间,才统计完这项庞大的数据。《收获》四十年刊载的小说也是庞大的数据,借助软件,战玉冰只用两周就拿到了想要的数据。

数字文学只是“数字人文”的众多分支之一,其他分支包括数字史学、数字哲学、数字艺术等等。据南京大学艺术学院副教授陈静研究,中国学界2009年才开始广泛关注数字人文。这一年,武汉大学王晓光教授发表科普文章《“数字人文”的产生、发展与前沿》,在“科学网”上获得上万在线点击。2011年,中国首家数字人文研究中心落户武汉大学。

“数字人文不仅是量化的方式或者统计的方式

登录后获取更多权限

立即登录

网络编辑:柯珂

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}