您现在的位置:首页 > 往期回顾
信息技术为中国历史研究带来新机遇
作者:cuicen   日期2010-09-17 14:55:00   《中国社会科学报

  作为传统人文学科的历史学,在信息化时代面临许多新的选择和挑战。现代信息技术与史学研究的关联问题已经越来越成为中国历史学研究者必须思考的问题。在一般研究中,大多数历史学学者使用或接触到的所谓“信息技术”,仅限于文献的检索和查找功能,而在国际史学界,复杂的大型数据库以及专业分析软件日益得到深入的使用,历史学学者不但广泛借鉴社会科学研究的方法,而且注意运用自然科学的方法和技术,成为训练有素的计算机技术应用能手,娴熟运用各种数据库以及专业的分析软件。

  2010年9月中上旬,“中国历代人物传记数据库”(China Biographical Database,CBDB)学术交流和应用推介活动在北京、上海等城市展开。2010年8月31日—9月3日,“中国史研究与计算机技术国际学术工作坊暨2010年度宋史研习班”在北京大学举办。9月9日和15日,CBDB管理委员会主席、哈佛大学东亚语言与文明系教授包弼德(Peter K. Bol)分别前往清华大学和复旦大学等高校进行学术交流活动,介绍CBDB在历史学研究中的应用方法。在北京大学举办的国际学术工作坊和研习班由北京大学历史学系、北京大学中国古代史研究中心和哈佛大学燕京学社主办,旨在以“中国历代人物传记数据库”为基础,探寻地理信息系统和社会网络分析等计算机技术在历史研究中的应用。包弼德同加州大学尔湾分校教授傅君劢(Michael Fuller)、牛津大学教授魏斐德(Hilde De Weerdt)等参加了此次工作坊和研习班。

  借此机会,本报记者关注了CBDB项目组在北京大学、清华大学的学术交流活动,前往观摩国际学术工作坊,在活动期间就计算机技术与历史学研究等问题采访了包弼德一行和CBDB管理委员会委员、北京大学教授邓小南,以及多位与会的中青年学者。“这是CBDB第一次在中国进行大规模的宣传,”包弼德向记者介绍道,“对CBDB的进一步发展和应用展开有很重要的意义。”

  向国际史学界展现中国历史的丰富和伟大

  包弼德向记者直言,在国际历史学界,真正“懂得”中国历史的丰富性和伟大性的学者仍然很少,有很多从事西方历史研究的学者至今看不起西洋史以外的历史研究,这种态度有时是不公开的,有时则不加掩饰,从事中国史研究的学者常常能够感觉到。作为在哈佛大学从事宋史研究的著名学者,包弼德自己就有过这方面的感受。

  CBDB在方法论上基于国际历史学界的“群体传记学”。包弼德指出,如果我们通过信息技术在互联网上建立起并不断完善“中国历代人物传记数据库”,任何登陆的学者都可以在线查询和使用,国际上从事各个领域研究的历史学学者就可以通过数据库领略到中国历史数据的丰富和中国文化的伟大,可以从一个侧面改变其对中国历史学研究的轻视态度。

  清华大学博士后方诚峰在北京大学读研究生时就开始接触项目工作,是国内运用CBDB较为深入的青年学者之一。据他介绍,CBDB目前已收录人物9.3万余条,其中宋代最多,有4.1万多条,清代次之,有3.3万多条,唐代(含武周时期)有约5500条,明代有约3900条,中华民国有约3000条,除此之外的其他各朝代的人物数据目前较少。项目组正在陆续进行大量人物传记数据的录入或导入工作,CBDB收录的中国人物还在迅速地大幅增加。那么中国历代人物传记的数据量究竟会有多大呢?包弼德介绍,也许有300万条以上数据,甚至更多。

  CBDB的建设充分体现了中国史研究的国际合作。傅君劢介绍,CBDB始于郝若贝教授(Robert M. Hartwell)1980年代开始建设的数据库,2004年由他重新设计,2005年起,北京大学中国古代史研究中心和台北“中研院”历史语言研究所成为合作者。日本京都大学的“唐代人物数据库”、中国台北“中研院”历史语言研究所何汉威的“明清档案人名权威资料库”和“宋人、元人资料索引”、加拿大麦吉尔大学(McGill University)方秀洁的“明清妇女著作数据库”、美国加州州立大学姚平的“唐代墓志铭”和谭凯的“五代墓志铭”等都对CBDB作出了贡献。目前,CBDB由哈佛大学燕京学社、北京大学历史学系和中国台北“中研院”历史语言研究所主持。

  古代汉语比英语更适合应用 计算机“文本挖掘”技术

  记者在北京大学计算中心观察此次国际学术工作坊,发现其技术性非常强,无论是CBDB的构建,还是查得数据后利用地理信息系统软件和社会网络分析软件进行分析,对历史学学者都是不小的挑战。

  包弼德介绍,随着项目的发展,面对浩如烟海的中国古典历史文献,CBDB将面临很大的问题,即如何利用“文本挖掘”技术,从海量古代汉语文本中高效高速地提取数据库所需的信息。

  针对这个问题,CBDB项目组与哈佛大学计算科学专家施别(Stuart Shieber)等组成的团队展开了合作。这些计算科学专家都不懂汉语,在他们看来汉语是世界上最难学的语言,是一种和拼音语言极其不同的复杂语言,对从汉语文本中挖掘有效信息缺乏信心。经过合作,“文本挖掘”结果非常好,令这些计算科学专家颇感意外。“我对此一点都不意外,”包弼德对记者说,“我此前就认为,其实古代汉语是一种非常有规律的语言,古代汉语文本甚至比英语文本更适合运用‘文本挖掘’技术提取信息。”

  基于CBDB及相关计算机软件技术,中国史学家们在研究中已经取得了若干值得关注的成果,如牛津大学教授魏斐德对社会网络分析与宋代典籍的研究、加州州立大学姚平教授对唐代妇女生命历程的研究等。包弼德指导的哈佛大学陈松博士利用社会网络分析对宋代地方社会史进行了研究,重点是对四川地区的分析。他此次也来到北京大学,对自己的研究工作作了详细的介绍。

  邓小南是CBDB管理委员会委员,她向记者指出,首先,CBDB作为一种关系型数据库,开启了一种新的思维方式,提供了一种非常有力的分析工具。与全文数据库相比,CBDB可能会提出一些新问题,在运用数据库过程中得出的一些初步结论可能会与学者此前自己研究的印象非常不同,造成一种学术问题的“惊讶效果”,这可以引导我们更深入地研究,好比是推开了一扇窗。其次,CBDB作为一种开放型数据库,尚处在工作的起点阶段,但面对巨大的中国传记数据,可以说这一工作没有终点。CBDB及相关计算机技术对个人智力可以说是一种提升,也是一种挑战,对研究方向可以起到一定的引导作用。

  包弼德介绍,随着下一步工作的展开,“文本挖掘”的工作量越来越大,将会使用美国的超级计算机,这也充分说明中国历史文献资料数量的庞大。

  思想和问题意识仍是历史学研究的关键因素

  学者们在熟悉这些数据库和软件之后,能够很快“制造”出大量充斥数据表和精美的人物关系图及地图的论文,这会不会给历史学研究带来某些负面影响?包弼德对此谈了自己的看法:历史学界对历史学的主流观点认为,历史学是关注事件时代变化的学科,数据库能够帮助我们解释,却不能代替。

  对于CBDB在研究中的使用,邓小南在学术交流圆桌会议上提出一些对方法论进行反思的问题,尤其强调CBDB属于二次数据,在信息提取过程中,存在对信息的加工,甚至“破坏”,这一点学者在使用过程中必须注意。

  参加了此次国际学术工作坊的中山大学历史系博士研究生辜梦子感到很受启发,她将在自己的博士论文中尝试运用CBDB及相关的计算机技术。辜梦子告诉记者,参加工作坊期间,她有两点感触最深,其一,国外学者的历史研究早已摆脱了历史学作为单纯学科的观点,其他多种学科理论,包括计算机技术的引入,使历史研究以一种新的姿态呈现在我们面前;其二,中国的历史学研究者和学习者面临着一个新问题——在高速发展的信息技术和传统的史学方法之间,我们必须进行选择与融合。(出处:中国社会科学报 本报记者:纪明实习记者:曾江)

  

  

  

  

  

  

《中国社会科学报》版权所有,转载请注明出处及本网站名。

版权所有 2002 中国社会科学杂志社