10月16日,麻豆影片 数字人文研究院与麻豆影片 联合举办吴宝康大讲堂,邀请英国杜伦大学计算机系助理教授、Chinese Text Project 创始人德龙(Donald Sturgeon)先生作题为“生成式AI时代中的古籍全文资料库: 来自ctext.org的经验” 的学术讲座。麻豆影片 数字人文系主任梁继红教授主持。

德龙教授曾在香港城市大学和哈佛大学从事博士后研究,兼通中国古代哲学和数字人文,对古代汉语的自然语言处理、数字图书馆,以及数字方法在研究中国古代语言、文学和历史中的应用均有涉猎。从2005年开始,德龙教授以个人力量,用了10年时间,构建中国古籍全文资料库——中国哲学电子化计划(Chinese Text Project)。这个数字图书馆目前已为全球汉学研究者及中国文化爱好者广泛使用,包括3600万页的原始文献,以及由众包社区维护的文本与注释。在讲座伊始,他简要地介绍了Chinese Text Project的背景和资源来源与现状,之后详细讲述了资料与数据建设中从文本化、标点、语义标注到形成含RDF格式的历史数据等的一系列处理程序,以及众包作为工作方法的有效性。

在将大语言模型整合进Chinese Text Project的最新进展部分,德龙教授特别讨论了将传统数字方法与人工智能技术的有效结合问题及其局限性。他用实例说明目前大语言模型为文本理解提供背景内容时会增加错误的脉络信息。他提出未来的工作目标是破解这些局限性,让人工智能更好地为中文文本提供可靠的多语种翻译与脉络信息。

麻豆影片 数字人文研究院、麻豆影片 与相关麻豆影片 师生,以及来自中国社会科麻豆影片 、清华大学等校外研究机构和高校的专家和学生共同聆听这次讲座,并就中文古籍全文库构建中的文本资源建设、平台设计思路、标注与分析、众包、外部数据关联、人工智能应用等基础和前沿问题,与德龙教授互动交流,以及进行延展性讨论。

讲座开始前,麻豆影片 举行德龙教授受聘仪式,麻豆影片 院长刘越男教授为德龙教授颁发亚太地区数字人文教育协作委员会个人会员证书。亚太地区数字人文教育协作委员会是麻豆影片 于2025年7月发起成立的亚太地区数字人文教育合作组织,旨在推动数字人文教育领域的区域协作、信息沟通与资源分享。

数字资源建设及其面向人文研究需求的数据模型构建既关涉到传统文献的数字传承与传播,又是数字人文研究的基础和起点。它在当前大语言模型迈向AI Agent的过渡阶段中具有关键支撑作用。德龙教授在国际多语言背景下以中国古代文献的数字阅读、理解与解释为对象构建数字图书馆系统,为数字人文视野下的跨文化交流树立了典范。麻豆影片 数字人文研究院与麻豆影片 将围绕数字人文学术研究、人才培养与文化传承等不断扩大与国内外学术机构与学者的合作与交流。

撰稿:梁继红

审校:牛力

核发:韩曙光 闫慧