当前页面:首页 >> 图情世界 >> 正文
汉典重光:流散海外20万页中文古籍“数字化回归”
作者:藏书报     发布时间:2021-05-20     信息来源:     阅读次数:【关闭】

  5月18日,“汉典重光”海外古籍数字化回归发布会在位于北京的中国科技馆举行。一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落户“汉典重光古籍”平台。借助阿里巴巴达摩院的技术,首批20万页古籍已完成数字化,并积累出3万多字的古籍字典,公众可通过汉典重光平台(https://wenyuan.aliyun.com)翻阅、检索、使用。

  2019年,阿里巴巴公益基金会和四川大学提出“数字化回归”设想,四川大学历史文化学院王果副院长与该院教授、中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。此后,阿里巴巴达摩院创新技术方式,将流散海外的珍贵中文古籍数字化,让那些深锁高阁的典籍重新回到世人眼前,让所有人都可阅读、调用,通过古籍与先贤对话,与优秀传统文化对话。

  目前,阿里达摩院已完成对美国加州大学伯克利分校东亚图书馆提供的首批20万页古籍的识别。加州大学伯克利分校是美国的汉学研究重镇,中文藏书量排名全美第三。首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本,如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等,很多都是消失多年后重回公众视线的珍本。

  伯克利提供古籍的扫描图片和编目数据,达摩院将其全部文字化。古汉语常用字仅有几千,但中国古籍全部字符约有几十万,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习。面对海量无标注的数据,如何让AI快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。

  据技术人员介绍,达摩院技术团队与四川大学专家联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成对20万页古籍的整体识别。该系统已能批量识别百本古籍,并积累出3万多字的古籍字典。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。随着古籍识别规模的扩增,机器还会自我进化,不断提升准确率和效率。

  因邦交、贸易、战乱等,历史上中国古籍不时流向海外。近代以来,战争和动荡更加剧了古籍的损毁和流散。据不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。

  “守护中华传世典籍,是科技工作者和文化工作者共同的使命。”阿里巴巴达摩院院长张建锋透露,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营。在加州大学伯克利分校东亚图书馆馆长周欣平看来,通过数字化,把流散在海外的珍贵的中国传统文化和古籍善本,和国内的老百姓见面,也是另外一种形式的“回家”。与古籍打了一辈子交道的陈力认为,典籍是中华文明的传承载体,更是人类世界的公共财产,希望有更多力量参与中国古籍的保护和传承,让更多普通人有机会接触古籍、使用古籍,让所有蒙尘的古籍重焕新生,让书写在古籍里的文字活起来。



作者:张维祥

微信公号:藏书报



主办单位:澳门彩网官方网址 承办单位:澳门彩网官方网址图书馆 皖ICP备06012098号
地址:丰乐大道2188号 电话:0550-3854722