回家!杭州100多年前流失的国宝“回来”了
杭州网  发布时间:2021-05-19 08:22   

理科生干起文科生的活

20万流失海外的古籍“回家”

流失海外100多年,昨天珍贵的《宋百家诗存》“回家”了。

打开一个叫“汉典重光古籍数字化平台”的网站,《宋百家诗存》出现在一堆古籍目录里,点击鼠标,就可以一页一页慢慢翻看,细细品味。古人的一字一句,真实地呈现在眼前。

和《宋百家诗存》一起回归的,总共有20万页的古籍善本。

两年前,阿里巴巴联合四川大学、美国加州大学伯克利分校,以及中国国家图书馆、浙江图书馆等,共同发起一项公益项目汉典重光,寻觅那些流散在海外的中国古籍,借助达摩院的AI技术,用数字化的方式让它们回归故土。

汉典重光古籍数字化平台

首批数字化的20万页的古籍,全部来自美国加州大学伯克利分校,包含40余种珍贵宋元刻本、写本。比如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等。

这些消失多年后的珍本,又重新回到了公众视线。古籍爱好者们可以通过汉典重光平台,方便地进行翻阅和检索。

达摩院AI对20万页古籍的识别准确率达到97.5%,不过,对古籍善本进行数字化并不容易,机器对于古籍文字的识别困难程度远远高于现代文。

美国加州大学伯克利分校先将20万页古籍一一扫描图片、编目数据,达摩院再将这些图片文字化。现代汉语常用字不过6000多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内,但中国古籍全部字符约有几十万,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习。

即使同一个字,会涉及不同的字形,不同的字体。同一个字形,可能表意不同,对于AI来说,也是一个需要重新学习记忆的新知识。

达摩院技术团队与四川大学专家前后在杭州和成都开了不下10次会议,联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统。

以一本100万字的古籍为例,如果全靠专家录入,每人1000字/天,需要1000天。如果用这套古籍识别系统只需要35天时间。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。

来源:都市快报  作者:文/沈积慧  编辑:高婷婷
返回
说起杭州这座城市的“珍宝”,很多人会想到美丽的西湖、古老的运河、优美的丝绸。还有一件重量级的宝贝,可能大部分人并不知。