近期,合合信息联合上海大学、华南理工大学,发布业内首个古彝文基础编码数据库,以智能图像处理、智能文字识别等AI技术,开展统一编码,古彝文在数字社会中有了“身份证号码”。
以往,古文字主要通过人工识别、校正和进行文献编撰,工作量繁多且效率低下。近年来,人工智能,特别是深度学习技术的发展,为古文字识别提供了高效的工具。据悉,古彝文数字化方面的成果相对较少,一方面,古彝文字符集庞大,且缺乏成熟的手写样本库。另一方面,在彝文的发展过程中,由于种种因素,导致异体字、变体字丰富,字符和释义“一对多、多对一”是常态。
基于上述情况,合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室,联合上海大学社会学院组建研究团队,共同解决数据库建设中的学术性、技术性难点。
在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群,快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。
合合信息在智能文字识别领域已有17年深耕经验。此前,在AI识别甲骨文、西周钟鼎文(金文)领域,公司已进行了领先的探索和研究,为古彝文识别积累了经验,奠定了良好的技术基础。