科技行者

                            行者学院 转型私董会 科技行者专题报道 网红大战科技行者

                            知识库

                            知识库 安全导航



                            AI将揭开梵蒂冈机密档案馆之谜

                            • 扫一扫
                              分享文章到微信

                            • 扫一扫
                              关注官?#28966;?#20247;号
                              至顶头条

                            梵蒂冈机密档案馆(Vatican Secret Archives)被列为世界十大禁地之一£¬其珍藏的许多文件从未转录£¬即便教堂档?#20872;?#20063;对其中隐藏的秘密一无所知¡£然而£¬机器视觉系统将会揭开中世纪文本的神秘面纱¡£

                            科技行者 3月20日 ?#26412;?#28040;息 梵蒂冈机密档案馆(Vatican Secret Archives)被列为世界十大禁地之一£¬它是罗马教皇的档案保管机构£¬也是?#20998;?#25945;会中收藏档案最丰富£¬最古老的档案馆¡£

                            其珍藏的许多文件从未转录£¬即便教堂档?#20872;?#20063;对其中隐藏的秘密一无所知¡£然而£¬机器视觉系统将会揭开中世纪文本的神秘面纱¡£

                            AI将揭开梵蒂冈机密档案馆之谜

                            梵蒂冈机密档案馆颇为传奇¡£据称£¬该馆保存的往届教皇的私人信件和其他文件£¬不少内容可追溯至公元8世纪, 排起来可?#29992;?5公里长¡£

                            馆内警戒森严£¬自1881年起£¬学者们接触到的文件极为有限£¬但其中的信息量却蔚为可观¡£

                            举个例子£¬一张长达60米的羊皮纸上记满了对法国圣殿骑士的审判供词£¬这场审判自1307年伊始£¬?#20013;?#25968;年¡£这些信件中£¬有米开朗基罗的手稿£¬有国王亨利八世请求废除婚姻的申请书£¬还有苏格兰女王玛丽被斩首前的说情信¡£

                            此外£¬档案中还包含距今较短的通信文件£¬比如美国南北战争时期£¬亚伯拉罕·林肯和杰斐逊·戴维斯分别来信£¬试图说服教皇庇护九世支持各自阵营——北方联邦和南部邦联¡£还有二战期间£¬教?#35270;ëÄ纱?#25919;权的往来信件都从未出版¡£事实上£¬1939年后的所有档案完全对外保密¡£

                            AI将揭开梵蒂冈机密档案馆之谜

                            虽然这些文件禁止出版£¬但档案馆设有影像备份及档案保护工作室¡£与其他许多历史档案馆一样£¬他们已开?#21152;?#20687;备份文件£¬供学者深入研究¡£

                            但档案存量过于庞大£¬光靠人工抄录备份£¬根本无法完成¡£那么£¬机器视觉技术是否能够起作用?

                            幸运的是意大利罗马第三大学的Donatella Firmani及其同事启动了“In Codice Ratio(‘编码系统’的拉丁文)”项目£¬旨在开发能够自动转录梵蒂冈机密文件(名为Vatican Registers)的系统¡£

                            该语料库收录了13世纪的18£¬000页官方信件£¬覆盖内容极广£¬从天主教?#28966;?#29579;¡¢王后£¬从政治到宗教£¬横贯?#20998;?#21508;领域¡£Firmani及其团队表示£º“这些文件此前从未转录£¬因此£¬历史意义可谓空前巨大¡£”

                            中世纪文本的特殊性给机器视觉技术带来了诸多挑战¡£由于手稿字迹风格各异£¬存在连笔(将相邻字母连成一笔书写)和特殊缩略语£¬因此传统的视觉识别算法无法胜任转录工作¡£

                            为解决这一难题£¬学者们研发了识别整个单词(不仅仅是字母)的计算机视觉系统¡£然而效果仍不理想¡£大多数单词在长篇文件中只出?#27490;?#20960;次£¬所?#38498;?#38590;创建满足机器学习需求的数据集¡£

                            如今£¬Firmani及其团队发明了训练文字视觉识别系统的新方法£º将单词拆分为笔划£¬再像拼图一样将笔划组合起?#30784;?#20182;们表示£º“我们想开发一个能够转录尽可能多手稿的成熟系统¡£”

                            系统将单词拆分为笔划后£¬再试图将笔划组合成字母£¬分析所有可能的排列组合方式£¬最终排除所有不符合语法的组合¡£

                            例如£¬通常可将笔划组合为“iii”和“m”£¬因语法错误排除前者¡£同样的笔划组合还有“in”或“ni”£¬系统需进一步研究整个单词及其所处语?#24120;?#20877;作出选择¡£

                            Firmani团?#37038;?#20808;创建了一个数据集£¬训练基于神经网络的计算机视觉系统¡£

                            该数据集需要进行标记处理¡£因此£¬视觉系统可学习笔划的排列方式与可能字母的?#25104;ä¡?/p>

                            他们将数据标记外包出去£¬将拼图似的单词拆分为模式识别问题(如拼图式验证码)呈现给120所高校学生£¬让他们数小时内共同人工标注包含15£¬000个单词的数据集¡£

                            标注结果十分理想¡£Firmani团队称£º“我们能够准确转录数据集中65%的字母图像¡£”

                            显然£¬这一成果对转录中世纪文章和历史学?#19994;?#30740;究而言意义非凡¡£但还有更多难题需要攻克¡£例如£¬小写字母的转录问题仍然存在£¬因此下一步的关键是扩大词汇量£¬将大写字母及中世纪文本中的缩略语纳入数据集¡£

                            梵蒂冈机密档案馆将如何利?#35868;?#19968;科技尚不得而知£¬梵蒂冈文件(Vatican Registers)被转录后是否会公之于众也无人知晓¡£

                            但即使文件未能出版£¬Firmani团队开发的前沿技术也能帮助学者们进行相关领域的深入研究¡£例如£¬可利用单词¡¢词组频?#22987;?#20854;随时间的变化等数据展开历史文件研究¡£可作为分析历史文化的重要切入点¡£

                              [an error occurred while processing this directive]
                            邮件订阅

                            如果您非常迫切的想?#31169;âIT领域最新产品与技术信息£¬那么订阅至顶网技术邮件将是您的最佳途径之一¡£

                            您最受关注专题
                            往期文章
                            н®11Ñ¡5²ÊƱ