无论是写在卷轴上,纸莎草纸上还是刻在陶器或石头上,古代文化的书面叙述都是了解人们曾经如何思考自己和世界的最佳方法之一。
但是,随着时间的流逝,许多记录都受到了损害,以至于它们几乎难以辨认。最重要的是,它们经常被移离创建的地方 - 很难弄清楚它们是何时制造的,因为伪像通常太细腻了,对于诸如放射性碳年代的技术。
传统上,解密古代文本的任务落在了名为epigraphers的专家,他们借鉴了过去的经验和可比的例子来填补空白。之间的新合作Alphabet的DeepMind古典学者承诺将使这项任务更快,更准确,从而打开更广泛的窗口。
该团队创建了一个深层神经网络称为伊萨卡,以希腊岛的名字命名,奥德修斯英雄努力回到荷马的史诗奥德赛。该工具在古希腊语中有78,608个铭文的数字化数据集进行了培训,其历史可追溯到公元前七世纪和公元五世纪。
古希腊语是一种高度易于体现的语言 - 这意味着单词形式可能会根据句子中的使用方式而变化,并且具有多种方言。
“正是这种语言复杂性使我们感兴趣,因为它为自然语言处理和机器学习方法提出了出色的案例研究。”Yannis Assael,以及Thea Sommerschield作者自然发表的论文2022年3月。
同类的第一个模型,伊萨卡经过培训,可以同时恢复零散的文本并逗弄何时何地创建它们。它使用模式识别来预测丢失的单词,同时将文本作为字符和单词处理。每个小预测都限制了后续选项的选项,例如拼图垫圈,消除字母词- 只有许多可能的答案。
决策树的分支产生了多种解决方案,该解决方案是模型按置信度评分的。它还创建了84个可能区域的排名清单,并在公元前800年和AD 800之间的10年间隔分配。与人类专家所需的小时相比,所有这些都在几秒钟内发生。
“它正在观察模式,并以比人类能做的更大的规模和更大的速度学习这些模式,因此,实现了比人类能力的更多。”乔纳森·布拉格默顿学院(Merton College),他合作从事该项目。
在测试,伊萨卡以62%的精度恢复了碎片的希腊文本。当历史学家将结果纳入他们的预测中时,其准确性从25%提高到72%。伊萨卡(Ithaca)在30年内的位置预测和过时的文本中得分71%,而人类专家平均144年。
伊萨卡(Ithaca)已经被投入实际用途,以帮助解决一群古代雅典法令的争议。最初,该法令被认为是在公元前446年之前创建的,基于在该日期左右发生变化的特定信件。但是,许多法令的日期似乎与雅典历史学家修昔底德的叙述相抵触,导致一些研究人员提出该法令是在公元前420年左右提出的。
果然,伊萨卡(Ithaca)预测约会约公元前421年。
Deepmind的Sommerschield说:“尽管这似乎是一个很小的差异,但这种日期转变对我们对古典雅典的政治历史的理解具有重要意义。”
阿萨尔说:“我们认为,这只是开发工具来探索机器学习与人文学科之间协作潜力的开始。”
该团队正在研究包括希伯来语和玛雅在内的其他古老写作系统的伊萨卡培训版本。他们制作了代码开源并创建了免费交互式版本在线的。
阿萨尔说:“我们很高兴看到伊萨卡(Ithaca)将采取的新方向。”“古希腊在我们对地中海世界的理解中扮演着重要的角色,但它仍然只是全球文明景象的一部分。”