照片档案与关联开放数据的附加值

Marilena Daquino · 博洛尼亚大学

发表于《人文开放图书馆》· 2024年刊

📜 摘要

💡

关键词

照片档案, 链接的开放数据, 艺术史

⚠️

现存挑战

• 本体分散化问题
• 长期维护成本高
• 用户技能鸿沟
• 聚合器功能局限

🖼️论文中文版

导言

语义Web技术的兴起要求多个知识领域的组织修改其技术堆栈和知识组织安排。特别是,自链接开放数据 (LOD) 运动开始以来,文化遗产领域一直是最热情的采用者之一 (伯纳斯-李,亨德勒和拉西拉,2001),到目前为止,它代表了它的主要应用领域之一 (Bikakis等人,2021)。

图书馆,档案馆和博物馆 (LAMs) 已经广泛接受了新的范式,尽管采用程度不同。值得注意的是,文化分析和数字人文领域的学术研究充满了案例研究,证明了机构如何成功地进入语义网领域。通常,此类项目解决了遗留数据和软件解决方案带来的一些技术挑战,并提出了新的数据源,工具或框架来解决此类 (研究) 问题。最终目标通常是实现语义Web所承诺的好处,例如改进的信息检索、便利的记录链接、改进的可见性以及更好的分析和服务/应用。

然而,尽管这些好处一直被引用为进入语义网的激励因素,但我们在文献中找不到对这些成就的广泛讨论和评估 (霍金斯,2022年)。事实上,虽然项目表明他们已经达到了技术目标,但他们没有分享已经实现利益的证据,也没有分享到什么程度;尽管有更好的分析和新服务的承诺,但传统的研究方法仍在在线目录中使用;依靠聚合器发布数据的小型机构无法负担为其集合量身定制的工具。在这种情况下,照片档案提供了一个代表性的例子,尽管研究不足。照片档案越来越多地通过数字目录提供其收藏,以支持学者进行图像学和历史学研究 (Robledano-arillo,纳瓦罗-博尼利亚和cerdá-díaz,2020)。特别是,艺术历史照片档案被LOD吸引,作为解决缺乏关于图像内容的结构化元数据的一种方式,并作为通用语言整合各研究所的照片集,目标是支持具有高级搜索功能的学者 (Daquino, 2019;Delmas-玻璃和桑德森,2020;Caraffa等人,2020)。

本文的目的是研究照片档案如何采用语义Web技术,以及在长期结果和获得的技能方面是否实现了期望。为了指导分析,我们提出了ZERI & LODe项目作为一个小的LOD的例子,虽然著名的艺术历史照片档案,已经运行了足够长的时间,让我们讨论的成就和局限性。特别是,我们有兴趣了解LOD对照片存档的附加价值,以及令人沮丧的元素是否可能隐藏在未兑现的承诺背后。虽然我们并不认为正在研究的领域/示例中的所有结论都可以推广到LAMs,但我们认为一些考虑因素是普遍关注的,在其他领域也值得进一步研究。

本文的其余部分如下。在本节中相关工作我们总结了语义Web技术在文化遗产领域带来的好处,如计算机科学和数字人文领域的文章所述。在截面中照片存档和链接的开放数据,我们描述了照片存档链接的开放数据的景观,描述了它们的采用程度以及它们所面临的局限性。在截面中Zeri & LODe项目我们描述我们的案例研究。截面图附加值和壁垒解决技术转变带来的好处和限制,试图概括从案例研究中得出的结论。

相关工作

在过去的二十年中,计算机科学和数字人文学科奖学金中的几项工作突出了语义网在文化遗产领域的好处 (Mitchell, 2016;McKenna, 2018)。值得注意的是,多年来,这种积极的期望似乎越来越适合文化遗产领域的要求,而文化遗产领域反过来又成为这些技术的拥护者。期望可以概括为如下所述的四个主要承诺,即: 改进的信息检索、促进的数据集成和丰富、去中心化和改进的可见性、更好的分析和服务/应用 (McKenna等人,2018)。

改进的信息检索。基于人文学科研究对人工制品,事件,人物,地点等之间的关系 (或语义路径) 感兴趣的假设,语义Web将取代传统的基于关键字的方法来检索信息,这些方法忽略了概念的含义 (因此无法消除歧义) 和概念具有的相互关系,并将促进更智能的搜索应用程序 (Benjamins等人,2004年;Lodi等人,2017)

促进数据集成和丰富。基于在网络上发布文化遗产数据会刺激文化旅游,创意经济和机构之间的合作的假设,数据必须在语法和语义上具有互操作性,这由 (一致) 分别使用RDF模型和域本体 (Hyvonen, 2022)。

权力下放和提高可见性。

一方面,链接开放数据允许任何人在网络上的任何地方发布任何数据 (甚至是关于其他机构保存的对象),因此促进了分散的发布方法,和后来的访问,在网络上的信息。另一方面,语义互操作性允许没有资源或专业知识的中小型机构通过国家或国际聚合器 (如Europeana) 共享其数据。因此,提高了机构的可见性和资源的可发现性 (De Boer等人,2012)。

更好的分析和服务/应用程序。无缝集成数据源以执行分析或填充mashup应用程序是技术/语义互操作性提供的有趣可能性。为创建LOD而提前进行的大量清理工作大大简化了数据争论和协调任务,这些任务通常是耗时的初步研究活动 (戴维斯,2019;霍金斯,2022年)。

虽然没有人天真地声称语义Web技术是解决所有问题的灵丹妙药,但有人认为它们提供了一套更有效地解决问题的工具 (Hyvonen, 2022)。文化遗产和档案LOD已被广泛认为对数字人文研究领域的学者有利 (Llanes-padr ó n和牧师-桑切斯,2017;Daquino等人,2017;McKenna等人,2018;Robledano-arillo,纳瓦罗-博尼利亚和cerdá-díaz,2020;Giagnolini等人,2023年)。

然而,对此类承诺的明确评估往往缺失 (霍金斯,2022年),并且没有证据表明其他利益相关者也赞赏这种好处,例如编目员,其他领域的学者,行业或非专业用户。一些计算机科学领域的学者批评了语义网本身前提的可行性,语义网界的相当一部分学者认为最初的设想还没有实现 (霍根,2020)。尽管知识图谱由于其展示或感知的附加值而在工业用例中被越来越多地采用,但似乎没有对其收益进行正式评估 (希茨勒,2021)。与信息专业人员的调查 (McKenna等人,2018) 证明编目员和档案管理员认识到语义网的潜力,但由于技术障碍而难以充分享受这种好处。长期以来,与非专业用户进行基于语义Web的界面的评估一直是一个被忽视的问题 (霍金斯,2021),因为语义网通常以利基群体为目标 (即工程师和科学家) (Hachey和Gasevic,2011)。据我们所知,没有对非专业用户进行一般评估,以了解技术采用带来的好处。

在本文中,我们通过评估上述有关照片存档LOD的承诺以及这些承诺如何影响编目人员和非专业用户,为辩论做出了贡献。

照片存档和链接的开放数据

档案馆和照片档案馆采用了不同的策略来拥抱语义Web技术,这主要是由于它们所描述的资源的不同性质。

档案馆通常会创建fonds,series和文件夹的档案记录,并且很少包含单个文档的详细说明。在这种程度上,他们采用基于档案标准中可用的描述性字段的本体和词汇,例如上下文中的记录 (EGAD, 2019)。档案馆在致力于发布部分信息的财团中进行合作,例如SNAC (Larson等人,2014),它发布在档案馆藏中发现的人员和组织的eac-cpf记录,或Europeana,它发布档案记录的元数据子集。此外,一些档案馆单独公布了他们的收集数据。

意大利人自然文化(IBC) 是最早尝试表示档案记录的本体的机构之一,并为开发用于浏览和探索图形数据的软件解决方案做出了贡献 (Mazzini和Ricci,2011)。多年来,该项目被重命名为ReLOAD,并且一些新的选定集合已被转换和集成。该项目的目标是体验LOD在改善最终用户 (公民,机构和公司) 的可访问性方面的好处,从而促进新应用程序的开发。不幸的是,这样的期望仍然被呈现为未来的努力 (Ricci, 2017)。

LOCAH项目,后来在链接生活项目中进行了改进 (LOCAH和Stevenson,2012;Browell, 2015) 一直是制作英国档案中心LOD目录的先驱。为了向档案的最终用户展示新技术带来的好处,推动了后续项目。与SNAC项目的合作产生了许多人们档案记录的可视化。作为尝试LOD的早期尝试,解决数据和技术问题是活动的核心,对成就的评估已被推迟。

英国国家档案馆 (Garmendia and Retter, 2021) 已根据上下文概念模型 (ric-cm) 中的记录以及受Matterhorn RDF模型启发的词汇组合,将其数据库移至泛存档LOD目录中 (Dubois and Wildi, 2019)。从编目员的角度来看,这种更改的主要优点之一是可以有效地表示,存储和检索其记录的出处和版本信息,这对于传统技术是不可能的。然而,尽管遗留数据已成功转换为RDF,但现有的编目和用户界面尚未被放弃。期望方面通过替换现有的遗留软件和不受支持的软件,减少重复,通过释放数据中未实现的潜力创造新的机会 (Garmendia和Retter 2021),以及与外部资源 (例如s Legislation.gov.uk,国家统计局,政府数据集和Wikidata) 的链接。

法国国家档案馆 (ANF) 开发了一种可重复使用的工具,根据ric-o (将EAD查找辅助工具和eac-cpf权限记录转换为RDF文件Francart等人,2021)。但是,GitHub存储库上仅提供了一些数据,并且没有提供用于查询数据的接口。ALEGORIA研究项目提供了一个RDF/ric-o数据集,该数据集来自ANF保存的航空照片集。同样,数据作为静态文件发布,但专门的多模式搜索引擎建立在照片之上,用于图像研究,并使用元数据提供上下文信息。

学术研究项目代表机构接管档案数据的转换和发布是相当普遍的,它们并不总是有能力将LOD目录集成到它们当前的工作流中,或者不能负担重新设计和替换它们的用户界面 (Daquino, 2021)。其他示例包括从档案文档,照片或元数据记录的全文开始的知识提取和知识图生成实验,例如葡萄牙国家档案馆的EPISA项目 (Varagnolo等人,2021;Koch等人,2023年),它提取了事件,并 (例外地) 根据cidoc-crm生成了一张图。主要未成年人项目是另一个国家项目,从葡萄牙报纸的新闻剪报中提取有关社会少数群体的信息 (马丁斯,科斯塔和拉马略,2021)。ARTchives项目旨在收集艺术史学家档案的档案描述,并使用Wikidata模型对其进行描述。参与该项目的学者已经尝试了数据挖掘和关系提取方法,以便为历史学家开发推荐系统 (Giagnolini等人,2023年)。不幸的是,大多数结果,无论是单个项目还是协作努力,都仍处于原型阶段。

与档案类似,照片档案提供了其收藏的层次结构的描述,但也包括单张照片及其主题的详细信息。在这方面,照片档案倾向于采用更接近图书馆和博物馆的标准,其重点是文物的 “社会传记” (Gosden,Larson和Petch,2007)。照片档案也有助于合作项目。2016年,Europeana项目报告说,它已经数字化了超过4800万张照片 (施耐德和温伯格,2020),根据Europeana数据模型进行描述,并向广大受众提供基本元数据。

自2013年以来,14个艺术历史照片档案馆一直在PHAROS联盟中积极合作,以发布其丰富的数据集合,并通过定制的集成平台 (Caraffa等人,2020)。在线平台 (Binkowski, 2022),基于研究空间的定制 (奥德曼和Tanase,2018) 收集了属于欧洲和北美档案馆的2000万张图像中的大约3张 (Binkowsky,2023年),它们同意利用博物馆词汇和本体,如cidoc-crm (Le Boeuf等人,2016) 和盖蒂词汇表 (Harpring, 2010) 和ICONCLASS (Brandhorst和Posthumus,2016)。由于纪实照片的主题是艺术品,并且艺术品元数据在满足顾客的询问时具有优先权,因此PHAROS合作伙伴档案馆积极与链接艺术项目 (Delmas-玻璃和桑德森,2020),它收集了来自世界各地几家博物馆的专业知识,为艺术品描述定义了一个共享的数据模型。此外,该项目还积极尝试新颖的图像相似性方法,因此可以通过IIIF促进跨档案和传播的编目和匹配任务 (Klic,2023年)。虽然一些照片档案馆也单独将其收藏发布为链接的开放数据,例如Zeri照片档案馆 (Daquino等人,2017),盖蒂研究收藏,1伯纳德·贝伦森的目录佛罗伦萨画家的素描(Klic等人,2017),大多数合作伙伴依靠PHAROS基础架构共享一个LOD目录,与他们的传统收藏管理系统分开。

另一个值得注意的例子是,作为PIA项目的一部分,瑞士民俗研究学会 (SSFS) 在摄影档案上所做的工作 (Cornut,Raemy和Spiess,2023)。照片元数据已转换为RDF/cidoc-crm,再次重用了链接的Art数据模型和IIIF标准。新创建的集合使用OmekaS平台发布2并应用计算机视觉方法对照片进行标注。

将其数据发布为LOD的单个照片档案的示例是有限的。西伯利亚SB RAS摄影档案 (Krayneva和Marchuk,2020) 创建了自己的基于本体的平台,名为SORAN 1957,为大约24,000张照片扫描提供服务。西班牙内战摄影档案 (Robledano-arillo,纳瓦罗-博尼利亚和cerdá-díaz,2020) 已经开发了一个本体来描述他们的目录,并产生了一个样本数据集来验证它,但是没有工作原型可供用户使用。链接的Stage Graph项目已根据另一个定制的本体论将来自巴登-符腾堡州国家档案馆的有关斯图加特州立剧院的约7000张黑白照片的数据转换为RDF (Tietz等人,2023年)。可以通过专用的Web应用程序和两个可视化工具访问数据,即.LODview和Vikus查看器。

Zeri & LODe项目

Zeri & LODe项目是一个试点项目,将Federico Zeri照片存档目录的子集转换为LOD (Daquino等人,2017)。艺术历史照片档案馆是PHAROS联盟的成员,它在早期阶段就尝试了语义Web技术,开发了本体原型,两个映射文档,数据集,以及与其他合作伙伴相关的相互链接选项。开发的资产和服务如下:

两个本体,分别称为F条目本体和OA条目本体,它们主要基于cidoc-crm,prov-o和SPAR本体。本体允许人们描述档案的结构,单个摄影文档,描绘的艺术品,归属船,艺术品出处,参考书目 (即e.,federico Zeri图书馆),参与对象生命周期及其作用的人员和组织。

两个映射文档分别解决了Zeri照片档案馆使用的术语方面和元数据标准的一致性 (即照片元数据集,艺术品元数据集,艺术家,摄影师和拍卖目录的权威文件) 到cidoc-crm术语中。

RDF数据集,在线发布并通过专用平台进行查询 (通过SPARQL端点) 和浏览 (通过LODview)。照片和艺术品的uri可以从当前的Zeri在线目录记录中链接并访问,以便在传统目录和RDF浏览体验之间进行平滑过渡。记录还包括指向多个机构 (ULAN,VIAF,Wikidata,geonames,ICONCLASS,AAT) 的链接。数据集的版本化副本可在机构存储库中用于长期保存。

Zeri & LODe项目与上述项目之间的特点和相似之处如下:

非本地LOD目录。该项目创建了一个非本地LOD目录,该目录与传统目录具有独立的生命,具有自己的接口和生命周期。这主要是档案代表要求的结果,他们还没有准备好用LOD本地编目软件或半静态数据目录代替当前的编目系统。

学术项目。由数字人文主义者,计算机科学家和领域专家组成的团队为原型的实现做出了贡献,因此具有很强的研究烙印。该原型已经运行了8年多,由博洛尼亚大学主持,到目前为止,它已经要求对软件基础设施进行更新和迁移到新机器进行重大干预。维护由博洛尼亚大学的数字人文高级研究中心授予,该中心确保了数据和开发的服务的长期保存。

研究侧重于概念方面。参与该项目的学者与档案工作者和艺术史学家共同设计了本体,以解决现有本体无法表示的档案数据的特殊性,因此将研究重点放在概念,描述性,方面。相关的新方面包括人与人之间的关系 (例如g.影响力) 、艺术品 (e.g.副本) 和不同性质的人工制品 (例如g.引文、图像分发)。当确定未来的作品将致力于在艺术史学家之间传播数据集时,cidoc-crm作为构建块的使用立即变得明显,谁是艺术历史照片档案中最重要的目标受众。为了描述存档和照片对象,重用了发布领域的标准。

数据传播服务有限。开发有限数量的用于传播RDF数据的服务 (即RDF浏览器和SPARQL端点) 是由于需要最小化维护费用,从而确保随着时间的推移,可持续的解决方案。此外,档案人员对当前目录的替代界面有不同的感觉,他们认为这可能会分散用户的注意力,而不是吸引新用户。

像其他项目一样,Zeri & LODe项目被语义网的承诺所感动 (Daquino等人,2017),这表明它是一个有吸引力的解决方案,原因有很多,即:

提高编目数据的质量。已经执行了昂贵的数据清理和标准化操作来提取要转换为RDF的干净数据。Zeri archive工作人员接受了一致使用编辑规则的培训,因此元数据提取方法不需要进行大量修订。然而,现有元数据标准的限制迫使编目人员 “不适当地” 使用一些元数据字段来记录多条信息 (因此需要明确的编辑规则来处理这种情况)。例如,专门用于支持艺术品归属的原因的字段包括一个受控术语 (例如g. “参考书目”) 和对相关文件的引用 (例如g.书目文本参考)。LOD的使用以及设计自己的新数据模型的可能性使编目人员可以释放此类隐藏信息的潜力并使其可以搜索。

记录对齐的视角。目前,Wikidata,IBC和意大利文化遗产部 (MIC) 已包含指向Zeri数据的明确链接然而,互连地址像人、地点和组织这样的实体,不包括文化对象 (例如照片中描绘的艺术品) 之间的对齐。因此,对账只是表面的,并不真正允许数据集之间的无缝过渡,也不允许任何机构通过自动从对齐的来源导入重要数据来丰富其数据。为了有效,必须在呈现重叠信息的数据源之间执行互连,例如其他PHAROS成员,其中相同艺术品的照片 (有时是相同的照片) 保存在多个研究所或博物馆目录中,其中包含有关照片中描绘的艺术品的详细信息。这将允许在目前不可能的机构馆藏中进行研究。

增加的能见度。Zeri数据和图像可在PHAROS研究平台,Europeana和CulturaItalia中获得,并且存档在ARTchives中进行了描述。这样的聚合器有助于提高机构的知名度,因为可以通过Web上的多个不可预测的入口点访问编目记录。虽然无法使用聚合器收集的信息 (例如上述平台中的用户分析) 确认此类声明,但我们收集有关Zeri数据使用情况的用户分析。分析显示,大约40% 的用户视图来自外部来源,而60% 的用户来自当前在线目录中的链接。此外,联盟中的协作使档案在机构网络中更加可见。合作促进了资助者眼中的信誉,因此增加了获得资金的机会,其他机构,鼓励他们参与合作项目,以及利益相关者,提出自己是可靠的创新领导者。

赋予开放数据的顾客和用户权力。网络上更高的可见性使档案能够吸引有兴趣在创意应用程序中访问和重用可用开放数据的学者,开发人员和公司。据我们所知,Zeri & LODe项目是一篇博士论文的推动者,五篇硕士论文,在国际文化遗产,数字人文,和语义网社区 (约100次引用),两个后续项目 (Daquino, 2019;Giagnolini等人,2023年),并且目前被意大利文化遗产部列为创建新的国家数字图书馆的黄金标准和要模仿的原型。目前,LOD目录也被用于数字人文硕士课程,作为学习数据可视化和数据分析方法的教材。大约有五个学生项目在呈现数据讲故事之旅的网站中利用数据集。但是,LOD目录的主动用户不包括艺术史学家,他们缺乏操纵数据和进行定量艺术史研究的技术技能。在这种程度上,历史学家仅限于机构提供的传统搜索界面。

请注意,在这些好处中,似乎没有改变传统技术的需要,这被认为是一个障碍。一方面,档案馆使用由网络机构开发的编目系统,该系统不允许导出数据,因此阻碍了向其他软件解决方案的平稳过渡,并包括根据档案管理员所需的信息系统量身定制的定制解决方案,这些解决方案很难在新解决方案中重现。另一方面,将LOD目录集成到当前系统中既麻烦又不可行,因为它需要进行广泛的修订。

最后,编目人员的个人成长和数据素养技能的获得可以被认为是该项目的一个很好的副产品。数字人文主义者,计算机科学家和档案人员之间发生的知识转移过程使后者能够继续进行跨学科研究 (例如,Giagnolini等人,2023年),并在广泛使用语义Web技术的新项目中积极合作,例如PHAROS。同样,可以将Zeri数据集用于教学目的,并通过一个著名的例子来解释文化遗产生态系统中文件相互联系的复杂性,对于新一代的数字人文主义者来说,这是一个宝贵的机会,他们可以更好地欣赏定量艺术史和摄影史的表达。

附加值和壁垒

从前面几节概述的总体情况来看,很明显,语义网的承诺对那些努力为顾客提供结构化复杂信息并希望允许他们通过直观界面进行复杂研究的机构非常有吸引力。

这方面,跨机构的数据集成和记录链接似乎是链接开放数据所实现的一个值得赞赏的功能,因为它们有效地有助于完成文化机构的使命,即支持知识发现的顾客 (LOCAH和Stevenson,2012;Ricci, 2017;Garmendia and Retter, 2021)。特别是,数据集成为信息检索和分析工具的开发提供了新的机会-理想情况下可以利用来自不同数据源的信息-并且可以弥补不可避免地影响各个机构的数据质量问题,合并属于多个源的 (部分) 信息。在这种程度上,机构意识到执行对齐所需的昂贵的数据清理工作是一项必要的繁琐活动,它阻止用户自己手动完成。因此,防止了数据重用中的一个重要因素。

项目似乎还邀请了开发人员,利益相关者和公民的未定义受众,以创造性地重用其开放数据,开发应用程序并执行传统技术无法实现的研究。然而,文献并没有显示出许多这样的项目的例子,在这些项目中,外行人,人文主义者和文化遗产机构的代表出于他们的 (研究) 目的自主操纵LOD。相反,总是需要多学科团队,项目主要是在学术界开发的,它们需要资源来追求和维护。然后,我们可以假设 (链接) 开放数据商业模式提供的广泛机会只有少数精通技术的人才能获得,他们慷慨地支持人文主义者使用定量方法理解和重新定义他们的研究问题,并根据结果管理他们的期望。学术项目的一个共同特征是,一旦失去研究触发因素,这些项目就会被驳回,并且无法确保长期维护。

事实上,上面勾勒的景观表明,大多数此类项目仍处于原型阶段,LOD支持的高级应用程序尚未开发。例如,学生项目主要解决数据的一个子集,旨在回答一个或多个相当具体的研究问题,他们通过数据分析和可视化来做到这一点。然而,这些项目的结果被分享为故事,博客文章,或者不允许读者操纵和过滤用于分析的数据的网站,只能被动地欣赏 “讲故事的人” 想要传达的信息。传统技术,数据质量问题以及对标准和流行本体的高度鼓励的一致性也构成了障碍,这似乎阻碍了用于传播数据的复杂解决方案的开发。

尽管语义Web技术已经存在了二十年,但关于如何重用本体来描述文化遗产的争论仍然是开放的,并且不同的方法已经到位。努力通常采取社区的形式 (例如PHAROS和Linked Art),成员同意妥协,以实现数据集成的伟大目标 (Daquino等人,2017;Delmas-玻璃和桑德森,2020;Koch等人,2023年;Cornut,Raemy和Spiess,2023)。在许多其他情况下,小型项目决定开发自己的本体 (Daquino等人,2017;Dubois and Wildi, 2019;Krayneva和Marchuk,2020;Robledano-arillo,纳瓦罗-博尼利亚和cerdá-díaz,2020;Tietz等人,2023年),以免损害数据质量,能够管理本体中的更改,并加快项目开发速度。尽管如此,关于本体论方面的永无止境的讨论增加了人们对语义网出现之前被忽视的一个话题的认识,即,描述和发布来源信息,以此来促进对数据用户的信任,并为记录保存行为提供有价值的见解 (Garmendia and Retter, 2021)。不幸的是,本体重用实践的分散景观也影响了这一主题,并且这是解决语义Web技术作为文化机构日常实践的重要障碍。

因此,大多数项目都将其数据作为链接开放数据的发布作为一个直接的里程碑,推迟将有效地从数据中获取价值的高级应用程序用于后续项目。在某些情况下,无法负担其数据转换的机构已将此任务委托给文化遗产整合者 (例如g. Europeana,PHAROS,CulturaItalia),因此还委托开发本体和应用程序以利用此类数据。在这两种情况下 (个人或汇总发布),产生的LOD目录通常是新的,独立的资产,与原始目录分开存在,通常会在小型机构中造成数据源的错位 (De Boer等人,2012)。此外,有人认为,聚合器并非旨在支持广泛的用户信息需求。

结论

总之,从语义Web在档案馆中采用的早期阶段 (LOCAH和Stevenson,2012) 似乎很清楚只是发布关联数据不足以实现承诺的好处,而必须做大量工作来展示如何使用数据,并授权一个超越数字人文主义者和计算机科学家特权群体的数据重用者社区。过去几年的研究更多地集中在可重用工具的开发上,这些工具简化了链接开放数据的创建 (Daquino等人,2023年;奥德曼和Tanase,2018),以及可视化和叙述这些数据的附加值 (Renda等人,2023年)。虽然一些解决方案已在文化遗产机构之间达成非正式共识 (例如g. LODview),学者们承认,在没有扎实的技术方面知识的情况下,缺乏令人满意的手段来利用链接的开放数据 (霍金斯,2021;陈,2023年),并抱怨缺乏慷慨的接口 (Whitelaw, 2015) 这将允许偶然发现,并为公民和非专业用户创造一个更具包容性的环境。更一般地说,有人认为,关于用户需求的知识仍然很少。

考虑到人工智能技术 (知识图谱、深度学习、自动化知识库构建、语言模型、计算机视觉和多模态) 的最新进展,我们可以预期,这里提出的许多挑战将使用更强大,更有效的手段来解决 (如果没有解决) (Alam等人,2023年),展望未来,文化人工智能的使用将摆脱技术遗留的负担,并且可以将精力更有效地用于创意应用。

备注

https://www.getty.edu/research/collections/,最后一次访问2024年8月20日。⮭https://omeka.org/s/,最后一次访问2024年8月20日。⮭http:// data.fondazionezeri.unibo.it,最后一次访问2024年8月20日。⮭

致谢

我感谢Federico Zeri基金会的所有工作人员在我整个研究期间的合作和友好支持。特别感谢Francesca Mambelli在尝试新技术方面的不断帮助和真诚努力。

利益冲突

提交人没有要声明的竞争利益。

论文原文:https://doi.org/10.16995/olh.15232

如有侵权请联系我们hongxx0810@qq.com

页脚预览