[ 20 ]GEDCOM 格式已成为家谱信息交换的重要标准。[30]在此,单独的信息被分配给所谓的标签,其功能与数据字段/列类似(例如,标签 OCCU 描述了一种职业)。但 GEDCOM 数据也存在问题:虽然它是结构化的,但没有为所有信息提供单独的标签。尽管 GEDCOM 5.5.1 中存在标准[31] ,但它并不总是指定可以将哪些内容分配给标签。例如,标准要求在指定位置时用逗号分隔行政结构级别。然而,用户不必遵守这一点,而是可以按照自己的意愿和理解方式填写这些›自由文本字段‹。
[ 21 ]另一个标准是 Gedbas4all。[32]与 GEDCOM 不同,在 GEDCOM 中,个人信息是组合在一起的,但底层来源难以追踪,而该模型基于记录之间的链接,这些记录以后可以彼此分离。在数据模型中有一些变量也已经被明确定义。有一个详细的标准化,特别是时间信息。[33]然而,数据模型并不包含所有可能变量的详细解释。此外,它尚未得到广泛的应用。
[ 22 ]事实证明,没有普遍有效且足够详细的系统来基于众多变量为记录链接 荷兰电报数据 定义许多可能的键。因此,作为算法开发的一部分,下面定义了可能的数据字段。
3. 记录链接算法
[ 23 ]虽然上面列出的算法对于各自的应用似乎是有效的,但它们并不能应用于所有的人物志资料。这里也无法开发出适用于所有德语来源的普遍有效的解决方案。然而,所提出的解决方案已经涵盖了许多可能的情况,并为进一步的调整提供了合适的基础。因此,结果不仅适合单个应用程序,而且可以适应各种传记来源(尤其是那些具有高密度家谱相关信息的来源)。本文还讨论了所介绍方法的另一个缺点,这些方法主要应用于英语、挪威语或荷兰语数据集:每种语言都有必须考虑的特性,德语也不例外。因此,下面介绍的算法只与德语数据兼容,并考虑到德语的语音特性。但是,也可以通过集成其他语言的规则来进行调整。由于以前不存在以这种方式设计的算法,因此这里弥补了一个研究空白。基于当前的研究现状,它特别使用了已被证明适合所提出的解决方案的指标和方法。