可以将其与图形数据库
Posted: Sat Feb 08, 2025 3:07 am
2.2.1 代理
代理是指文中提到的任何类型的实体。[12]代理类型的非详尽列表包括人物、地点和物体(自然和人造)。[13]可以表示组织、家庭和其他团体等集体代理, [14]以及 代理在某一时间点的各个方面。 [15]有关代理的元数据可以记录在关联的属性节点中,这些节点根据需要在界面中动态定义。例如,可以记录一个人的性别、身高、体重等,并根据需要创建新的属性类型。[16]
图 2:洛伦佐·德·美第奇的性别记录作为属性记录。如果需要,这甚至可以通过属性注释链接回文本中的语句。[Neill / Kuczera 2019]
图 2:洛伦佐·德·美第奇的性别记录作为属性记录。如果需要,这甚至可以通过属性注释链接回文本中的语句。[Neill / Kuczera 2019]
代理还可以通过动态创建的关系相互关联。(在 Codex 中,这些被称为元关系,其原因将在后面关于此实体的部分中讨论。)下面的示例显示了洛伦佐·德·美第奇的一些家谱关系,以及他与临时代理集体的联系,例如他在 1471 年作为六名佛罗伦萨大使驻罗马,以及在 1483 年作为另一名驻罗马大使馆。
图 3:来自 ›Codex‹ 的屏幕截图,其中列出了洛伦佐·德·美第奇在系统中的关系。[Neill / Kuczera 2019]
图 3:来自《Codex》的截图,其中列出了系统中洛伦佐·德·美第奇的关系。[Neill / Kuczera 2019]
2.2.2 索赔
主张是指关于一个或多个施动者的陈述,通常与地点和时间有关。主张本质上是一种通常以事件(事件主张)形式出现的陈述,但也可以代表一种想法或观点。Codex中的主张实体不被视为事实陈述(无论是否得到证实),而是一种类似于带有介词施动者的动词短语的数据结构。例如,Luca Landucci 在 1492 年 4 月 8 日的日记中写道“Lorenzo de' Medici 死于 Careggi 的庄园”,在 Codex 中被建模为“(主题)Lorenzo de' Medici,(事件)死亡”,“(在)Careggi”,在 Codex 界面和 Neo4j 数据库浏览器中可视化,如图 4和图 5所示。[17] 我们的方法不是断言该陈述是否报道了事实,而只是允许编辑者注释该陈述。
图 4:Luca Landucci 在 Codex 界面中对 Lorenzo de' Medici 之死的事件声明。[Neill / Kuczera 2019]
图 4:Luca Landucci 在 Codex 界面中对 Lorenzo de' Medici 之死的事件声明。[Neill / Kuczera 2019]
图 5:Neo4j 浏览器中上述事件声明作为节点和边的表示。蓝色节点是 (:Claim);红色节点是 (:Agent);绿色节点是 (:Concept);黄色节点是 (:Time)。[Neill / Kuczera 2019]
图 5:Neo4j 浏览器中上述事件声明作为节点和边的表示。蓝色节点是 (:Claim);红色节点是 (:Agent);绿色节点是 (:Concept);黄色节点是 (:Time)。[Neill / Kuczera 2019]
2.2.3 文本
Codex 中的文本实体由纯文本和一组对立属性组成。[18]为方便起见,可以为文本分配一个“类型”来表明其功能(例如“正文”、“脚注”、“边注”等),但对于存储的文本类型没有任何限制。因此,文本可以包含尽可能多或尽可能少的源文本。以 Luca Landucci 日记为例,每个日记条目(源文本中每页有多个)都存储在单独的文本节点中,而整个米开朗基罗的每封信都存储在文本节点中。[19]表示注释用于标记与源文本相对应的文本部分(例如,页面、列等),结构注释可用于将文本链接到代表出版物任意部分的结构实体(例如,文本所属的章节)。
Codex 中的文本注释是一种将文本实体中的文本区域与另一个文本实体相关联的注释。文本注释有两种注释拓扑结构:它们可以像大多数注释一样应用于文本区域;也可以将它们“隐形地”插入字符之间。[20]我们可以将这些拓扑结构视为一维和零维 注释。[21]需要记住的是,零维注释也用于表示 连字符注释;在文本注释的情况下,它们可以用作编辑者希望在文本中定位的脚注编号,但不希望将其包含在文本本身中。
2.2.4 元关系
元关系实体是代理之间的关系,具有许多特征,
它在 Codex 界面中是动态定义的。我们发现,以临时方式创建新关系类型的能力对于捕捉文本中关系的流动性非常有价值。当关系类型的选择被硬连线到程序中时,创建新的关系类型会变得繁重;让用户在界面中自由创建它们会鼓励自发创建更适合用途的关系类型;
它是双向的,这意味着用户可以指定关系的两个方向(例如,“父母”/ 阿联酋电报数据 孩子”),而不必被迫采用图边强加的单一方向(例如,“父母”)。这鼓励用户从整体关系的角度思考 - 例如,“亲子关系” - 而不是强迫他们任意选择单一关系来暗示表示双向关系。[22]在构建 Cypher 查询时,这样做的一个优点是,可以找到代理在元关系中的参与,而无需考虑他们在关系中的角色,尽管该角色已被记录下来,并且仍然可以根据需要明确查询;[23]
它们可以在层次结构中组合,从而有效地将关系本身视为图形。例如,可以定义一个总体关系类型,如“人际关系”,并在其下嵌套下属类型,如“社会关系”、“家庭关系”、“职业关系”等,从而允许在抽象级别查询代理(例如人)之间的关系。除了仅限于查找某人的“朋友”,还可以扩展查询以检索“同事”、“熟人”、“知己”等。
因此,元关系注释是指代元关系实体的注释。其实际目的是允许编辑者从文本中注释代理关系,从而扩展代理之间的关系网络。最终,此类网络允许用户根据网络中建立的代理关系找到文本之间的间接联系。在图 6中,“Antonio 的儿子”下方的橙色线是元关系注释,表示 Luca Landucci 是 Antonio Landucci 的儿子这一陈述的来源。
图 6:Codex 界面中的元关系注释示例(橙色下划线)。[Neill / Kuczera 2019]
图 6:Codex 界面中的元关系注释示例(橙色下划线)。[Neill / Kuczera 2019]
2.2.5 概念
Codex 中的概念是一个类或类型,作为一个整体,是系统中通用本体的一部分。请注意,本体不是“通用”或“世界”本体,而只是作为子图与其他实体类型(如代理、声明、元关系等)共享,以提供通用、可重复使用的引用。概念子图实际上不是构成通用的自上而下的本体,而是由用户定义的任意数量的开放或个性化本体组成。[24] Codex 已经包含许多个性化本体,例如事件、地点、关系、职业等类型的本体。例如,声明实体引用概念子图的“事件”子集。概念“事件”是事件本体的根节点,包含项目领域中发生的所有类型(和子类型)的事件。[25]请注意,如果需要,概念可以有多个父级,因为图不受树的限制。通过 Codex 界面可以轻松更改本体的结构(例如,将子概念移至不同的父级),这意味着本体结构可以保持流动,以适应对项目领域不断发展的理解。
代理是指文中提到的任何类型的实体。[12]代理类型的非详尽列表包括人物、地点和物体(自然和人造)。[13]可以表示组织、家庭和其他团体等集体代理, [14]以及 代理在某一时间点的各个方面。 [15]有关代理的元数据可以记录在关联的属性节点中,这些节点根据需要在界面中动态定义。例如,可以记录一个人的性别、身高、体重等,并根据需要创建新的属性类型。[16]
图 2:洛伦佐·德·美第奇的性别记录作为属性记录。如果需要,这甚至可以通过属性注释链接回文本中的语句。[Neill / Kuczera 2019]
图 2:洛伦佐·德·美第奇的性别记录作为属性记录。如果需要,这甚至可以通过属性注释链接回文本中的语句。[Neill / Kuczera 2019]
代理还可以通过动态创建的关系相互关联。(在 Codex 中,这些被称为元关系,其原因将在后面关于此实体的部分中讨论。)下面的示例显示了洛伦佐·德·美第奇的一些家谱关系,以及他与临时代理集体的联系,例如他在 1471 年作为六名佛罗伦萨大使驻罗马,以及在 1483 年作为另一名驻罗马大使馆。
图 3:来自 ›Codex‹ 的屏幕截图,其中列出了洛伦佐·德·美第奇在系统中的关系。[Neill / Kuczera 2019]
图 3:来自《Codex》的截图,其中列出了系统中洛伦佐·德·美第奇的关系。[Neill / Kuczera 2019]
2.2.2 索赔
主张是指关于一个或多个施动者的陈述,通常与地点和时间有关。主张本质上是一种通常以事件(事件主张)形式出现的陈述,但也可以代表一种想法或观点。Codex中的主张实体不被视为事实陈述(无论是否得到证实),而是一种类似于带有介词施动者的动词短语的数据结构。例如,Luca Landucci 在 1492 年 4 月 8 日的日记中写道“Lorenzo de' Medici 死于 Careggi 的庄园”,在 Codex 中被建模为“(主题)Lorenzo de' Medici,(事件)死亡”,“(在)Careggi”,在 Codex 界面和 Neo4j 数据库浏览器中可视化,如图 4和图 5所示。[17] 我们的方法不是断言该陈述是否报道了事实,而只是允许编辑者注释该陈述。
图 4:Luca Landucci 在 Codex 界面中对 Lorenzo de' Medici 之死的事件声明。[Neill / Kuczera 2019]
图 4:Luca Landucci 在 Codex 界面中对 Lorenzo de' Medici 之死的事件声明。[Neill / Kuczera 2019]
图 5:Neo4j 浏览器中上述事件声明作为节点和边的表示。蓝色节点是 (:Claim);红色节点是 (:Agent);绿色节点是 (:Concept);黄色节点是 (:Time)。[Neill / Kuczera 2019]
图 5:Neo4j 浏览器中上述事件声明作为节点和边的表示。蓝色节点是 (:Claim);红色节点是 (:Agent);绿色节点是 (:Concept);黄色节点是 (:Time)。[Neill / Kuczera 2019]
2.2.3 文本
Codex 中的文本实体由纯文本和一组对立属性组成。[18]为方便起见,可以为文本分配一个“类型”来表明其功能(例如“正文”、“脚注”、“边注”等),但对于存储的文本类型没有任何限制。因此,文本可以包含尽可能多或尽可能少的源文本。以 Luca Landucci 日记为例,每个日记条目(源文本中每页有多个)都存储在单独的文本节点中,而整个米开朗基罗的每封信都存储在文本节点中。[19]表示注释用于标记与源文本相对应的文本部分(例如,页面、列等),结构注释可用于将文本链接到代表出版物任意部分的结构实体(例如,文本所属的章节)。
Codex 中的文本注释是一种将文本实体中的文本区域与另一个文本实体相关联的注释。文本注释有两种注释拓扑结构:它们可以像大多数注释一样应用于文本区域;也可以将它们“隐形地”插入字符之间。[20]我们可以将这些拓扑结构视为一维和零维 注释。[21]需要记住的是,零维注释也用于表示 连字符注释;在文本注释的情况下,它们可以用作编辑者希望在文本中定位的脚注编号,但不希望将其包含在文本本身中。
2.2.4 元关系
元关系实体是代理之间的关系,具有许多特征,
它在 Codex 界面中是动态定义的。我们发现,以临时方式创建新关系类型的能力对于捕捉文本中关系的流动性非常有价值。当关系类型的选择被硬连线到程序中时,创建新的关系类型会变得繁重;让用户在界面中自由创建它们会鼓励自发创建更适合用途的关系类型;
它是双向的,这意味着用户可以指定关系的两个方向(例如,“父母”/ 阿联酋电报数据 孩子”),而不必被迫采用图边强加的单一方向(例如,“父母”)。这鼓励用户从整体关系的角度思考 - 例如,“亲子关系” - 而不是强迫他们任意选择单一关系来暗示表示双向关系。[22]在构建 Cypher 查询时,这样做的一个优点是,可以找到代理在元关系中的参与,而无需考虑他们在关系中的角色,尽管该角色已被记录下来,并且仍然可以根据需要明确查询;[23]
它们可以在层次结构中组合,从而有效地将关系本身视为图形。例如,可以定义一个总体关系类型,如“人际关系”,并在其下嵌套下属类型,如“社会关系”、“家庭关系”、“职业关系”等,从而允许在抽象级别查询代理(例如人)之间的关系。除了仅限于查找某人的“朋友”,还可以扩展查询以检索“同事”、“熟人”、“知己”等。
因此,元关系注释是指代元关系实体的注释。其实际目的是允许编辑者从文本中注释代理关系,从而扩展代理之间的关系网络。最终,此类网络允许用户根据网络中建立的代理关系找到文本之间的间接联系。在图 6中,“Antonio 的儿子”下方的橙色线是元关系注释,表示 Luca Landucci 是 Antonio Landucci 的儿子这一陈述的来源。
图 6:Codex 界面中的元关系注释示例(橙色下划线)。[Neill / Kuczera 2019]
图 6:Codex 界面中的元关系注释示例(橙色下划线)。[Neill / Kuczera 2019]
2.2.5 概念
Codex 中的概念是一个类或类型,作为一个整体,是系统中通用本体的一部分。请注意,本体不是“通用”或“世界”本体,而只是作为子图与其他实体类型(如代理、声明、元关系等)共享,以提供通用、可重复使用的引用。概念子图实际上不是构成通用的自上而下的本体,而是由用户定义的任意数量的开放或个性化本体组成。[24] Codex 已经包含许多个性化本体,例如事件、地点、关系、职业等类型的本体。例如,声明实体引用概念子图的“事件”子集。概念“事件”是事件本体的根节点,包含项目领域中发生的所有类型(和子类型)的事件。[25]请注意,如果需要,概念可以有多个父级,因为图不受树的限制。通过 Codex 界面可以轻松更改本体的结构(例如,将子概念移至不同的父级),这意味着本体结构可以保持流动,以适应对项目领域不断发展的理解。