的源文本构成的改变作为内部
Posted: Thu Feb 06, 2025 6:57 am
[ 6 ]自从语言学转向文本为单位以来,分词方法也被应用于句子级别以上,例如识别句子以上的布局和文本结构,即段落、章节等。这种文本分割方法在处理数字语料库时发挥着尤为重要的作用。在数字语言学中,单词和句子级别的切分过程称为标记化。这包括识别句子边界(句子标记或句子拆分)和确定日期(例如,1989 年 11 月 9 日)和所谓的字母(例如,美国)以及在单词级别对单位进行标记(例如,识别简单词素(例如,房子)以及复合词(例如,船屋或含维生素 B)作为标记)。从标记化意义上来说,切分决策通常直接依赖于字符串作为单位的可识别性。例如,最简单的假设是,将空格字符假设为 token 边界,并通过连接出现的标点符号作为 token 边界进行补充。构成语言单词的字母序列末尾的逗号或句号被定义为标记边界,空格也是如此。此规则也有例外,例如缩写的情况,头衔如Dr.或字母组合(例如REM)是使用规则扩展定义的。标记化算法是通过计算实现的,例如,基于所谓的正则表达式并辅以针对特定应用场景的规则。这方面的一个例子是将带有概念口语元素的话语进行标记化,如社交媒体通信(例如,由完整动词 + 人称代词组成的结构,如schreibste和所谓的动作词,如 *grins*或beidirseinwill,以及以特殊字符作为单词一部分的结构,如带有主题标签#Urlaub的形式)或电子邮件地址和 URL)。这种标记化算法的自动实现通常用于基于规则的标记化过程,并由机器学习方法补充,并且在模型或训练数据与要标记化的数据的复杂性之间非常好的拟合的情况下可以实现超过 99%( F1 分数)的高精度[9] ,但是在拟合度较差的情况下,精度也会显著降低。标记化过程直接依赖于要标记化的文本数据的属性以及标记化过程建模的质量或适合度。[10]
2.2 文学研究中的细分
[ 7 ]文学文本分析通常处理比语言学大得多的文本单元。在叙述文本的分析中,一个单元通常甚至包括整个文本,因此以整个系列的文本为焦点的情况并不少见,例如作者的完整作品或通常被认为是示范性的文本集合,例如B. 一种运动或流派。虽然个案分析中包括章节和类似的结构单元,但几乎没有分析中通常使用的常规文本细分。
[ 8 ]当我们回顾文学研究的基本著作时,这一点就变得显而易见。因此,《文学研究手册》共分三卷,分别论述对象和基本概念(第 1 卷)、方法和理论(第 2 卷)以及机构和实践领域(第 3 卷),但其中没有关于分段作为一种程序的内容,也没有关于分段作为文本单位的内容。[11]第一卷和第二卷确实在戏剧和诗歌的背景下讨论了分段问题,并在每种情况下提到了典型的分段。[12] 然而,这并没有明确说明概念或程序。另一方面,对于叙述文本,分析中使用的片段根本不确定,但文本至少隐含地呈现为由片段组成。此外,就像在抒情文本的描述中一样,建议进行语义分割(例如根据情节或人物),但这并没有相对于文本分割进行系统地描述。[13]文学研究中片段和分段的相关性较低,还因为在德国文学研究的标准参考书《德国文学学实录》中没有单独的条目[14] 。因此,对于散文文本(某种程度上对于所有文本而言),文学科学的文本方法主要是整体性的,因为它不承认任何普遍接受的细分。
[ 9 ]散文文本缺乏分割对于计算文学研究领域的自动化来说是一个问题。与大多数语言问题不同,这里不能使用标准化句段,尽管许多程序都是基于句段的。无论是在确定作者身份、计算被理解为一种主题结构的主题、进行情感分析,还是在确定语义相似性的方法(因为它们目前在分布式语义中很流行):这些方法都在不同程度上基于将文本划分为更小的单元。在这样做时,他们会根据自己是否致力于文本搜索范式或文本抽象表示而在非常不同的层面上进行细分。对于情感分析等方法,可以假设对所使用的单位进行文学科学的确定——例如作为与角色相关的片段或情节的分割——将导致方法的显著改进。其他方法已经将文本暂时划分为相等词长的片段,但可能无法充分发挥其潜力。例如,这适用于主题建模,它是专门为结构可比较的文本或文本单元而设计的。由于我们到目前为止都是根据单词数量来决定片段的,因此没有考虑文本结构。
3. 五个例子
3.1 版面和文本结构的分割
[ 10 ]除了基于分割方法的内容相关的图像研究[15]之外,布局元素和相应文本结构的分割对于光学字符识别 (OCR)、手写识别(HWR)或手写文本识别(HTR)等文本识别方法也至关重要。此外,这种分割还可以用于分析写作过程[16],并为文本传输过程(即使性质非常复杂)提供新的见解。[17]雷纳·赫佐格(Rainer Herzog)描述了各种程序的数学和信息学方法论基础。[18]从这个角度来看,图像表面文本单元的分割是一个长期被认可的挑战,正在被深入研究。对现代或历史印刷品以及各种手稿的分析根据其性质和保存状态有不同的要求。
[ 11 ]亚里士多德的《论解释》的传播例子被认为受到了严重“污染”,以至于研究人员在一生中合理或可用的 尼日利亚电报数据 时间内无法对其进行解读[19] 。该例子旨在表明,将布局和文本结构划分为基本文本和副文本,可以为传播和接受的历史提供新的见解。在这样做时,既要考虑文本单元及其布局设计的变化作为外部转移(物质结果),又要考虑由此产生转移(认识过程),因为两者密不可分。因此,分割可以从表面(布局)和深度(文本理解)分析文本动态。
[ 12 ]这种对文本或文本传统的分割问题在物质转向的过程中逐渐成为焦点, [20]但也得到了进一步的关注,特别是通过数字化可能性。一方面,可以(半)自动地确定广泛传统的片段,另一方面,可以清晰地可视化这些片段及其层次。此外,自动(预)分割和智能(深度)注释以及定量和定性方法的混合方法开辟了更好的分析可能性,正如我们在基础设施项目和 SFB 980 ›Episteme in Motion‹ 的客户项目中的工作所表明的那样。[21]在传播历史的进程中,解释中知识体系的结构和材料组织不断发生变化:各种类型和形式的行间或边注、注释、图表和评论可以以相同、相似或经过大幅修改的形式纳入新创建的抄本中,直至将其纳入原始文本。这些单元的细分及其清晰的分类意味着可以比较这些单元的版本并检测污染。[22]
[ 13 ]即使在材料文本表面领域,数字建模也会通过在细分的第一步中对研究对象的相关属性进行分类和记录,对研究问题和研究结果产生影响。理想情况下,这发生在文本和信息科学家之间的协商过程中,以便模型上的联合工作能够促进关于该主题的知识的进步以及类别的互操作性。
2.2 文学研究中的细分
[ 7 ]文学文本分析通常处理比语言学大得多的文本单元。在叙述文本的分析中,一个单元通常甚至包括整个文本,因此以整个系列的文本为焦点的情况并不少见,例如作者的完整作品或通常被认为是示范性的文本集合,例如B. 一种运动或流派。虽然个案分析中包括章节和类似的结构单元,但几乎没有分析中通常使用的常规文本细分。
[ 8 ]当我们回顾文学研究的基本著作时,这一点就变得显而易见。因此,《文学研究手册》共分三卷,分别论述对象和基本概念(第 1 卷)、方法和理论(第 2 卷)以及机构和实践领域(第 3 卷),但其中没有关于分段作为一种程序的内容,也没有关于分段作为文本单位的内容。[11]第一卷和第二卷确实在戏剧和诗歌的背景下讨论了分段问题,并在每种情况下提到了典型的分段。[12] 然而,这并没有明确说明概念或程序。另一方面,对于叙述文本,分析中使用的片段根本不确定,但文本至少隐含地呈现为由片段组成。此外,就像在抒情文本的描述中一样,建议进行语义分割(例如根据情节或人物),但这并没有相对于文本分割进行系统地描述。[13]文学研究中片段和分段的相关性较低,还因为在德国文学研究的标准参考书《德国文学学实录》中没有单独的条目[14] 。因此,对于散文文本(某种程度上对于所有文本而言),文学科学的文本方法主要是整体性的,因为它不承认任何普遍接受的细分。
[ 9 ]散文文本缺乏分割对于计算文学研究领域的自动化来说是一个问题。与大多数语言问题不同,这里不能使用标准化句段,尽管许多程序都是基于句段的。无论是在确定作者身份、计算被理解为一种主题结构的主题、进行情感分析,还是在确定语义相似性的方法(因为它们目前在分布式语义中很流行):这些方法都在不同程度上基于将文本划分为更小的单元。在这样做时,他们会根据自己是否致力于文本搜索范式或文本抽象表示而在非常不同的层面上进行细分。对于情感分析等方法,可以假设对所使用的单位进行文学科学的确定——例如作为与角色相关的片段或情节的分割——将导致方法的显著改进。其他方法已经将文本暂时划分为相等词长的片段,但可能无法充分发挥其潜力。例如,这适用于主题建模,它是专门为结构可比较的文本或文本单元而设计的。由于我们到目前为止都是根据单词数量来决定片段的,因此没有考虑文本结构。
3. 五个例子
3.1 版面和文本结构的分割
[ 10 ]除了基于分割方法的内容相关的图像研究[15]之外,布局元素和相应文本结构的分割对于光学字符识别 (OCR)、手写识别(HWR)或手写文本识别(HTR)等文本识别方法也至关重要。此外,这种分割还可以用于分析写作过程[16],并为文本传输过程(即使性质非常复杂)提供新的见解。[17]雷纳·赫佐格(Rainer Herzog)描述了各种程序的数学和信息学方法论基础。[18]从这个角度来看,图像表面文本单元的分割是一个长期被认可的挑战,正在被深入研究。对现代或历史印刷品以及各种手稿的分析根据其性质和保存状态有不同的要求。
[ 11 ]亚里士多德的《论解释》的传播例子被认为受到了严重“污染”,以至于研究人员在一生中合理或可用的 尼日利亚电报数据 时间内无法对其进行解读[19] 。该例子旨在表明,将布局和文本结构划分为基本文本和副文本,可以为传播和接受的历史提供新的见解。在这样做时,既要考虑文本单元及其布局设计的变化作为外部转移(物质结果),又要考虑由此产生转移(认识过程),因为两者密不可分。因此,分割可以从表面(布局)和深度(文本理解)分析文本动态。
[ 12 ]这种对文本或文本传统的分割问题在物质转向的过程中逐渐成为焦点, [20]但也得到了进一步的关注,特别是通过数字化可能性。一方面,可以(半)自动地确定广泛传统的片段,另一方面,可以清晰地可视化这些片段及其层次。此外,自动(预)分割和智能(深度)注释以及定量和定性方法的混合方法开辟了更好的分析可能性,正如我们在基础设施项目和 SFB 980 ›Episteme in Motion‹ 的客户项目中的工作所表明的那样。[21]在传播历史的进程中,解释中知识体系的结构和材料组织不断发生变化:各种类型和形式的行间或边注、注释、图表和评论可以以相同、相似或经过大幅修改的形式纳入新创建的抄本中,直至将其纳入原始文本。这些单元的细分及其清晰的分类意味着可以比较这些单元的版本并检测污染。[22]
[ 13 ]即使在材料文本表面领域,数字建模也会通过在细分的第一步中对研究对象的相关属性进行分类和记录,对研究问题和研究结果产生影响。理想情况下,这发生在文本和信息科学家之间的协商过程中,以便模型上的联合工作能够促进关于该主题的知识的进步以及类别的互操作性。