次在调查的这个阶段

A widely recognized collection for machine learning tasks.
Post Reply
Bappy11
Posts: 353
Joined: Sun Dec 22, 2024 6:02 am

次在调查的这个阶段

Post by Bappy11 »

2.3 虚构叙事文本中概括的操作化
[ 17 ]上一节中解释的标签集是出于计算动机的,因此仅限于某些语义或句法形式。由于我们事先并不清楚哪些形式的概括与叙事学问题相关,因此这种纯粹以形式为导向的方法并不适用于虚构叙事文本。从一开始就排除调查中的一些概括性陈述可能会有风险,从而无法达到研究目标。此外,如果要回答历时叙事学研究问题,这里介绍的标记器还必须能够在较旧的语言层面或非规范表达上运行,这是一个困难。

[ 18 ]注释概括的三个主要挑战可概括如下:第一个困难是标记者必须能够识别 1600 年以后出版的文本中的概括。尤其是在较旧的文本中,不仅出现了各个语言层次的典型词汇表达和句法结构,而且还可以观察到大量复杂的、有时是多重递归嵌入的句子。这不仅是德语的结构所致,也是虚构叙事文本的特点。详细识别这些文本中的限制词、范围和量词并对其进行充分注释是一项艰巨而耗时的任务,同时也要求注释者接受高水平(语言)培训。示例(14)可简要说明这一点:

[ 19 ]
(14)如果我的女儿露西安娜,为世界而生,为世界而形成,[...];如果她以自己行为的自由、舞姿的优雅、谈吐的得体使自己与众不同,并以自己与生俱来的支配天性使自己成为小圈子里的女王,如果这所学校的校长把她看作现在才在她的手下蓬勃发展的小神,将为她带来荣誉,赢得她的信任,并吸引其他年轻人的涌入,如果 [...]:那么,她最后提到的关于奥蒂莉的,另一方面,只是一个又一个的借口 [...]。[17]

[ 20 ]例 (14) 中由if引导的条件从句显然对由so和 thus引导的从句起到了限制符的作用, 只对一个范围单位起作用。然而,尚不清楚这里量化的陈述是否串在一起,或者各个限制器是否形成一个单元。
概括与定量数 巴基斯坦电报数据 据收集过程中的叙事学问题相关还为时过早。相反,当务之急似乎是检测句子表面的概括指标,并找到一种方法来处理几个竞争标记同时出现的情况。在小说文本中,句法结构经常会引发多重解读:
(15)想要除掉邪恶的人总是知道自己想要什么。[18]

这里,一方面,我们对想要摆脱邪恶的人进行了概括,另一方面,我们对他们想要摆脱邪恶的情况进行了概括,即总是。这两个概括中的哪一个可以支配另一个是模棱两可的,并且解决这种模棱两可的问题对于自动识别来说并不是核心问题。在这种情况下,语言准确的注释会很耗时,而且容易出错。

[ 22 ]第三,正如已经解释过的,不仅句子表面的标记丰富性是一个挑战,而且泛化的隐性标记,例如通用名词短语,也是一个挑战。
(16)农民有正确的知识;但他们传达的信息令人困惑且不诚实。城里和学院的学生思路清晰,秩序井然,但对事情缺乏直接的洞察力。[19]

(16)中对农村人群和受教育人群做出了说明。同时,这两类群体都被赋予了原型特征。然而,在主语和谓语中都没有明显的量词——尽管如此,还是可以进行广义的解读。

[ 23 ]总之,使虚构文本中的概括能够全面注释且先于标记器实现的标记集必须满足以下充分性条件。一方面,不同事件的语言复杂性必须能够在标签集中表现出来。然而,不应使用过于正式的类别,因为它们会不成比例地增加虚构文本注释的复杂性,并且也不符合能够识别文本中所有概括的要求。另一方面,标签集应该可以追溯到语言参数,以便它也能经受定性数据分析。

3.注释
[ 24 ]在上一节描述了注释虚构叙事文本中的概括的障碍之后,现在描述标签集和注释过程。本节以计算出的注释者间一致性和对标记器实施所依据的黄金标准的创建的一些解释结束。
Post Reply