索文档嵌入的有效性

A widely recognized collection for machine learning tasks.
Post Reply
Bappy11
Posts: 353
Joined: Sun Dec 22, 2024 6:02 am

索文档嵌入的有效性

Post by Bappy11 »

[ 2 ]在法国古典主义学说认为西班牙新喜剧“不合常规”之后,西班牙新喜剧的历史接受——尤其是对悲剧的理解——受到了德国启蒙运动、浪漫主义时期和唯心主义的重大影响。戈特霍尔德·埃弗拉伊姆·莱辛(1729-1781)是德语地区最早认可卡尔德隆作品的人之一。他专注于西班牙黄金时代的悲剧,并在一种新创立的中产阶级悲剧流派中将他的理论抱负付诸实践。后来,浪漫主义者路德维希·蒂克、奥古斯特·威廉和弗里德里希·施莱格尔、格林兄弟、亚历山大和威廉·冯·洪堡都追随他的脚步,他们都在哥廷根学习西班牙语。[5]奥古斯特·威廉·施莱格尔为他的西班牙剧院翻译了卡尔德隆的五部剧作(第一卷:1803 年,第二卷:1809 年),并在维也纳的《戏剧艺术与文学讲座》(1809 年)中详细研究了卡尔德隆。威廉·约瑟夫·谢林在卡尔德隆作品的基础上,在其演讲《悲剧论》中发展了自己的悲剧理论。就连黑格尔和叔本华也曾探讨过卡尔德隆这个主题,因此瓦尔特·本雅明在《德国悲剧的起源》中一次又一次地提到卡尔德隆和他的悲剧观念也就不足为奇了。[6]

[ 3 ]虽然德语地区主要对卡尔德隆的悲剧感兴趣,因此只关注少数几部剧作,但直到 20 世纪中叶,人们才首次认真尝试研究和分类卡尔德隆全部新喜剧。 1951 年,卡尔德隆《全集》的出版商最初将这些戏剧作品二元分为 戏剧和喜剧,从而区分出类似于悲剧的“严肃”和以娱乐为导向的戏剧的“轻松”。 通过这种方式,阿吉拉尔出版社的现代编辑显然按照古代诗歌传统来处理卡尔德隆新喜剧的范例,而自亚里士多德时代以来,这种传统一直以喜剧和悲剧的明确划分为基础;然而,编辑们的标准不够明确。[7]同时,他们也用这种区分提出了一个关键问题,这个问题在 20 世纪下半叶至今的卡尔德隆文学研究中引起了激烈的争论,双方的观点截然相反。英国卡尔德隆学派(亚历山大·A·帕克、布鲁斯·沃德罗珀、安东尼·欧文·沃森、亨利·W·沙利文等)对卡尔德隆悲剧的研究非常深入。本世纪初,西班牙研究者赫苏斯·G·马埃斯特罗对他们的分类尝试进行了严格的系统性批判,马埃斯特罗不无讽刺地评论说“文学理论在戏剧类型及其不断变化的属性方面无能为力”。[8]现在,英国研究者亨利·W·沙利文需要从质的角度确定十二条标准,根据这些标准可以表征黄金时代的悲剧。在这样做时,沙利文主要关注主题特征(父子冲突、复仇和以荣誉为基础的戏剧)、文学以外的迹象(社会地位较高的人)、[9]情节特征(不公正的判断或主角的死亡)或接受属性(创造情感 和悲情苏利文将悲剧定义为“以悲剧结尾的戏剧(通常是纯洁的结局或宣泄性的结局)”。他还制定了排除标准,例如救赎和诅咒等主题的盛行,也排除了殉道剧,从而将悲剧定义得比较狭隘。[10]在这些标准的框架内,苏利文在卡尔德隆新喜剧全集中至少识别出 14 部悲剧。

[ 4 ]鉴于卡尔德隆的巨作,一方面,除阿吉拉尔版外,从未对新喜剧进行全面分类也就不足为奇了: [11]哪位研究人员准备研究和分类 112 部戏剧?同时,很明显,只有这种书面工作才适合实施计算程序。另一方面,必须明白,直到 2022 年春季所有喜剧都以电子形式提供后,才能对全部喜剧进行基于数据的计算分类。 [12]因此,除了少数研究外,卡尔德隆的作品尚未用数字人文学科提供的任何方法进行分析,尽管如此庞大的语料库显然有助于检查某一类型作品之间的结构相似性或不同类型戏剧之间的差异。[13]卡尔德隆的作品是一个罕见的案例,因为如此大量的戏剧作品都是由一位作家在 17 世纪相对较短的时期内创作的。

[ 5 ]本研究[14]尝试基于至少 112 部喜剧,批判性地评估这些戏剧中喜剧与悲剧之间的区别的有效性。这与评估数字人文学科应用分布式语义程序为解决这一问题提供的方法可能性密切相关。[15]由于迄今为止只研究了一小部分卡尔德隆喜剧 ,其中大部分仍未得到充分探索,我们期望经过验证的方法可以为尚未彻底分析的戏剧的分类提供重要指示。

2. 方法论
2.1 方法基础
[ 6 ]如今,分布语义的概念在计算语言学领域得到了广泛的应用。其基本假设是,一个词的含义是根据它在特定语境中的使用频率以及与其他词同时出现的频率来确定的。单词和文档在高维空间中表示;语义关系 阿曼电报数据 是从该空间内的相似性推断出来的。对于文档的表示,每个文档中单词的频率(绝对或相对)都存储为向量矩阵,其中每个单词对应矩阵的一列,每个文档对应一行。矩阵的单元格包含共现频率;纯频率通常通过统计关联度来替换,例如逐点互信息或 tf-idf(词频-逆文档频率),以抵消单词的 Zipf 分布。[16]为了表示单词的含义,需要创建相同类型的矩阵,目标词组成行,上下文词组成列。此类矩阵可用于计算单个单词或文本之间的距离、将它们相互比较、将它们聚类成组以及对它们进行可视化。通常,这些非常大的矩阵包含数千列并且是稀疏的,即它们的大多数元素为零。这需要将维度减少到更小的程度,以便适合计算距离或相似度矩阵。由此产生的低维向量通常称为词或文档嵌入,可能是自然语言处理 (NLP) 中语义表示的最常见做法。它们与主题模型相关,但不完全相同。降维纯粹是技术要求,几乎不会改变基本意图。[17]

[ 7 ]选择分布式方法来完成手头的任务是基于我们的初始假设,即通过观察词汇选择和词汇使用情况,可以区分喜剧和悲剧(根据对每个不同主题的处理)。简而言之,可以预料,在卡尔德隆悲剧中,“荣誉”、“权力”和“死亡”等术语强烈共现,而喜剧则倾向于结合“爱”、“伪装”和“嫉妒”等词语。很明显,这种方法过于简单化——然而,叙事模式或情节结构不能以这种方式来描述。同时,基于词频和词共现的方法以及作者识别的常用方法的广泛成功表明,这种分析甚至可以对文学文本产生令人惊讶的深刻理解。

2.2 数据基础
[ 8 ]除了沙利文确定的 14 部悲剧之外,所研究的文本中还添加了一部他似乎一直不知道的文本:Saber del bien y del mal。[18]另外 15 部戏剧经定性研究确定为喜剧,通常被称为comedias cómicas(或urbanas或palatinas),[19]构成了这部作品中悲剧的对应部分。其他 82 部卡尔德隆喜剧以现代化和标准化的西班牙语完整数字文本提供。[20]从所有 112 部剧作中提取了剧中人物的口头文本并收集起来进行分析;不包括舞台说明或类似的附加文本。15 部悲剧分别标有 T 和连续数字,喜剧标有 C,其余 82 部剧作标记为 »Test« 并进行编号。[21]
Post Reply