用的方法过对所研究语料库中使

A widely recognized collection for machine learning tasks.
Post Reply
Bappy11
Posts: 353
Joined: Sun Dec 22, 2024 6:02 am

用的方法过对所研究语料库中使

Post by Bappy11 »

[ 8 ]显然,这样的收集会产生大量的数据,一旦语料库变得庞大,就很难进行人工评估。虽然本研究旨在遵循一种从一开始就设计的虚拟读者的方法,以反映和扩展所有有经验的读者的日常经验,但也需要指出处理大量数据、将文本和图形信息转换为数值以及对值进行聚类所带来的特殊性。这里实现了从解释学理解到数字人文学科的转变。以模式形式呈现的文本信号抽象关系无法通过接收者的文本经验得到充分传达。尽管它确实可以识别出诸如体裁惯例之类的典型模式,从而也可以确认接受者的阅读体验,但一方面,从收集的数据中无法得出任何因果关系来解释特定的价值观配置是如何以及为何产生的(这是文学史的任务),另一方面,聚类数据形成的模式永远不会完美,这就是为什么必须寻求典型特征组之间的转换的解释(这是一般文学研究的任务)。这揭示了人文学科及其实践的解释学解释所面临的特殊挑战:在需要解释和说明积累的相关数据时,需要来自真正的人文学科领域(在本例中为文学研究)的知识和见解,并且必须与数据分析的结果相协调,以便能够提出令人信服的解释。因此,因果归因只有在数据情境化及其解释的背景下才有可能。这将在本研究的评估部分变得非常清晰。

3. 方法论
[ 9 ]作为一种关注研究者与研究环境之间关系的科学体裁,科学民族志一方面反映了当代表征惯例,例如 19 世纪 70 年代以来在科学学科建立和被认可阶段常见的惯例;另一方面,随着时间的推移,民族志不仅质疑其对文化的描述,而且质疑写作和(科学)表述的文化以及相关的文化建构。在20 世纪 70 年代末以来的写作文化辩论中,人们讨论了民族志表征和研究人员的立场问题。 [10] 科学的呈现方式通过大量的副文本来保证其研究结果,而研究者则以自传为基础进行自我反思,这种对比引出了这样的问题:民族志写作在多大程度上以科学客观化和主观反思性表述之间的张力为根本特征,以及这种张力在多大程度上反映在呈现形式中。由于科学民族志(与大多数科学出版物一样)的特点是包含大量的副文本,因此更仔细地研究副文本装置是有意义的,以便能够更仔细地观察呈现方式随时间的演变。因此,目前的试点研究为民族志研究开辟了新天地,因为尚未有更大的语料库进行过系统的文学分析。[11] 下面描述了如何根据 103 份科学民族志收集和评估数据。关键问题如下:

如何描述民族学中的表征惯例?
是否可以识别出与这些惯例的偏差以及它们是什么样的?
体裁程序如何发挥作用,民族学写作的通用格式是怎样的?
副文本和文本内部信号如何格式化实地研究的表征并从而格式化已发表的民族学知识?
它们如何影响民族学中客观性和主观性的表述?
[ 10 ]第一个挑战是选择要研究的文本。由于目前没有民族学中最重要的著作的目录——例如以最常被引用的文本列表的形式[12] ——因此没有既定的经典,因此另一种方法是从人群中抽取代表性样本。该人群可以从国会图书馆目录中累积汇编而成,例如通过合并国会图书馆主题词民族学和人类学。搜索显示,仅民族学主题词及其子类别就有超过 23,000 种多种语言的书籍与之相关。由于可以假设这些专著中的大部分仅以印刷版提供而没有电子版,因此获取文献所需的努力似乎不适合进行试点研究,因为数据收集需要对单个标题进行剖析。

[ 11 ]因此,文本选择务实地分两个步骤进行。首先,访问社交阅读平台Goodreads,读者社区在该平台上按类型对书籍进行分类。目前,关键词 “人类学”下列出了 29,260 个标题。第一步,根据频率标准对此列表进行巴拉圭电报数据 排序,在本例中是将“人类学”标签分配给标题的频率。最终初步选定了约 1,750 件作品,并以 csv 格式导出。尽管社交阅读平台本身具有不准确性和任意性,但通过这样的选择,我们可以对语料库进行初步评估,包括随时间推移的出版物数量、作品作者中女性和男性的比例、出版地点[13]以及标题中最常用的词汇。

图 1:1,750 份民族志。出版年表。 [Kilchör / Lehmann 2020]
图 1:1,750 份民族志。出版年表。 [Kilchör / Lehmann 2020]
图 2:1,750 份民族志。作者的性别。 [Kilchör / Lehmann 2019]
图 2:1,750 篇民族志。作者的性别。 [Kilchör / Lehmann 2019]
图 3:1,750 份民族志。出版地点的地理位置。 [Kilchör / Lehmann 2020]
图 3:1,750 份民族志。出版地点的地理位置。 [Kilchör / Lehmann 2020]
[ 12 ]第二步,我们的同事,社会和文化人类学家 Prof. Dr.托马斯·斯托杜尔卡 (Thomas Stodulka)(柏林自由大学)从首批入围作品中挑选出 103 部作品作为候选名单。这里只选择那些在话语形成有效性方面被认为具有科学相关性的专著。入选作品的数量与最初选定的 1,750 种书目(每十年的书目数量、女性/男性作者比例、出版地点)成正比。

[ 13 ]这本精选的 103 部民族志涵盖了从 1839 年(达尔文的《小猎犬号航行记》出版)到 2014 年的时期,其中包括 26 部由女性作者出版的作品和 77 部由男性作者出版的作品。其中 32 部在欧洲出版,71 部在美国出版,[14] 9 部以法语出版,其余均以英语出版。作为后续数据收集的一部分,我们对文本的初版进行了检查,以便能够捕捉到原始语言中的当代表现。副文本的值被收集在一个表中:
Post Reply