理方面拥有多年专业经

A widely recognized collection for machine learning tasks.
Post Reply
Bappy11
Posts: 353
Joined: Sun Dec 22, 2024 6:02 am

理方面拥有多年专业经

Post by Bappy11 »

五名参与者被分成两组,一组最初使用基于主题模型的注释探索语料库(A 组),另一组最初使用手动注释探索语料库(B 组)。为了便于监督和记录,这两个组被分成两个小组。四个小组的组成刻意呈现多样化。根据注册时提交的动机信,可以评估能力和先前知识,例如,让具有定性研究经验的参与者和已经熟悉主题建模的参与者一起工作。此外,我们尽可能地确保性别比例均衡,报名参加研讨会的男性多于女性。每个群体都包括来自不同学术地位群体的人,尤其是学生、博士生和博士后。
以及一位刚刚开始职业生涯的社会学博士生相遇。 A2 组包括一名文化研究学士生、一名即将提交学士论文的社会学学士生、一名研究数字工作文化的欧洲民族学博士生和一名具有计算机科学专业经验的历史学硕士生。 B1组由一位拥有多年程序员专业经验的文化研究专业本科生、一位研究重点为采矿业的欧洲民族学博士生、一位社会学专业本科生和一位研究重点为数字日常文化的欧洲民族学博士生共同合作。最后,B2组包括一名欧洲民族学博士生和一名计算机科学学生,以及一名文化研究本科生和一名学生;第四人因病临时缺席。
这些小组使用了鲁尔区生活史和社会文化收藏(LUSIR)中已经可以数 纳米比亚电报数据 字化访问的生活史访谈资料库,该资料库是 20 世纪社会史的重要资料集。在该口述历史项目进行的300多次采访中,超过150次已经被准确转录并以数字格式提供时间码。该材料是在 1981 年至 1988 年间由 Lutz Niethammer 和 Alexander von Plato 的一个项目下创建的,该项目研究了鲁尔区的法西斯主义和战后经历。[19]

]对于这里描述的实验,书面记录被用于进行 NLP 方法,总共 166 篇全文,数量约为 370 万个标记(单词)。在使用精选的停用词列表清理停用词之后,剩下大约 700,000 个标记。主题建模是使用 Java 包MALLET执行的,并使用 Python 库Gensim的包装器实现的。潜在狄利克雷分配( LDA )方法的 MALLET 实现依赖于计算密集型的吉布斯采样作为推理算法,与之前研究中的 Gensim 实现相比,它提供了更加一致的主题。该研究还建议将访谈分成 25 个句子和 50 个主题的块,作为最佳模型的基础。[20]
Post Reply