必须考虑技术和内容相关方面

A widely recognized collection for machine learning tasks.
Post Reply
Bappy11
Posts: 353
Joined: Sun Dec 22, 2024 6:02 am

必须考虑技术和内容相关方面

Post by Bappy11 »

[ 13 ]在进行分析之前,数据集中清除了 光学字符识别(OCR) 造成的错误,并进行了规范化,以准备对文本进行进一步处理。为了能够在清理过程中单独处理专有名词,首先手动检查语料库中包含内部大写字母或数字的所有单词。结果,创建了一个包含 241 个单词的更正列表,这些单词是实际的专有名词,而不是 OCR 错误。清理按照以下步骤进行,主要使用正则表达式:

删除重复项:数据库中的 3,771 篇文章要么是完全重复的,要么是正文中以特殊字符形式包含 OCR 错误的重复项。
不同拼写术语的标准化:不同的报纸和作者使用不同的专有名词拼写,例如例如›FridaysForFuture‹ 和 ›Fridays4Future‹ 变成了 ›Fridaysforfuture‹,它们是根据修正列表标准化的。
标准化内部大写字母的单词:将校正列表中单词内的所有内部大写字母均改为小写,例如: B. ›OceanCare‹ 变为 ›Oceancare‹。
因 OCR 错误而合并的单词分离:OCR 错误会部分删除连续单词之间或标点摩洛哥电报数据 符号后面的单词之间的空格。因此,标点符号和后续字母之间以及小写字母之后的大写字母之间都插入了空格。更正列表中的术语被跳过。这一步是必要的,因为这些错误在标记化过程中将被视为复合标记,例如B.›限制。目前‹或›无需放弃‹。
性别中立规范化:将性别中立的词语规范化为女性形式,因为常用的词形还原器不是为性别中立的词形设计的。
删除与内容分析不相关或不完全存在的元数据:网络链接、电子邮件地址、注释、图像描述和作者信息(并非在每篇文章中都以连续文本的形式存在)都被从文本中删除,因为分析应该只与文章的内容有关。
Post Reply