按“替代文本”列排序(Z 到 A)。将替代文本复制到相邻的“锚点”列,然后删除“替代文本”列。 删除自链接 URL。 在“Destination”和“Anchor”之间创建一个名为“Links to Self”的新列,将其设为 C 列。
。 将此公式复制并粘贴到 C2 中。 =IF(A2=B2, "匹配", "不匹配" 法国电话号码表 ) 为所有行复制此内容,并对 AZ 中的 C 列进行排序,以便出现标记为“匹配”的行。 删除这些行,因为它们代表链接的源 URL 本身。
最后,完全删除“匹配 脱链接到自身的源 URL。
经过这次清理后,我原来包含 136,873 行的 all_inlinks.csv 文件大小超过 50 MB,变成了包含 11,338 行和 4 列的精简版 2 MB 文件。 第 5 步:将向量嵌入转换为有用信息(即相对 URL) 访问 Google Colab。
为了处理向量嵌入,我使用了 Google Collab。我是这样做的:转到Gus Pelogia 创建的Google Colab 笔记本,然后单击“文件”>“在云端硬盘中保存副本”。这个笔记本基本上在浏览器中运行Python,所以你不需要安装任何东西。
我提供了一个屏幕截图以供参考
-
- Posts: 191
- Joined: Mon Dec 23, 2024 3:33 am