该专利最初由谷歌于2004年起草,并于2017年10月再次更新。考虑到该专利的年限以及它仍由谷歌签署的事实,可以假设它正在以某种方式被使用。该专利描述了如何根据现有的语义结构确定文本中术语的接近度。它还描述了一种根据与搜索查询相关的距离值对文档进行排序的方法。
距离可以根据术语在语义上而不是视觉上的接近程度来测量。换句话说,即使呈现的文档中的术语在视觉上相距较远,如果文档的语义结构表明这些词在语义上接近,则测量的距离仍可能表明这些词彼此相对较近。
因此,为了证明语义上的接近性,术语不一定必须在标题中提到 instagram 数据库 的实体附近出现。换句话说,实体周围窗口的大小可以灵活调整,适用于句子、段落、章节甚至整个文本。更为重要的是语义结构,例如列表、表格、段落、换行符、标题的 HTML 标记或粗体或下划线等格式。此外,还对页脚、侧边栏、推荐、横幅或主要内容等整个子区域进行奖励。
页面分析器根据语义结构将网站解析为标题、h1、h2、h3……的层次表示,并建立不同部分中术语的语义接近度。排名模块(目前为 Hummingbird)将搜索查询中的术语与页面分析器的结果进行比较,并根据搜索查询为文档提供排名分数。
将图像映射到搜索查询
这是谷歌于 2016 年签署并于 2019 年发布的另一项专利。它描述了如何将以图像形式出现的搜索查询分配给实体并丰富信息以及问题或搜索查询以提供相应的搜索结果的过程。搜索结果可以从知识面板、经典搜索结果、图像和用户问题中汇编而成。
使用图像注释器标记基于图像的搜索查询,然后分配置信度和相关性分数,以验证图像标签的相关性和准确性。识别引擎将可能的实体分配给图像。可以通过代表特定实体类型或实体域的标签来完成候选名单的列出。然后可以使用知识引擎来确定与实体相关的搜索词。在此基础上,即可提供搜索结果。利用所述方法,可以根据所拍摄的图像确定个人背景,从而确定用户意图或搜索意图,并提供相应的搜索结果。
实际搜索查询除了图像之外还可以包含口头或书面文本。