页面抓取只是搜索引擎工作中的一个基本链接。当抓取页面时,它并不表示要立即向最终用户提供查询服务的搜索引擎。由于用户使用搜索引擎查询单词或短语,到目前为止,搜索引擎只能提供整个原始页面,不能返回与用户查询条件相匹配的信息。因此,搜索引擎还需要对原始页面进行一系列的分析和处理,以满足用户的信息查询习惯。
 
【seo案例分析的书】SEO页面分析-八韵网络工作室
 
    首先,搜索引擎索引存储的原始页面,然后过滤原始web页面的标签信息,并从web页面中提取文本信息。然后对文本信息进行裁剪,建立关键词索引,得到页面与关键词之间的对应关系。最后,所有关键字都进行了重组和构建。垂直键和页面之间的对应关系。
 
    1.web索引?
 
    为了提高页面检索的效率,搜索引擎需要索引被捕获的原始页面。由于URL是页面的入口地址,所以原始页面的索引实际上是索引页面的URL,以便根据URL快速定位相应的页面。
 
    2.页面分析?
 
    网页分析是整个网页处理过程中最重要的部分,包括网页文本信息的提取(即标签信息的过滤)、分词、关键词索引列表的建立和关键词重组。因此,一个关键字被形成以对应于多个原始页面,也就是说,一个与用户查询习惯一致的信息原型被形成。
 
    文本信息提取?
 
    网页信息?这种提取实际上是对网页中非文本信息的过滤。其中最重要的是在网页中过滤标签信息。标签过滤后,搜索引擎可以获取网页的文本信息。
 
    分词/分词之后,从原始页面中提取文本信息后,搜索引擎就可以得到页面的实质内容。为了获得与用户相关的数据,搜索引擎还需要删除页面中的内容,形成用户查询条件匹配的信息列表。
 
    每个搜索引擎的分割系统或多或少都会有所不同。分词系统的质量主要取决于开发人员对语言的理解能力。特别是在中文环境中,分词算法直接影响到网页内容的内容,在分词后会产生关键字,这些关键词与用户的搜索习惯一致。因此,分词的结果直接决定了搜索引擎能否提供与用户查询条件匹配的信息。
 
    在中文环境中,常用的分词方法有两种:字符串匹配分词和统计分词。下面简要介绍两种中文分词算法。
 
    字符串匹配分割是基于一个足够大的权威字典。如果页面上的单词与字典里的单词匹配,它就会被点击。用这种方法,你可以得到一个词或短语。
 
    统计分词是基于两个相邻(或多个)词的概率来判断两个(或多个)词的组合是否会形成一个词,例如,"微博"是传统汉语中不存在的一个词。
 
    关键词索引网页正文信息处理后的分词系统,形成了一个关键词列表。关键字列表中的每条记录都包括关键词的数量、页面的数量、关键字的数量以及文档中关键字的位置。为了提高关键词的检索效率,搜索引擎还会为关键词列表设置关键词列表。这样,在索引页面和关键字列表之后,您可以快速地从一个web页面定位到某个关键字。例如,过滤信息后的web页面0的内容是"中国广东省的深圳";然后,将关键词"中国"、"广东省"、"深圳市"进行裁剪,并创建关键词索引。根据网页0,搜索引擎可以快速找到关键词"中国广东深圳".然而,用户正在寻找页面,携带相应的信息通过这些关键词,所以搜索引擎需要处理现有的信息,建立相应的关键字之间的关系表和网页的网址,为了快速地找到多个页面根据关键词,这个关键词重组。
 
    关键词重组旨在迎合用户查找信息的习惯,关键词搜索相关页面。因此,搜索引擎需要建立一个基于关键字索引的关键字表,对应于多个页面的页面,即关键字反向索引表。建立关键字反向索引表的最重要任务是在所有页面中重新组织键列表。
 
    在索引关键字之后,生成了网页和关键字之间的一一对应关系。接下来,搜索引擎重构所有页面中的关键词,建立关键词引擎,形成一个特定的关键词,找到一个或多个页面,实现根据关键词返回相应页面的功能。
 
    在分析和处理原始页面后,搜索引擎可以根据用户的查询条件返回相应的页面列表。然而,页面列表的简单返回往往不能满足用户的需要,因此搜索引擎根据页面与用户查询条件之间的相关性重新排列了列表,然后将处理后的列表返回给用户。