搜索引擎工作原理:内容处理的步骤

2020-04-07| 发布者: admin

搜索引擎工作原理中内容处理部分在相关seo书籍和网络文章中已经分析得很透彻,其实这部分内容中有不少东西值得研究思考,并能运用到日常的seo工作中。不论是白帽还是黑帽seo,在这部分都有很大技术和逻辑上的操作空间。

首先判断该页面的类型:网页(文本内容、图片内容、视频内容)、pdf、office(word、excel、ppt),然后针对不同类型,进行针对性的处理。

搜索引擎看的是网页源代码,去掉html代码,对于JS、flash、图片、视频等内容还是很难抓取,主要提取文字内容。

页面噪音就是与页面主体内容不相关的广告、导航、登入框、网站版权信息等。但主要百度不会把主体内容以外的都去除,比如相关推荐在一定程度上也会被算作本页的内容,也会在百度搜索排名中有直观的体现。甚至于页面不相关的链接文本也会被保留索引,比如百度搜索复制本页地址,就会知道去噪并不是很严格。

因此seo人员对于网页主体内容外的推荐内容、链接、锚文本等一切元素要加以利用,而不是随便加一些不相关的内容。很多seoer都说要注重细节,但实际工作中又有多少真正重视、研究和利用了呢?

停止词就是一些比如“得、的、地、了、呢、啊、呀、嘻”等无关紧要的一些词,其实此步骤是存在疑问的,对于普通文章来说,去除这些词有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是搜索包含这些词的关键词时也是有很多搜索结果。

经过以上处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页进行正向索引和倒排索引处理了。

 
QQ在线咨询
售前咨询热线
020-84774537
售后服务热线
020-84774268
返回顶部