1、收录页面:
一般收录页面需要有百度蜘蛛抓取完成,通过抓取算法来决定收录那些页面,在百度的算法调整后,对于伪原创、采集站点予以强烈的打击,所以百度在收录页面方面变得更加的严格了,高质量内容页面以及权重高的站点一般收录页面的几率会高很多。对于收录页面这方面相信很多的站长都是很清楚,每天百度蜘蛛都在分分秒秒不停地收录着,但是你会发现其实大部分的站点的收录都减少了,这是为什么呢?因为百度需要过滤页面。
2、过滤页面:
很多页面被百度收录之后,百度认为该页面对用户没有太大的价值,或者是质量度比较低的页面,百度必然就会过滤,这也是用户体验好的一种表现,很多站点以优化为目的,丝毫不考虑用户的体验,例如一些桥页、跳转页面这些就是典型,百度的k站就是一种过滤页面的表现,把那些作弊的站点的页面全部的过滤掉。很多人抱怨6.22和6.28百度k站事件,尤其是那些屌丝站长们整天在论坛抱怨这个抱怨那个,为什么k你的站,很显然你的站点真的是以用户体验为核心运营站吗?做SEO的人大多都是为了优化而运营站点,每天写的站内的更新、做外链肯定一部分是为了优化而优化,百度k你的站是牺牲少部分人的利益,更多的用户是从中获益的,要知道多少人在使用百度,如果搜索出来的信息是你为了优化而运营的站点,低质量的页面,那百度其实是拿自己未来的前途给你优化站点做铺垫的。所以过滤页面这方面百度非常的严格,大家也不要使用seo作弊技术了。
3、建立索引:
经过了收录页面以及过滤页面的工作之后,百度会对这些页面逐一进行标记和识别,并将这信息进行储存为结构化的数据,储存到百度的搜索的服务器中,这些储存的数据有网页的信息、网页的标题关键词页面描述等标签、网页外链及描述、抓取记录。还会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。建立完善的索引数据库,方便呈现出最佳的显示信息
4、显示信息:
用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。一般显示出最佳信息需要是最适合匹配关键词相关的页面,包括网站站内优化和网站站外优化的因素。