今天,青云给大家分享搜索引擎是如何对网站进行爬行和抓取的
本文大纲:
1:蜘蛛
2:沿链接爬行
3:链接索引库的调用
4:形成快照
5:内容初步检测
1:蜘蛛
什么叫蜘蛛?很多SEO小白,像当年青云什么都不懂时,觉得蜘蛛叫法很奇特?
蜘蛛就是搜索引擎为了爬行和抓取网站页面的一个程序代码。
蜘蛛在爬行任何一个网站的时候,都会先访问根目录下的robots文件,如果robots文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不会抓取。
常见蜘蛛列表:
1、 百度蜘蛛:Baiduspider Baiduspider-image baiduboxapp Baiduspider-render
2、 谷歌蜘蛛:Googlebot (很勤奋的蜘蛛) Googlebot-Image Google-Read-Aloud Googlebot-Video
3、 360蜘蛛:360Spider (很勤奋的蜘蛛)
4、 搜狗蜘蛛:SogouSpider, Sogou web spider
5、 神马蜘蛛:YisouSpider (UC浏览器默认搜索sm.cn的蜘蛛)
6、 必应蜘蛛:bingbot BingPreview
7、 有道蜘蛛:YoudaoBot,YodaoBot
8、 MSN蜘蛛:msnbot,msnbot-media
9、 雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!
10、 Yandex蜘蛛:YandexBot (俄罗斯搜索引擎)
11、 DNSPOD监控蜘蛛:DNSPod-Monitor
12、 MJ12bot:MJ12bot (英国SEO分析页面蜘蛛)
13、 SEMrush:SemrushBot (美国SEO综合分析网站的蜘蛛)
14、 头条蜘蛛:Bytespider (今日头条旗下:高频抓取 被很多站长封禁后 有所改善)
15、 华为蜘蛛:AspiegelBot ( 华为旗下Aspiegel公司 疯狂高频爬行无节制 )
2:沿着链接爬行
互联网是彼此紧密联系在一起的,在A页面发现了一个B页面的链接,这时蜘蛛爬行B页面去了,在B页面发现其它的链接,再继续爬取!
蜘蛛爬行策略有2种,分别是广度优先策略,深度优先策略。
广度优先策略,一个A页面,发现B页面,C页面,D页面,先爬行B,再爬C,再爬D
深度优先策略,一个A页面,发现B页面,在B页面,又发现B1页面,接着B2页面。
搜索引擎会把这种策略混用爬行互联网上的页面,广度优先策略可以照顾尽可能多的网站,这也是为什么,我们发现网站首页能很快被收录原因之一,如果你的网站页面权重,网站规模,外链,更新等,做的比较好,搜索引擎就会对你的网站实行深度优先策略爬行!
3:链接索引库的调用
只要被发现但还没有抓取的页面,以及已经被抓取的页面,这些页面的URL都会被搜索引擎存进指定索引库中,由系统统一安排抓取!
提高页面的重要性和质量,能做到更好的爬取和收录!
4:形成快照
当搜索引擎爬取并收录你的页面之后,会形成一个个快照保存,每个快照都会有一个唯一的编号。
例如我们经常说的:百度快照
5:内容初步检测
在蜘蛛爬取的时候,会进行一定程度内容复制检测,若是权重很低的网站,发现内容大量转移载和抄袭,就有可能不会对其网站再爬行和抓取,从而也不会被收录!
总结,本文2个核心重要的,
一:就是蜘蛛的爬行策略,你要清楚,才能知道如何优化你的网站,
二:低权重的网站不再大量的转载和抄袭!