您好!欢迎来到 云南乐淘淘SEO优化帮
这里就整理一些常见的爬虫程序,不常见的我也不是很了解,毕竟世界上的爬虫程序非常非常多,有好有坏。
Google爬虫
算法优秀,反应速度迅速,对内容质量把握优秀,中等强度爬虫程序,对服务器负担不大,推广效果好。
对应user-agent:爬虫名称
Googlebot:google网页爬虫
Googlebot-news:google新闻爬虫
Googlebot-image:google图片爬虫
Googlebot-video:google视频爬虫
Googlebot-mobile:google移动爬虫
Mediapartners-google或Mediapartners(googlebot):google广告爬虫
Ad*ot-google:google着陆页质量检测爬虫
百度爬虫
算法良好,反应速度迟钝,对内容质量把握一般,高强度爬虫程序,由于算法优化不良问题,对服务器负担较大,本身小问题也挺多(比如:度娘又抽风了),隐私保护恶劣,在百度面前无隐私可言,推广效果好。(然而谁叫这货是国内搜索引擎老大呢)
对应user-agent:爬虫名称
Baiduspider:百度网页爬虫兼移动爬虫
Baiduspider-image:百度图片爬虫
Baiduspider-video:百度视频爬虫
Baiduspider-news:百度新闻爬虫
Baiduspider-favo:百度搜藏爬虫
Baiduspider-cpro:百度联盟爬虫
Baiduspider-ads:百度商务爬虫
好搜(即360)爬虫
类似百度早期算法,反应速度迟钝,对内容质量把握不足,高强度爬虫程序,隐私保护跟百度一个尿性,需要翻墙的小伙伴千万要避开这货。
推广效果好,目前好搜的客服给我的印象最好,然而以后就不知道了,毕竟有流氓历史。
对应user-agent:爬虫名称
360spider或haosouspider:好搜网页爬虫兼移动爬虫
360spider-image:好搜图片爬虫
360spider-video:好搜视频爬虫
搜狗爬虫
算法恶劣,反应速度极其迟钝,不能良好的把握内容质量,高强度爬虫程序,由于算法奇差,会对页面进行大量反复而又无实际意义的扫描,对服务器负担很大,个人建议直接遮蔽这货,推广效果差!严重的内部点击,个人最讨厌。搜狗本身流量就很少,并且收录慢,抓取压力大,综合性价比非常低。
对应user-agent:爬虫名称
Sogou spider:搜狗综合爬虫
新浪爱问爬虫
基本可以当作搜狗爬虫,各项性能恶劣,建议遮蔽,推广效果差。
对应user-agent:爬虫名称
Iaskspider:新浪爱问爬虫
有道爬虫
也基本可以当作搜狗爬虫,各项性能恶劣,对服务器负担较搜狗略低,建议遮蔽,推广效果差。
对应user-agent:爬虫名称
YodaoBot:网易有道爬虫
Alexa爬虫
Alexa爬虫,用于检测网站是否做了Alexa排名作弊,如果不关心Alexa排名的可以遮蔽。一般企业站看这个没意思很难有排名的。
对应user-agent:爬虫名称
ia_archiver:Alexa爬虫
雅虎爬虫
算法优良,反应速度还可以,高强度爬虫程序,有时候会从多个ip地址启动捉取,算是比较规范的爬虫,推广效果还可以。不过自从雅虎离开大陆,而且在11年11月左右雅虎关闭了站长服务并把数据转移到必应,一般情况建议遮蔽。
对应user-agent:爬虫名称
Yahoo! Slurp:雅虎爬虫
必应爬虫
整体性能还不能判断,不过根据最近世界搜索引擎市场份额占比判断,性能应该接近百度甚至比百度要好,国内本土化不足。九秋网站来自必应的流量不少于好搜。
对应user-agent:爬虫名称
Bingbot:必应爬虫
总结:
好了,大概我们常见的爬虫程序就有这些,别的基本可以直接遮蔽了。