晴天不说话 发表于 2017-3-13 11:08:54

SEO案例：浅析爬虫的不重复抓取策略 M缉

不反复抓取?有很多初学者可能会觉得。爬虫不是有深度优先和广度优先两种抓取战略吗?你这怎样又多出来一个不反复抓取战略呢?其实我这几天有不止一次听到了有人说要在不同页面增加同一页面链接，才干保证收录。我想真能保证吗?触及收录问题的不止是抓没抓吧?也从而延伸出今天的这篇文章，不反复抓取战略，以阐明在一定时间内的爬虫抓取是有这样规则的，当然还有很多其他的规则战略，以后有机遇再说，例如优先抓取战略、网页重访战略等等。

　　回归正题，不反复抓取，就需求去判别能否反复。那么就需求记住之前的抓取行为，我们举一个简单的例子。你在我的QQ群(9060800)里看到我发了一个URL链接，然后你是先看到了我发的这个链接，然后才会点击并在阅读器翻开看到细致内容。这个等于爬虫看到了后才会中止抓取。那怎样记载呢?我们下面看一张图：

　　如上图，假定这是一个网页上一切的链接，当爬虫爬取这个页面的链接时就全部发现了。当然爬取(了解为发现链接)与抓取(了解为抓取网页)是同步中止的。一个发现了就通知了另外一个，然后前面的继续爬，后面的继续抓。抓取完了就存起来，并标志上，如上图，我们发现第2条记载和第6条记载是反复的。那么当爬虫抓取第二条后，又爬取到了第6条就发现这条信息曾经抓取过了，那么就不再抓取了。爬虫不是尽可能抓更多的东西吗?为什么还要判别反复的呢?

　　其实，我们可以想一下。互联网有几网站又有几网页呢?赵彦刚是真没查证过，但这个量级应该大的惊人了。而本身搜索引擎的爬取和抓取都是需求执行一段代码或一个函数。执行一次就代表着要耗费一丁点资源。假如抓取的反复量级抵达百亿级别又会让爬虫做几的无用功?耗费搜索引擎多大的本钱?这本钱就是钱，降低本钱就是减少支出。当然不反复抓取不光表如今这里，但这个是最显而易见的。你要晓得的就是类似于内容详情页的抢手举荐、相关文章、随机举荐、最新文章的反复度有多大?是不是一切页面都一样?假如都一样，那么可以恰当调整下，在不影响网站本身的用户体验前提下，去恰当做一些调整。毕竟网站是给用户看的，搜索引擎只是获取流量的一个重要入口，一种营销较为重要的途径!

dnf辅助 www.dnfkx.com：nacw01

云的裁剪师 发表于 2017-3-13 11:08:54

不错，说得好，大家鼓掌!

瓶子里的猫1968 发表于 2017-3-13 11:08:54

不错，说得好，大家鼓掌!

页: [1]