【如内容违法或虚假,请联系上述邮件删除】不重复抓取?有很多初学者可能会觉得。爬虫不是有深度优先和广度优先两种抓取战略吗?你这怎样又多出来一个不重复抓取战略呢?其实我这几天有不止一次听到了有人说要在不同页面增加同一页面链接,才干保证收录。我想真能保证吗?触及收录问题的不止是抓没抓吧?也从而延伸出今天的这篇文章,不重复抓取战略,以阐明在一定时间内的爬虫抓取是有这样规则的,当然还有很多其他的规则战略,以后有机遇再说,例如优先抓取战略、网页重访战略等等。
回归正题,不重复抓取,就需求去判别能否重复。那么就需求记住之前的抓取行为,我们举一个简单的例子。你在我的QQ群(9060800)里看到我发了一个URL链接,然后你是先看到了我发的这个链接,然后才会点击并在阅读器翻开看到细致内容。这个等于爬虫看到了后才会中止抓取。那怎样记载呢?我们下面看一张图:
如上图,假定这是一个网页上一切的链接,当爬虫爬取这个页面的链接时就全部发现了。当然爬取(了解为发现链接)与抓取(了解为抓取网页)是同步中止的。一个发现了就通知了另外一个,然后前面的继续爬,后面的继续抓。抓取完了就存起来,并标志上,如上图,我们发现第2条记载和第6条记载是重复的。那么当爬虫抓取第二条后,又爬取到了第6条就发现这条信息曾经抓取过了,那么就不再抓取了。爬虫不是尽可能抓更多的东西吗?为什么还要判别重复的呢?
其实,我们能够想一下。互联网有几网站又有几网页呢?赵彦刚是真没查证过,但这个量级应该大的惊人了。而自身搜索引擎的爬取和抓取都是需求执行一段代码或一个函数。执行一次就代表着要耗费一丁点资源。假定抓取的重复量级抵达百亿级别又会让爬虫做几的无用功?耗费搜索引擎多大的本钱?这本钱就是钱,降低本钱就是减少支出。当然不重复抓取不光表往常这里,但这个是最显而易见的。你要知道的就是相似于内容详情页的抢手引荐、相关文章、随机引荐、最新文章的重复度有多大?是不是一切页面都一样?假定都一样,那么能够恰当调整下,在不影响网站自身的用户体验前提下,去恰当做一些调整。毕竟网站是给用户看的,搜索引擎只是获取流量的一个重要入口,一种营销较为重要的途径!
洋溢之夜 www.chuguolaowuqianz.com:nasw01(关注老榕树网络旗下“网络思维”微信公众号:wlsw360 (每天都有好文章)
本帖如有虚假或违法,请联系邮箱删除,本社区删贴不收任何费用,欢迎举报。老榕树社区属老榕树网络旗下网站,旨在为老榕树用户提供创业咨询、网站建设技术交流、源码下载、提供各种实用工具。如有部分帖子涉及违法、虚假,请你第一时间与社区联系,把需要删除的社区链接提供给我们,我们核实之后,第一时间删除。邮箱:125175998@qq.com |