魄5百度站长平台VIP大讲堂(上海站)QA集锦
各位站长参加百度站长平台VIP大讲堂。除啦聆听官方声音外。更重要的是可以与百度专家进行面对面的沟通.VIP大讲堂上海站请出啦百度spider专家孙权。这是他第一次走出来与站长进行培训交流。课程中抖出干货无数。各位无法参与现场培训的站长除啦申请观看培训现场视频外。还可以通过QA记录看看自己心中的疑问是否已被解答.由于现场QA环节火爆热烈内容超多。故本次仅放出spider抓取建库部分。其它内容请静待下期.
问:为什么收录量像坐过山车一样的。还有为什么有些网页今天在明天就没啦?
答:百度会周期建库。且每个库的收录量是恒定的。你老是有新增。肯定会再从库里淘汰一些。反正总是保持那个库是满的.在建库的过程中。你会感觉有波动.具体的怎么筛。哪个页面会留下哪个页面会淘汰。这个策略是有很多的。他随着时间的变化。收录的标准策略也是在发生微调.
问:我们站点使用CDN加速会不会比较容易造成蜘蛛无法抓?恳蛭惺焙蛐薷牡羲蠖ǖ氖裁炊?
答:如果要修改掉一定要通知到上一级。现在不存在这个问题。现在你如果修改掉也可以解析掉。之前可能会存在这个问题.
问:你们百度自己也有一个CDN加速。对抓录排名有没有影响?
答:在使用CDN加速这个问题上。我们对所有站点一视同仁.但我建议你使用技术能力强的CDN服务商。保证站点的稳定和速度。百度会更喜欢.
问:刚才您说IP上的站点数不能太多。那CDN这种情况怎么办?
答:CDN的情况另说。如果我们识别出来是CDN的话不会受站点数量的影响。如果你是提供独立IP的话会有这样一些问题.
问:还是IP上站点数量的问题。如果是主域跟二级域名呢?也受数量限制?
答:我说的是独立域名.当然质量比较好的二级域名也可以认为是独立域名.
问:多个域名。他有相同的一些内容。怎么建库?
答:如果是多域名在同一个主域下面有相同内容的话。不可能所有都建库。而且被建库的那个可能不是你希望的那个。所以尽量不要有相同的内容.
问:刚才讲的IP如果是多域名的话。好几百个IP域名。现在我们也用啦CDN。按照刚才的说法。单个IP最多抓多少?万是说对站点还是对IP?
答:对IP。但万是我举例。不是实际的数据。这个数据不会分享出来的.
问:现在我的网站被很多蜘蛛爬。我想只让百度蜘蛛爬。百度蜘蛛IP多少?能设白名单么?
答:百度蜘蛛IP是不断变的。现在网上的确有一些白名单的说法。暂时是有较的。但不保证今后不会变。所以建议站点还是通过ua进行判断。我们百度站长平台上有相关的文章。你可以找一下.
问:如果我写r.b.ts只想禁掉动态链接的话。会不会影响动态参数前面正常链接的抓??
答:不会的。你原来的页面还在。肯定会抓.
问:比如我们一个域名我们想把带?号的url全部禁掉。首页我们不要禁掉。怎么弄?
答:?前面有个*。后面再有个*就可以啦.
问:我想啦解。如果我现在收录有5万。大概多长时间才能把我原来收录5万重新抓取一遍?
答:不同站点不好说。一个是你站点做的很好。知名度很响更新很快质量很好就会快;如果你的站点默默无闻。贡献很少。可能就会很慢.
(接上个问题)
问:就是差不多的情况。大概.
答:这个没有人能估出来.
问:百度站长平台上有数据提交的工具。我们实时提交。你们也会实时抓取吗?
答:不会。他会有一层判断.现在只是通知你提交成功。后面什么时候抓。什么时候建库没有。我们正在研究要不要把这个分享出来.
问:我网站有一些列表页。都没有链接。担心百度抓不到
答:现在百度站长平台的站内搜索工具有一个绿色收录通道。在那里提交种子页。我们就知道的.
(接上个问题)
问:提交种子页面必须要用站搜?
答:是的.
问:如果说页面里url特别多的话。蜘蛛会不会有选择性的进行抓??
答:不会。他都会一个不漏给你提出来。但会把JS、CSS这样的链接给过滤掉.但请注意。全部抓取过来之后会进行筛?⒉皇撬卸蓟峤ǹ?
问:现在很多网站都有自己的站内搜索。都会产生站内搜索结果页。百度不喜欢搜索结果页的话。我们用这个会不会对我们有影响?只是不喜欢还是对我们网站会有惩罚
答:蜘蛛会去抓。抓完之后重要是提取里面的链接.如果只有一两条这样的页面质量不好问题不大。如果整体质量较差。有可能受到惩罚.
问:新出的时效性文章当时没有被收录。后期是否还会被收录?
答:会
问:站点每天最高爬虫多少次?
答:这个其实说不好。有的站点我们一天会抓一两千万。有的站点只抓几个、几十个。看你的规模和质量。而且这个抓取量也是会根据网站的情况进行调整的.
卫生巾 www.qianjaya.com/:nasw01 站长难做啊~~~~~~~~~ 大家有什么好看法,赶快说说 这个很难说,不一定的 看看。。。。。。 值得学习一下。。。 真心不错的啊。。。
页:
[1]