搜索引擎是如何抓取网页？

星河宇飞来 · 发表于 2017-3-25 10:22:04

【如内容违法或虚假，请联系上述邮件删除】搜索引擎在抓取海量的原始网页时，会中止预处置，主要包括四个方面，关键词的提取，“镜像网页”（网页的内容完整相同，未加任何修正）或“转载网页”（near-replicas，主题内容基本相同但可能有一些额外的编辑信息等，转载网页也称为“近似镜像网页”）的消弭，链接剖析和网页重要水平的计算。
1. 关键词的提取，取一篇网页的源文件（例如经过阅读器的“查看源文件”功用），我们能够看到其中的状况纷乱繁杂。从认识和理论来看，所含的关键词即为这种特征最好的代表。于是，作为预处置阶段的一个基本任务，就是要提取出网页源文件的内容部分所含的关键词。关于中文来说，就是要依据一个词典&Sigma;，用一个所谓“切词软件”，从网页文字中切出&Sigma;所含的词语来。在那之后，一篇网页主要就由一组词来近似代表了，p = {t1, t2, &hellip;, tn}。普通来讲，我们可能得到很多词，同一个词可能在一篇网页中多次呈现。从效果（effectiveness）和效率（efficiency）思索，不应该让一切的词都出往常网页的表示中，要去掉诸如“的”，“在”等没有内容指表示义的词，称为“停用词”（stop word）。这样，对一篇网页来说，有效的词语数量大约在200个左右。
3、链接剖析，大量的HTML标志既给网页的预处置构成了一些省事，也带来了一些新的机遇。从信息检索的角度讲，假如系统面对的仅仅是内容的文字，我们能依据的就是“共有词汇假定”（shared bag of words），即内容所包含的关键词汇合，最多加上词频（term frequency 或tf、TF）和词在文档汇合中呈现的文档频率（document frequency 或df、DF）之类的统计量。而TF和DF这样的频率信息能在一定水平上指示词语在一篇文档中的相对重要性或者和某些内容的相关性，这是有意义的。有了HTML标志后，状况还可能进一步改善，例如在同一篇文档中，<H1>和</H1>之间的信息很可能就比在<H4>和</H4>之间的信息更重要。特别地，HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象，以为它们不只给出了网页之间的关系，而且还对判别网页的内容有很重要的作用。

4、网页重要水平的计算，搜索引擎实践上追求的是一种统计意义上的称心。人们以为Google目前比baidu好，还是baidu比google好，参照物取决于多数状况下前者返回的内容要更契合用户的需求，但并不是一切状况下都如此。如何对查询结果中止排序有很多要素需求思索。如何讲一篇网页比另外一篇网页重要？人们参照科技文献重要性的评价方式，中心想法就是“被援用多的就是重要的”。“援用”这个概念恰恰能够经过HTML超链在网页之间表现得十分好，作为Google创建中心技术的PageRank就是这种思绪的胜利表现。除此以外，人们还留意到网页和文献的不同特性，即一些网页主要是大量对外的链接，其自身基本没有一个明白的主题内容，而另外有些网页则被大量的其他网页链接。从某种意义上讲，这构成了一种对偶的关系，这种关系使得人们能够在网页上树立另外一种重要性指标。这些指标有的能够在抓取网页阶段计算，有的则要在查询阶段计算，但都是作为在查询效劳阶段最终构成结果排序的部分参数。
2. 重复或转载网页的消弭，与生俱来的数字化和网络化给网页的复制以及转载和修正再发表带来了便利，因而我们看到Web上的信息存在大量的重复现象。这种现象关于宽广的网民来说是有正面意义的，由于有了更多的信息访问机遇。但关于搜索引擎来说，则主要是负面的；它不只在搜集网页时要耗费机器时间和网络带宽资源，而且假如在查询结果中呈现，无意义地耗费了计算机显现屏资源，也会引来用户的埋怨，“这么多重复的，给我一个就够了”。因而，消弭内容重复或主题内容重复的网页是搜索引擎抓取网页阶段的一个重要任务。
本文链接地址：
昆明韩辰整形: http://www.kmhczr.com/html/quangu.html 由kfiwe整理owke发布(关注老榕树网络旗下“网络思维”微信公众号:wlsw360 (每天都有好文章)

本帖如有虚假或违法，请联系邮箱删除，本社区删贴不收任何费用，欢迎举报。老榕树社区属老榕树网络旗下网站，旨在为老榕树用户提供创业咨询、网站建设技术交流、源码下载、提供各种实用工具。如有部分帖子涉及违法、虚假，请你第一时间与社区联系，把需要删除的社区链接提供给我们，我们核实之后，第一时间删除。邮箱：125175998@qq.com

		自动登录	找回密码
密码			立即注册

[杂谈] 搜索引擎是如何抓取网页？