【如内容违法或虚假,请联系上述邮件删除】
Nutch的开创人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的开创人。Nutch降生于2002年8月,是Apache旗下的一个用Java完成的开源搜索引擎项目,自Nutch1.2版本之后,Nutch曾经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储中止了笼统以支持各种底层存储技术。
在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。往常这四个项目都展开疾速,极端火爆,特别是Hadoop,其已成为大范围数据处置的事实上的规范。Tika运用多种现有的开源内容解析项目来完成从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据耐久化到多种存储完成,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的援用可追溯到Nutch。当时,大数据用来描画为更新网络搜索索引需求同时中止批量处置或剖析的大量数据集。往常,大数据的含义曾经被极大地展开了,业界将大数据的特性归结为4个“V”。Volume数据体量庞大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处置速度快。 Hadoop是大数据的中心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎样办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有适用案例怎样办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
百度网盘链接:https://pan.baidu.com/s/1eTT5iOq
(关注老榕树网络旗下“网络思维”微信公众号:wlsw360 (每天都有好文章)
本帖如有虚假或违法,请联系邮箱删除,本社区删贴不收任何费用,欢迎举报。老榕树社区属老榕树网络旗下网站,旨在为老榕树用户提供创业咨询、网站建设技术交流、源码下载、提供各种实用工具。如有部分帖子涉及违法、虚假,请你第一时间与社区联系,把需要删除的社区链接提供给我们,我们核实之后,第一时间删除。邮箱:125175998@qq.com |