Apache Nutch v2.3.1

bestlife · 发表于 2018-2-12 15:18:48

【如内容违法或虚假，请联系上述邮件删除】

Nutch的开创人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的开创人。Nutch降生于2002年8月，是Apache旗下的一个用Java完成的开源搜索引擎项目，自Nutch1.2版本之后，Nutch曾经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.X和2.X，这两大分支最大的区别在于2.X对底层的数据存储中止了笼统以支持各种底层存储技术。
在Nutch的进化过程中，产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。往常这四个项目都展开疾速，极端火爆，特别是Hadoop，其已成为大范围数据处置的事实上的规范。Tika运用多种现有的开源内容解析项目来完成从多种格式的文件中提取元数据和结构化文本，Gora支持把大数据耐久化到多种存储完成，Crawler Commons是一个通用的网络爬虫组件。

大数据这个术语最早的援用可追溯到Nutch。当时，大数据用来描画为更新网络搜索索引需求同时中止批量处置或剖析的大量数据集。往常，大数据的含义曾经被极大地展开了，业界将大数据的特性归结为4个“V”。Volume数据体量庞大，Variety数据类型繁多，Value价值密度低，商业价值高，Velocity处置速度快。

Hadoop是大数据的中心技术之一，而Nutch集Hadoop之大成，是Hadoop的源头。学习Hadoop，没有数据怎样办？用Nutch抓！学了Hadoop的Map Reduce以及HDFS，没有适用案例怎样办？学习Nutch！Nutch的很多代码是用Map Reduce和HDFS写的，哪里还能找到比Nutch更好的Hadoop应用案例呢？

百度网盘链接：https://pan.baidu.com/s/1eTT5iOq

(关注老榕树网络旗下“网络思维”微信公众号:wlsw360 (每天都有好文章)

本帖如有虚假或违法，请联系邮箱删除，本社区删贴不收任何费用，欢迎举报。老榕树社区属老榕树网络旗下网站，旨在为老榕树用户提供创业咨询、网站建设技术交流、源码下载、提供各种实用工具。如有部分帖子涉及违法、虚假，请你第一时间与社区联系，把需要删除的社区链接提供给我们，我们核实之后，第一时间删除。邮箱：125175998@qq.com

破解外挂 · 发表于 2018-2-14 13:28:55

有竞争才有进步嘛

198644 · 发表于 2018-2-14 19:50:58

不知该说些什么。。。。。。就是谢谢

斯蒂芬 · 发表于 2018-2-23 14:31:56

路过，学习下

第一站长论坛 · 发表于 2018-3-7 08:53:41

小手一抖，钱钱到手！

谢谢qq · 发表于 2018-3-7 13:54:23

这是什么东东啊

admin8 · 发表于 2018-3-12 07:03:51

看帖回帖是美德！

如风 · 发表于 2018-3-12 09:15:20

帮帮顶顶！！

admin8 · 发表于 2018-3-14 08:49:54

路过，支持一下啦

K伦 · 发表于 2018-3-22 18:37:56

相当不错，感激无私分享肉体！

老榕树网盟 · 发表于 2018-3-26 03:05:53

有道理。。。

黄鸟 · 发表于 2018-4-1 10:27:17

支持一下

dongduzz · 发表于 2018-4-3 22:52:12

不错不错，楼主您辛劳了。。。

colorfuldays · 发表于 2018-4-4 07:11:10

帮你顶下哈！！

admim、 · 发表于 2018-4-13 23:14:43

相当不错，感激无私分享肉体！

admin8 · 发表于 2018-4-14 05:02:29

过来看看的

qq3132 · 发表于 2018-4-17 11:56:49

写的真的很不错

K伦 · 发表于 2018-4-19 20:44:48

帮帮顶顶！！

qq3132 · 发表于 2018-4-24 12:54:27

相当不错，感激无私分享肉体！

qiandu · 发表于 2018-4-27 15:46:41

学习了，谢谢分享、、、

admin8 · 发表于 2018-4-30 14:53:08

有道理。。。

198644 · 发表于 2018-5-5 11:29:21

好好学习了的确不错

闲乐趣坊 · 发表于 2018-5-5 12:43:54

路过，支持一下啦

小米粒 · 发表于 2018-5-10 00:24:05

帮你顶下哈！！

破解外挂 · 发表于 2018-5-10 15:00:19

路过，支持一下啦

闲乐趣坊 · 发表于 2018-5-11 17:03:19

看帖回帖是美德！

闲乐趣坊 · 发表于 2018-5-13 16:09:45

找到好贴不容易，我顶你了，谢了

nqbaiquqpk · 发表于 2018-5-13 16:45:02

有竞争才有进步嘛

郑少忠 · 发表于 2018-5-14 16:45:45

好好学习了的确不错

郑少忠 · 发表于 2018-5-17 10:13:49

学习了，不错，讲的太有道理了

K伦 · 发表于 2018-5-22 20:03:38

谢谢楼主，共同展开

郑少忠 · 发表于 2018-5-28 02:51:35

谢谢楼主，共同展开

		自动登录	找回密码
密码			立即注册