请选择 进入手机版 | 继续访问电脑版
设为首页收藏本站客户端下载

老榕树社区

 找回密码
 立即注册
社区推荐
 
查看: 8|回复: 2

Apache Nutch v2.3.1

[复制链接]
任务统计:
发布数/完成数/奖励数:
0/0/0
承接数/奖励数/收入数:
0/0/0

653

主题

653

帖子

3795

积分

论坛元老

Rank: 8Rank: 8

积分
3795
扫一扫,手机访问本帖
发表于 2018-2-12 15:18:48 | 显示全部楼层 |阅读模式
JSP源码: 其它类别
源码大小 M: 2-10M
使用方法: 有使用方法
亲自测试: 来源网络
是否收费: 免费
数据库: Access
【如内容违法或虚假,请联系上述邮件删除】


Nutch的开创人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的开创人。Nutch降生于2002年8月,是Apache旗下的一个用Java完成的开源搜索引擎项目,自Nutch1.2版本之后,Nutch曾经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储中止了笼统以支持各种底层存储技术。
在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。往常这四个项目都展开疾速,极端火爆,特别是Hadoop,其已成为大范围数据处置的事实上的规范。Tika运用多种现有的开源内容解析项目来完成从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据耐久化到多种存储完成,Crawler Commons是一个通用的网络爬虫组件。
大数据这个术语最早的援用可追溯到Nutch。当时,大数据用来描画为更新网络搜索索引需求同时中止批量处置或剖析的大量数据集。往常,大数据的含义曾经被极大地展开了,业界将大数据的特性归结为4个“V”。Volume数据体量庞大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处置速度快。
Hadoop是大数据的中心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎样办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有适用案例怎样办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

百度网盘链接:https://pan.baidu.com/s/1eTT5iOq

360截图20180212151601904.jpg

(关注老榕树网络旗下“网络思维”微信公众号:wlsw360 (每天都有好文章)

 

                                                   本帖如有虚假或违法,请联系邮箱删除,本社区删贴不收任何费用,欢迎举报。老榕树社区属老榕树网络旗下网站,旨在为老榕树用户提供创业咨询、网站建设技术交流、源码下载、提供各种实用工具。如有部分帖子涉及违法、虚假,请你第一时间与社区联系,把需要删除的社区链接提供给我们,我们核实之后,第一时间删除。邮箱:125175998@qq.com

回复

使用道具 举报

任务统计:
发布数/完成数/奖励数:
0/0/0
承接数/奖励数/收入数:
0/0/0

73

主题

1411

帖子

208

积分

中级会员

Rank: 3Rank: 3

积分
208
发表于 2018-2-14 13:28:55 | 显示全部楼层
有竞争才有进步嘛
回复 支持 反对

使用道具 举报

任务统计:
发布数/完成数/奖励数:
0/0/0
承接数/奖励数/收入数:
0/0/0

66

主题

1378

帖子

189

积分

注册会员

Rank: 2

积分
189
发表于 2018-2-14 19:50:58 | 显示全部楼层
不知该说些什么。。。。。。就是谢谢
回复 支持 反对

使用道具 举报

任务统计:
发布数/完成数/奖励数:
0/0/0
承接数/奖励数/收入数:
0/0/0

71

主题

1358

帖子

217

积分

中级会员

Rank: 3Rank: 3

积分
217
发表于 前天 14:31 | 显示全部楼层
路过,学习下
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  • 关于我们| 企业文化| 备案编号:滇ICP备13002355号
  • Copyright 2013 最新最精彩-社区论坛 版权所有 All Rights Reserved
快速回复 返回顶部 返回列表