展开
想要轻松获取世界一流的Web搜索引擎,那就千万不要错过Apache Nutch官方版!它是一款非常受欢迎的Java搜索引擎框架,能够为广大用户提供全文搜索和Web爬虫等超多功能,不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎,对Apache Nutch官方版感兴趣的朋友千万不要错过!
每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
支持将起始URL集合注入到Nutch系统之中
支持生成片段文件,其中包含了将要抓取的URL地址
根据URL地址在互联网上抓取相应的内容
解析所抓取到的网页,并分析其中的文本和数据
根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取
同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中
首先先运行软件,选择File -> Import Project ->选择apache-nutch-1.9文件夹,确定后选择Import project from external model(Eclipse)
一直点击next到结束,成功将项目导入project中去
源码导入工程后,并不能执行完整的爬取。Nutch将爬取的流程切分成很多阶段,每个阶段分别封装在一个类的main函数中。在外面通过Linux Shell调用这些main函数,来完整爬取的流程。下面我们来运行Nutch中最简单的流程:Inject。我们知道爬虫在初始阶段,是需要人工给出一个或多个url,作为起始点(广度遍历树的树根)。Inject的作用,就是把用户写在文件里的种子(一行一个url,是TextInputFormat),插入到爬虫的URL管理文件(crawldb,是SequenceFile)中。
接下来我们按照Nutch默认的配置,需要修改Nutch的配置文件,为插件文件夹指定一个绝对路径,修改conf/nutch-default.xml文件内容,并且保存到工程中
接下来我们就可以开始对指定的网站的信息进行完整的爬取了
加载全部内容
btspread中文版1K28629人在玩如果你想下载一部电影,那么磁力搜索离不开...
下载BT磁力猪5M18693人在玩磁力猪番号搜索大全是一款搜索下载资源的磁...
下载DiggBT引擎1K16576人在玩DiggBT引擎多少用户都在使用,新的一...
下载番号搜索神器1.21M16043人在玩番号搜索神器有着绿色,免费的特色,BT种...
下载磁力猪番号大全0B23131人在玩要想看最新最热门的电影,出了在各大影院花...
下载BT磁力搜索引擎免费版806K15580人在玩想要下种子文件,你可以选择BT磁力搜索引...
下载磁力猪BT5M9237人在玩想要免费看电影的老司机别走,磁力猪番号搜...
下载番号搜索器网页版4K7901人在玩期待迅雷P2P种子搜索的绅士们,番号搜索...
下载BT兔子免费版3M7582人在玩在线搜索种子的软件哪个好用?BT兔子是...
下载资源猫番号搜索神器5M6644人在玩资源猫番号搜索神器是目前最好用的资源搜索...
下载