Nutch2在eclipse中的配置和测试


1.安装Eclipse插件

SubclipseIvyDE 和 m2e 插件
在Eclipse的 Help > Install New Software … 中进行安装,安装地址分别是:

2.获得项目源码

Nutch2中使用了Gora项目所以获得Nutch2源码的同时也需要获得Gora项目源码.
通过svn工具, 获得 Nutch 和 Gora 的源码
http://svn.apache.org/repos/asf/nutch/trunk
http://svn.apache.org/repos/asf/incubator/gora/trunk
截图如下:

3.Build 项目

打开Eclipse的Ant视图:Window > Show View > Ant

拖拽这两个项目的build.xml到Ant视图里,双击Ant视图中的Gora和Nutch对象. 双击Gora后将会发布Ivy modules 到Ivy本地资源库. 双击Nutch后将会在runtime/local文件夹下建立项目的发布文件列表.

4.加入Ivy库文件到lib

右键 ivy/ivy.xml, 选择”Add Ivy Library …”. 对src/plugin/protocol-sftp/ivy.xml也进行同样操作.

5. 设置Source Folder

项目树截图如下:

6. 配置数据库

数据库中存放Nutch抓取的信息. 你可以选择关系数据库也可以选择其它类型数据库. 这时就要感谢Gora接口为我们提供的强大的后台支持了.

我选择使用MySql

使用MySQL作为Nutch的数据存储, 需要添加一个依赖到 ivy/ivy.xml:
<dependency org=”mysql” name=”mysql-connector-java” rev=”5.1.16″ conf=”*->default”></dependency>

修改 conf/gora.properties 中的 MySQL 链接:

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch2?createDatabaseIfNotExist=true
gora.sqlstore.jdbc.user=hhdem
gora.sqlstore.jdbc.password=pwd

7. JUnit 测试

数据库src/test/org/apache/nutch/storage/TestGoraStorage.java 运行JUnit Test.

这里需要确保你的数据库不是使用的utf-8编码格式, utf-8编码会导致报错, 解决方法可看:http://naozao.com/topic/view/121.html

抓取org.apache.nutch.crawl.Crawler

Usage: Crawl (<seedDir> | -continue) [-solr <solrURL>] [-threads n] [-depth i] [-topN N]

建立seeds/urls.txt文件, 内容填入:

http://www.hhdem.com/

http://www.naozao.com/

建立Java Application, 配置如下:


相关文章

评论关闭。