1.安装Eclipse插件
2.获得项目源码

3.Build 项目
打开Eclipse的Ant视图:Window > Show View > Ant
拖拽这两个项目的build.xml到Ant视图里,双击Ant视图中的Gora和Nutch对象. 双击Gora后将会发布Ivy modules 到Ivy本地资源库. 双击Nutch后将会在runtime/local文件夹下建立项目的发布文件列表.
4.加入Ivy库文件到lib
右键 ivy/ivy.xml, 选择”Add Ivy Library …”. 对src/plugin/protocol-sftp/ivy.xml也进行同样操作.

5. 设置Source Folder
6. 配置数据库
数据库中存放Nutch抓取的信息. 你可以选择关系数据库也可以选择其它类型数据库. 这时就要感谢Gora接口为我们提供的强大的后台支持了.
我选择使用MySql
修改 conf/gora.properties 中的 MySQL 链接:
gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch2?createDatabaseIfNotExist=true gora.sqlstore.jdbc.user=hhdem gora.sqlstore.jdbc.password=pwd
7. JUnit 测试
数据库:src/test/org/apache/nutch/storage/TestGoraStorage.java 运行JUnit Test.
这里需要确保你的数据库不是使用的utf-8编码格式, utf-8编码会导致报错, 解决方法可看:http://naozao.com/topic/view/121.html
抓取:org.apache.nutch.crawl.Crawler
Usage: Crawl (<seedDir> | -continue) [-solr <solrURL>] [-threads n] [-depth i] [-topN N]
建立seeds/urls.txt文件, 内容填入:
http://www.hhdem.com/
http://www.naozao.com/
建立Java Application, 配置如下:








