Nutch Crawl 在Eclipse的配置
下载Nutch : http://www.apache.org/dyn/closer.cgi/nutch/ 当前最新版本为1.2
通过新建Java Project 将Nutch导入进Eclipse中
将conf文件夹引用为source folder
在nutch项目的根目录建立urls文件夹, 并新建文件url.txt, 内容如下:
http://www.yahoo.com.cn/
http://www.163.com/
修改conf/crawl-urlfilter.txt内容:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
修改为
+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/
修改conf/nutch-site.xml文件内容:
<configuration>
<property>
<name>http.agent.name</name>
<value>*</value>
</property>
</configuration>
修改conf/nutch-defaul.xml文件, 将属性”plugin.folders”的值由“plugins”更改为 “./src/plugin”
Eclipse中选择Run as… , 配置一个新的Java Application
Main选项卡中的Main class选择org.apache.nutch.crawl.Crawl
Arguments选项卡中:
Program arguments 填入urls -dir crawl -depth 3 -topN 50,
VM arguments填入 -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log -Xms64m -Xmx512m
最后点击Run就可以开始Crawl了
评论关闭。