他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

鸟巢采集器能做些什么:
采集数据、博客迁移、网址可用性检测、定向采集实现垂直搜索 等等。

鸟巢采集器相比其它采集器的优势:
1、平台无关,可以在任何系统上运行如:Linux、Windows ...
2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
3、Raspberry Pi 也是支持的。
4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
6、使用WEB的管理方式,可以在任何终端上操作。
总之最大的优势是WEB版平台无关,其它核心功能也都有。
						
查看演示效果可以使用下面的账号密码登录
用户名:test
密  码:test

Google App Engine 安装说明
1.下载GAE发布工具 “windows-gae-deploy-tools.zip” 与采集器应用包 “soso-crawler-gae.zip”
http://pan.baidu.com/share/link?shareid=359591&uk=539995500
http://pan.baidu.com/share/link?shareid=366793&uk=539995500

2.解压 windows-gae-deploy-tools.zip 
解压 soso-crawler-gae.zip 到发布工具的war目录,war目录结构如下:
-war
 -WEB-INF
 -index.html
 -favicon.ico
 ....

2.修改project-app-deploy.xml配置文件,
your.gae.app.id #Google App Engine 的App Id
your.gae.account #Google App Engine 的账户
your.gae.account.password #Google App Engine 的账户密码

3.双击运行 deploy.bat 进行发布

4.发布成功后接入你的采集器应用到WEB端
登录newcrawler.com在 
系统设置 > 采集器管理 
填上你的刚刚发布的应用地址和名称点添加,成功后你就可以在WEB端管理你的采集器应用了

需要注意的一点,GAE应用需要Datastore Indexes创建好之后才能使用,大家可以在GAE的控制台查看Datastore Indexes 状态