Arachnode.net
一、概述
1.什么是Arachnode.net?
Arachnode.net是一个开源的网页爬虫,它具有下载、存储和索引Internet上丰富内容的功能,包括邮件地址、文件、超链接、图像和网页。Arachnode.net使用C#语言编写,并支持SQL Server 2005数据库。
2.主要特点
1)Arachnode.net是目前基于.NET构架的,功能最完善的开源页面爬虫之一。
2)可以在更改个性定制的爬取规则时不用重新编译源代码,存在的爬取规则和行为架构可以很轻易地对爬取方式产生作用。
3)集成了Lucene.net模块,允许通过一个Web页面接口就爬取得到的结果进行全文搜索。
4)SQLsever2005全文索引可以配置到任意合适的存放地点。
5)下载的页面可以被转换为XML,然后通过HtmlAgilityPack存储到SQLsever2005数据库中。
6)Arachnode.net可以通过配置运行任意数量的线程,使用尽可能多的处理器时间和存储空间。
7)Arachonde.net的爬取过程是尊重对方的,提供发出请求前后的规则来管理地址和内容的过滤。默认的爬取环境是尊重的,谦恭的,温和的。
8)对于爬取到的图像,arachnode.net会存储和索引所有发现的EXIF信息。
二、安装说明
1.下载arachnode.net : release 1.1 +lucene.net,并解压缩到指定文件夹。
2.安装Visual Studio 2005 Professional Edition 或以上版本,安装过程中C#和WebDeveloper是必须的,其他根据需要可以选择不安装。
3.保持.NET Framework SDK以默认配置进行安装。
4.必须保证安装Visual Studio 2005 Team Suite Service Pack 1即我们常说的VS2005 SP1,否则其中有些项目文件无法加载。
5.安装SQL Server 2005 Standard Edition 以上版本,Express版本无法准确完成数据库还原。
6.从backup文件中还原数据库,运行SQL Sever Managerment Studio,点击“连接”,从设备还原数据库,.bak文件在解压文件夹里的zip文件中。
7.激活CLR功能,运行SQL Sever 外围应用配置器,选择功能的外围应用配置器,选择CLR集成,点选激活CLR集成,保存配置。
8.新建一个查询,执行存储过程:"[dbo].[arachnode_usp_arachnode.net_RESET_DATABASE]"。
9.新建一个查询,执行:"ALTER DATABASE[arachnode.net]SET TRUSTWORTHY ON"。将数据库赋予合适的权限。
10.用Visual Studio打开.sln解决方案,在弹出的询问是否设置数据库连接的对话框中点击确定,选择database选项卡,在Connection string旁点击浏览按钮,选择正确的服务器名和数据库连接,激活SQL/CLR调试。
11.删除Test.proj工程,并设置console.proj作为启动项目,按F5生成整个工程。
三、使用方法
1.arachnode.net的爬取模块是一个控制台应用程序,对于爬取过程的定制全部在数据库中进行,包括爬取目标,深度,超时时间等等,全部在dbo.Configuration和dbo.CrawlerTypes表中,通过设置其中字段的值对爬取过程进行定制。
2.对于爬取内容的检索,arachnode.net使用一个web应用程序进行实现,将web.proj作为启动项目重新生成项目后,会启动一个asp.net服务器,然后采用浏览器中的web页面对爬取内容进行索引和检索。