已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
益众网站信息抓取工具用户手册 第 1 页 共 72 页 益众网站信息抓取工具 用户手册 益众网站信息抓取工具用户手册 第 2 页 共 72 页 目 录 1. 概述 .4 1.1. 关于网站抓取工具 . 4 1.2. 特点 . 5 2. 软件安装 .5 2.1. 安装环境 . 5 2.1.1. 硬件环境 .5 2.1.2. 软件环境 .5 2.2. 安装步骤 . 6 2.2.1. 安装 JDK 1.5.x.6 2.2.2. 安装数据库 .6 2.2.3. 导入系统数据 .6 2.2.4. 安装本系统 .7 2.2.5. Tomcat 启动和停止 .9 3. 术语 . 10 4. 使用说明 .11 4.1. 辅助功能 . 12 4.1.1. 登录 . 12 4.1.2. 修改管理员信息 . 12 4.1.3. 系统参数配置 . 12 4.1.4. 入库数据表配置 . 15 4.1.5. 抓取统计 . 16 4.1.6. 查看网页源码 . 16 4.1.7. 软件注册 . 16 4.2. 页面配置 . 16 4.2.1. 增加页面基本信息 . 17 4.2.2. 修改页面基本信息 . 19 4.2.3. 删除页面基本信息 . 19 4.2.4. URL 配置 . 19 4.2.5. 增加正文页 URL 及定位配置信息 . 20 4.2.6. 修改正文页 URL 及定位配置信息 . 22 4.2.7. 增加列表页 URL 配置信息 . 22 4.2.8. 修改列表页 URL 配置信息 . 24 4.2.9. URL 参数配置 . 24 4.2.10. 增加 URL 参数 . 25 4.2.11. 修改 URL 参数 . 26 4.2.12. 删除 URL 参数 . 26 4.2.13. 设置 URL 参数值 . 26 4.2.14. 增加 URL 参数值 . 27 4.2.15. 修改 URL 参数值 . 28 4.2.16. 删除 URL 参数值 . 28 益众网站信息抓取工具用户手册 第 3 页 共 72 页 4.2.17. 定位信息设置 . 28 4.2.18. 增加列表页定位配置信息 . 29 4.2.19. 修改列表页定位配置信息 . 31 4.2.20. 下级页面配置 . 31 4.2.21. 增加 子页面 . 32 4.2.22. 修改子页面 . 32 4.2.23. 删除子页面 . 33 4.2.24. 设置抓取时间 . 33 4.2.25. 抓取 . 34 4.3. 页面解析 . 35 4.3.1. 增加页面解析配置信息 . 35 4.3.2. 修改页面解析配置信息 . 42 4.3.3. 删除页面解析配置信息 . 42 4.3.4. 值替换配置信息 . 43 4.3.5. 增加值替换配置信息 . 43 4.3.6. 修改值替换配置信息 . 43 4.3.7. 删除值替换配置信息 . 44 4.4. 页面入库 . 44 4.4.1. 增加页面入库数据表信息 . 45 4.4.2. 修改页面入库数据表信息 . 45 4.4.3. 删除页面入库数据表信息 . 45 4.4.4. 字段对照值配置信息 . 46 4.4.5. 增加字段对照值 . 46 4.4.6. 修改字段对照值 . 48 4.4.7. 删除字段对照值 . 48 5. 配置样例 . 52 5.1. 登录 . 52 5.2. 入库数据表配置 . 52 5.3. 页面配置 . 53 5.3.1. 页面基本信息配置: . 53 5.3.2. URL 配置: . 54 5.3.3. 定位信息配置: . 55 5.4. 页面解析 . 56 5.5. 下级 页面配置 . 58 5.6. 下级页面解析: . 60 5.7. 入库配置: . 63 5.7.1. 选定入库数据表 . 63 5.7.2. 字段对照值配置 . 65 5.8. 抓取: . 67 6. 参考内容 . 68 6.1. 规则表达式 . 68 6.2. JDBC URL . 70 7. 服务支持 . 72 益众网站信息抓取工具用户手册 第 4 页 共 72 页 1. 概述 1.1. 关于网站抓取工具 本工具可以抓取互联网上的任何网页,包括需要登录后才能访 问的页面。对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题、作者、来源、正文等。支持列表页的自动翻页抓取,支持正文页多页合并,支持图片、文件的抓取,可以抓取静态网页,也可以抓取带参数的动态网页,功能极其强大。 用户指定要抓取的网站、抓取的网页类型(固定页面、分页显示的页面等等),并配置如何解析数据项(如新闻标题、作者、来源、正文等),系统可以根据配置信息自动实时抓取数据,启动抓取的时间也可以通过配置设定,真正做到“ 按需抓取,一次配置,永久抓取 ”。抓来的数据可以保存到数据库中。支持当前主流数据库,包括: Oracle、 SQL Server、 MySQL 等。 本工具完全可以替代传统的编辑手工处理信息的模式,能够实时、准确、一天24*60 不间断为企业提供最新资讯,真正能为企业降低成本,提高竞争力。 系统功能结构图如下图所示: 益众网站信息抓取工具用户手册 第 5 页 共 72 页 1.2. 特点 适用范围广,可以抓取任何网页(包括登录后才能访问的网页) 处理速度快,如果网络畅通, 1 小时可以抓取、解析 10000 个网页 采用独特的重复数据过滤技术,支持增量式数据抓取,可以抓取实时数据,如:股票交易信息、天气预报等 抓取信息的准确性高,系统提供了强大的数据校验功能,保证了数据 的正确性 支持断点续抓,在当机或出现异常情况后可以恢复抓取,继续后续的抓取工作,提高了系统的抓取效率 对于列表页,支持翻页,可以抓取到所有列表页中的数据。对于正文页,可以对分页显示的内容自动进行合并; 支持页面深度抓取,页面间可以一级一级地抓下去。比如,通过列表页抓取到正文页 URL,然后再抓取正文页。各级页面可以分别入库; WEB 操作界面,一处安装,随处使用 分步解析,分步入库 一次配置,永久抓取,一劳永逸 2. 软件安装 2.1. 安装环境 2.1.1. 硬件环境 机型要求: PC、 PC Serve、服务器 最小内存: 256MB 最小硬 盘空间: 1GB 2.1.2. 软件环境 操作系统: Windows 2K/XP, Linux、 Solaris 等 Unix 系统 数据库: MySQL、 SQL Server、 Oracle 之一 益众网站信息抓取工具用户手册 第 6 页 共 72 页 JAVA JDK: 1.5 及以上版本 Web Server: Tomcat5.0 及以上版本 2.2. 安装步骤 2.2.1. 安装 JDK 1.5.x 如果机器上没有 JDK 1.5.x 的环境,需要安装 JDK 1.5.x,推荐安装的版本为 1.5.0。 JDK 为 SUN 公司推出的 JAVA 开发包,您可以去网站 下载,也可以在我们的网站下载 JDK 1.5.0,下载链接: Windows: /p/download/software/jdk-1_5_0-windows-i586.exe Linux: /p/download/software/jdk-1_5_0-linux-i586-rpm.bin 安装完毕后,设置环境变量 JAVA_HOME,需要设置为 JDK的安装目录。例如: Windows下为 C:jdk1.5.0, Unix 下为 /usr/java/jdk1.5.0。 2.2.2. 安装数据库 如果机器上没有安装数据库,请安装 MySQL 数据库。您可以去 mysql 官方网站/downloads/下载,也可以在我们的网站下载 mysql 4.0.x: Windows: /p/download/software/mysql-4.0.12-win.zip Linux: /p/download/software/MySQL-server-4.0.25-0.i386.rpm 2.2.3. 导入系统数据 数据库脚本文件存放在目录 dbscript 下。 如果使用的数据库为 MySQL,需要使用如下两个命令行导入数据: mysql u【用户名】 -p【密码】 db_mysql.sql mysql u【用户名】 -p【密码】 db_wis help.sql 例如: mysql uroot db_mysql.sql mysql uroot db_wis help.sql 益众网站信息抓取工具用户手册 第 7 页 共 72 页 即可完成数据库的创建及数据导入工作。 2.2.4. 安装本系统 把安装包解压到指定目录。 Windows 系统中,需要把本系统安装在 C:webspider 目录下,请确认文件 webspider.war 存放在 C:webspider 目录下; Unix 系统中,需要把本系统安装在 /usr/local/webspider 目录下, 请请确认文件 webspider.war 存放在 /usr/local/webspider 目录下。 1)如果已经安装了 tomcat5.0 及以上版本,可以把本抓站系统集成到已有 tomcat 中。 为了保证程序能正常运行,需要修改 tomcat 的启动脚本。 Windows 下修改文件catalina.bat,在文件的前面设置变量 JAVA_OPTS,如下所示: set JAVA_OPTS=-agentlib:C:webspiderclassloader Unix 系统下,修改文件 catalina.sh,在文件的前面设置变量 JAVA_OPTS,如下所示: JAVA_OPTS=-agentpath:/usr/local/webspider/libclassloader.so 需要在 tomcat 的配置文件 server.xml 中增加一个 Context(子项目),需要增加的配置代码如下(样例): driverClassName org.gjt.mm.mysql.Driver url jdbc:mysql:/:3306/db_wis?autoReconnect=true&;useUnicode=true&;characterEncoding=gbk 益众网站信息抓取工具用户手册 第 8 页 共 72 页 username root password maxIdle 5 maxActive 100 maxWait 5000 2)如果机器上没有安装 tomcat,直接使用安装目录下的 tomcat。 Windows 系统下需要修改 C:webspidertomcat-5.0.28confserver.xml 中的 Context 配置, Unix 系统下需要修改/usr/local/webspider/tomcat-5.0.28/conf/server.xml 中的 Context 配置。 如果本系统没有安装在缺省目录下,需要修改 中的属性 docBase,把其中的路径设置为系统安装到的路径。并且要修改 tomcat 的启动脚本,在 Windows 下修改文件catalina.bat,在 unix 下修改 catalina.sh,把变量 JAVA_OPTS 中的 -agentlib 设置为正确值。参见本节的 1)。 益众网站信息抓取工具用户手册 第 9 页 共 72 页 和 之间为数据库连接池配置。需要修改数据库连接池配置中的 driverClassName、 url、 username 和 password 等参数值,以保证能正常连接数据库。 启动 tomcat 后,在浏览器中键入网址: http:/【目标服务器】 /webspider/,例如:http:/locahost:8080/webspider/,进入本抓站系统的登录界面。 2.2.5. Tomcat 启动和停止 1) Windows 系统 : 启动命令: startup.bat 停止命令: shutdown.bat 为了实现 tomcat 在开机时自动启动,需要把 tomcat 加到系统服务中。进入 tomcat 的bin 目录, 修改 tomcat 的 service.bat, 在语句 echo The service %SERVICE_NAME% has been installed. 前加上 : %EXECUTABLE% /US/%SERVICE_NAME% +JvmOptions -agentlib:C:webspiderclassloader 然后执行如下两行命令: service remove service install 重新安装 tomcat 服务 2) Unix 系统 : 启动命令: startup.sh 停止命令: shutdown.sh 为 了实现 tomcat 在开机时自动启动,需要把 tomcat 加到操作系统的启动脚本中,例如: Linux 的启动脚本文件为 /etc/rc.local。在启动脚本中增加一个命令行:【 tomcat 所在目录】 /bin/startup.sh & 例如: /usr/local/webspider/tomcat-5.0.28/bin/startup.sh & 益众网站信息抓取工具用户手册 第 10 页 共 72 页 3. 术语 本工具使用的术语如下: 正文页:只有一条记录的页面,如新闻页、职位信息页面等 列表页:有多条记录的页面,如新闻列表页,职位列表页等 页面配置:对于要抓取的页面进行分析配 置,找到要获得的数据项的定位 页面解析:对于页面上的数据项进行解析,得到该数据项 页面入库:针对解析出的数据项,存放到数据库里 下级页面:页面 URL 来自上级页面的网页,也叫做子页面。一个页面得到很多链接,针对每一个链接进行配置得到的页面 定位信息:能够定位到页面中所需的数据的起始和终止位置(定位字符串) 规则表达式: 处理字符串匹配的一种简便方法,参见“ 规则表达式 ” URL 配置:用来配置如何获得要抓取页面的网页地址 URL 参数配置:有的页面 URL 中含有参 数,需要进行配置 网页调用方式:页面请求的方式,包括 POST 和 GET,通常为 GET 方式。判断一个页面的调用方式可以在页面代码中的“ ”处查到 其它页 URL 获得方式:获得其他页网页地址的方式,有两种方式: 固定模式:遵循某种固定模式,网页地址中可以带参数 动态解析:没有固定的模式,需要分析页面,通过解析获得其他页地址 参数取值类型: URL 参数中参数取值方式,有两种方式: 有序值:遵循某种顺序,包括起始值、循环步长和终止值。例如:顺序递增的信息 ID 值 离散值:分散的值序列 ,例如:城市区号、信息分类编码等 列表页记录:列表页中要获取的每一项被称为一条记录,通常一行数据为一条记录 规则表达式转义:规则表达式中对于一些特殊字符(如 .、 ?、 *等)需要进行转义,因规则表达式配置容易出错,本系统提供自动转义功能 规则表达式检测:对于写好的规则表达式,进行检测,因规则表达式配置容易出错,本系统提供检测功能 益众网站信息抓取工具用户手册 第 11 页 共 72 页 4. 使用说明 首先介绍一下本软件的使用流程,以下的具体功能说明均按照使用流程一步一步展开。 登录 :进入系统 入库数据表配置 :设置本系统将要使用的数据库和数据表信息 页面配置 页面基本信息配置 :要抓取一个网站,首先要配置该网站的基本信息,作为入口 URL 配置 :配置要抓取页面的 URL 定位信息配置 :配置要抓取页面内容的具体定位信息 下级页面配置 :对于任何页面,都可以根 据该页面解析出来的 URL,增加子页面,可以深度挖掘想要的信息。 页面解析 页面解析配置 :配置要抓取页面内容的具体解析信息 值替换 :对需要替换的页面数据项信息进行替换设置 页面入库 设定入库数据表 :设定该页面要入库的数据表 入库字段对照值 :设定该页面数据项和数据表字段的对照关系 系统使用流程图如下: 益众网站信息抓取工具用户手册 第 12 页 共 72 页 4.1. 辅助功能 辅助功能主要包括登录、修改管理员信息、系统参数配置、入库数据表配置、抓取统计、查看网页源码、软件注册等。 4.1.1. 登录 进入系统,必须先登录,在浏览器里输入: http:/【服务器 IP:端口】 /webspider/,例如:http:/localhost:8080/webspider/,显 示登录页面,输入管理员用户名、密码后,按“登录”按钮进行登录,登录成功后,进入系统。 系统初始密码为: 11。进入系统后,请及时在菜单“修改管理员信息”中修改登录密码。 4.1.2. 修改管理员信息 修改管理员信息包括修改管理员的密码、中文名。 4.1.3. 系统参数配置 用于修改系统中预设的系统参数,包括 同时抓取的网页数 、 信息抓取日志文件存放路 益众网站信息抓取工具用户手册 第 13 页 共 72 页 径 、 网络连接超时 等 。参数说明如下: 参数名称 参数说明 缺省值 spider_count 同时抓取的网页数(任务数)。取决于主机性能及网络速度,取值应在1 到 10 之间 4 spider_log_file_path 信息抓取日志文件存放路径。 Windows 下通常为:C:webspiderlogs Linux 下通常为:/usr/local/webspider/logs C:webspiderlogs network_timeout 网络连接超时,单位:秒。 0 表示永不超时。强烈建议不要设置为0,否则可能会导致网页抓取堵塞。 60 page_charset 页面字符集,取值 GBK或 UTF-8。对于只抓取简体中文的网页,建议设置为 GBK;如果抓取的网页中既有中文网页,还有德文网页等其他语种的 网页,应设置为 UTF-8。 GBK http_default_charset 抓取到的页面的缺省字符集。如果页面配置信息中的页面字符集设置为自动识别且不能自动获得页面字符集时,该GBK 益众网站信息抓取工具用户手册 第 14 页 共 72 页 页面采用本参数值。 http_request_header 向服务器发送请求时发送的头部信息,格式为:参数名 =参数值。 一个控制参数一行。 accept=*/* accept-language=zh-cn content-type=app
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论