版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 益众网站信息抓取工具用户手册第 1 页 共 72 页益众网站信息抓取工具用户手册 益众网站信息抓取工具用户手册第 2 页 共 72 页目 录1.1.概述概述.41.1.关于网站抓取工具.41.2.特点.52.2.软件安装软件安装.52.1.安装环境.52.1.1.硬件环境.52.1.2.软件环境.52.2.安装步骤.62.2.1.安装jdk 1.5.x.62.2.2.安装数据库.62.2.3.导入系统数据.62.2.4.安装本系统.72.2.5.tomcat启动和停止.93.3.术语术语.104.4.使用说明使用说明.114.1.辅助功能.124.1.1.登录.124.1.2.修改管理员信息
2、.124.1.3.系统参数配置.124.1.4.入库数据表配置.134.1.5.抓取统计.144.1.6.查看网页源码.144.1.7.软件注册.144.2.页面配置.144.2.1.增加页面基本信息.154.2.2.修改页面基本信息.164.2.3.删除页面基本信息.164.2.4.url配置.174.2.5.增加正文页url及定位配置信息.174.2.6.修改正文页url及定位配置信息.194.2.7.增加列表页url配置信息.194.2.8.修改列表页url配置信息.214.2.9.url参数配置.214.2.10.增加url参数.214.2.11.修改url参数.224.2.12.删除
3、url参数.234.2.13.设置url参数值.234.2.14.增加url参数值.234.2.15.修改url参数值.244.2.16.删除url参数值.24 益众网站信息抓取工具用户手册第 3 页 共 72 页4.2.17.定位信息设置.244.2.18.增加列表页定位配置信息.254.2.19.修改列表页定位配置信息.264.2.20.下级页面配置.264.2.21.增加子页面.274.2.22.修改子页面.284.2.23.删除子页面.284.2.24.设置抓取时间.284.2.25.抓取.304.3.页面解析.304.3.1.增加页面解析配置信息.304.3.2.修改页面解析配置信息
4、.344.3.3.删除页面解析配置信息.344.3.4.值替换配置信息.344.3.5.增加值替换配置信息.354.3.6.修改值替换配置信息.354.3.7.删除值替换配置信息.354.4.页面入库.364.4.1.增加页面入库数据表信息.364.4.2.修改页面入库数据表信息.374.4.3.删除页面入库数据表信息.374.4.4.字段对照值配置信息.374.4.5.增加字段对照值.384.4.6.修改字段对照值.394.4.7.删除字段对照值.395.5.配置样例配置样例.395.1.登录.405.2.入库数据表配置.405.3.页面配置.405.3.1.页面基本信息配置:.415.3.
5、2.url配置:.425.3.3.定位信息配置:.435.4.页面解析.445.5.下级页面配置.465.6.下级页面解析:.485.7.入库配置:.515.7.1.选定入库数据表.515.7.2.字段对照值配置.535.8.抓取:.556.6.参考内容参考内容.566.1.规则表达式.566.2.jdbc url.587.7.服务支持服务支持.60 益众网站信息抓取工具用户手册第 4 页 共 72 页1.1. 概述概述. 关于关于网站抓取工具网站抓取工具本工具可以抓取互联网上的任何网页,包括需要登录后才能访问的页面。对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题、作
6、者、来源、正文等。支持列表页的自动翻页抓取,支持正文页多页合并,支持图片、文件的抓取,可以抓取静态网页,也可以抓取带参数的动态网页,功能极其强大。用户指定要抓取的网站、抓取的网页类型(固定页面、分页显示的页面等等) ,并配置如何解析数据项(如新闻标题、作者、来源、正文等) ,系统可以根据配置信息自动实时抓取数据,启动抓取的时间也可以通过配置设定,真正做到“按需抓取,一按需抓取,一次配置,永久抓取次配置,永久抓取” 。抓来的数据可以保存到数据库中。支持当前主流数据库,包括:oracle、sql server、mysql 等。本工具完全可以替代传统的编辑手工处理信息的模式,能够实时、准确、一天24
7、*60 不间断为企业提供最新资讯,真正能为企业降低成本,提高竞争力。系统功能结构图如下图所示: 益众网站信息抓取工具用户手册第 5 页 共 72 页. 特点特点适用范围广,可以抓取任何网页(包括登录后才能访问的网页)处理速度快,如果网络畅通,1 小时可以抓取、解析 10000 个网页采用独特的重复数据过滤技术,支持增量式数据抓取,可以抓取实时数据,如:股票交易信息、天气预报等抓取信息的准确性高,系统提供了强大的数据校验功能,保证了数据的正确性支持断点续抓,在当机或出现异常情况后可以恢复抓取,继续后续的抓取工作,提高了系统的抓取效率对于列表页,支持翻页,可以抓取到所有列表页中的数据
8、。对于正文页,可以对分页显示的内容自动进行合并;支持页面深度抓取,页面间可以一级一级地抓下去。比如,通过列表页抓取到正文页 url,然后再抓取正文页。各级页面可以分别入库;web 操作界面,一处安装,随处使用分步解析,分步入库一次配置,永久抓取,一劳永逸2.2. 软件安装软件安装. 安装环境安装环境.1.1.硬件环境硬件环境机型要求:pc、pc serve、服务器最小内存:256mb最小硬盘空间:1gb.1.2.软件环境软件环境操作系统:windows 2k/xp,linux、solaris 等 unix 系统数据库:mysql、sql server、
9、oracle 之一 益众网站信息抓取工具用户手册第 6 页 共 72 页java jdk:1.5 及以上版本web server:tomcat5.0 及以上版本 . 安装步骤安装步骤.2.1.安装安装 jdk 1.5.x如果机器上没有 jdk 1.5.x 的环境,需要安装 jdk 1.5.x,推荐安装的版本为 1.5.0。jdk 为 sun 公司推出的 java 开发包,您可以去网站 http:/ 下载,也可以在我们的网站下载 jdk 1.5.0,下载链接:windows:http:/ java_home,需要设置为 jdk 的安装目录。例如:windows 下为
10、c:jdk1.5.0,unix 下为/usr/java/jdk1.5.0。.2.2.安装数据库安装数据库如果机器上没有安装数据库,请安装 mysql 数据库。您可以去 mysql 官方网站http:/ mysql 4.0.x:windows:http:/ dbscript 下。如果使用的数据库为 mysql,需要使用如下两个命令行导入数据:mysql u【用户名】 -p【密码】 db_mysql.sqlmysql u【用户名】 -p【密码】 db_wis help.sql例如:mysql uroot db_mysql.sqlmysql uroot db_wis help.sql
11、益众网站信息抓取工具用户手册第 7 页 共 72 页即可完成数据库的创建及数据导入工作。.2.4.安装本系统安装本系统把安装包解压到指定目录。windows 系统中,需要把本系统安装在 c:webspider 目录下,请确认文件 webspider.war 存放在 c:webspider 目录下;unix 系统中,需要把本系统安装在/usr/local/webspider 目录下,请请确认文件 webspider.war 存放在/usr/local/webspider 目录下。1)如果已经安装了 tomcat5.0 及以上版本,可以把本抓站系统集成到已有 tomcat 中。为了保
12、证程序能正常运行,需要修改 tomcat 的启动脚本。windows 下修改文件catalina.bat,在文件的前面设置变量 java_opts,如下所示:set java_opts=-agentlib:c:webspiderclassloaderunix 系统下,修改文件 catalina.sh,在文件的前面设置变量 java_opts,如下所示:java_opts=-agentpath:/usr/local/webspider/libclassloader.so需要在 tomcat 的配置文件 server.xml 中增加一个 context(子项目) ,需要增加的配置代码如下(样例):
13、 driverclassname org.gjt.mm.mysql.driver url jdbc:mysql:/:3306/db_wis?autoreconnect=true&useunicode=true&characterencoding=gbk 益众网站信息抓取工具用户手册第 8 页 共 72 页 username root password maxidle 5 maxactive 100 maxwait 5000 2)如果机器上没有安装 tomcat,直接使用安装目录下的 tomcat。windows 系统下需要修改 c:webs
14、pidertomcat-5.0.28confserver.xml 中的 context 配置,unix 系统下需要修改/usr/local/webspider/tomcat-5.0.28/conf/server.xml 中的 context 配置。如果本系统没有安装在缺省目录下,需要修改中的属性 docbase,把其中的路径设置为系统安装到的路径。并且要修改 tomcat 的启动脚本,在 windows 下修改文件catalina.bat,在 unix 下修改 catalina.sh,把变量 java_opts 中的-agentlib 设置为正确值。参见本节的 1) 。 益众网站信息抓取工具用
15、户手册第 9 页 共 72 页和之间为数据库连接池配置。需要修改数据库连接池配置中的 driverclassname、url、username 和 password 等参数值,以保证能正常连接数据库。启动 tomcat 后,在浏览器中键入网址:http:/【目标服务器】/webspider/,例如:http:/locahost:8080/webspider/,进入本抓站系统的登录界面。.2.5.tomcat 启动和停止启动和停止1)windows 系统系统:启动命令:startup.bat停止命令:shutdown.bat为了实现 tomcat 在开机时自动启动,需要把 tomc
16、at 加到系统服务中。进入 tomcat 的bin 目录,修改 tomcat 的 service.bat,在语句echo the service %service_name% has been installed.前加上:%executable% /us/%service_name% +jvmoptions -agentlib:c:webspiderclassloader然后执行如下两行命令:service removeservice install重新安装 tomcat 服务2)unix 系统系统:启动命令:startup.sh停止命令:shutdown.sh为了实现 tomcat 在开机时
17、自动启动,需要把 tomcat 加到操作系统的启动脚本中,例如:linux 的启动脚本文件为/etc/rc.local。在启动脚本中增加一个命令行:【tomcat 所在目录】/bin/startup.sh &例如:/usr/local/webspider/tomcat-5.0.28/bin/startup.sh & 益众网站信息抓取工具用户手册第 10 页 共 72 页3.3. 术语术语本工具使用的术语如下:正文页:只有一条记录的页面,如新闻页、职位信息页面等列表页:有多条记录的页面,如新闻列表页,职位列表页等页面配置:对于要抓取的页面进行分析配置,找到要获得的数据项的定位页面
18、解析:对于页面上的数据项进行解析,得到该数据项页面入库:针对解析出的数据项,存放到数据库里下级页面:页面 url 来自上级页面的网页,也叫做子页面。一个页面得到很多链接,针对每一个链接进行配置得到的页面定位信息:能够定位到页面中所需的数据的起始和终止位置(定位字符串)规则表达式:处理字符串匹配的一种简便方法,参见“规则表达式”url 配置:用来配置如何获得要抓取页面的网页地址url 参数配置:有的页面 url 中含有参数,需要进行配置网页调用方式:页面请求的方式,包括 post 和 get,通常为 get 方式。判断一个页面的调用方式可以在页面代码中的“”处查到其它页 url 获得方式:获得其
19、他页网页地址的方式,有两种方式:固定模式:遵循某种固定模式,网页地址中可以带参数动态解析:没有固定的模式,需要分析页面,通过解析获得其他页地址参数取值类型:url 参数中参数取值方式,有两种方式:有序值:遵循某种顺序,包括起始值、循环步长和终止值。例如:顺序递增的信息 id 值离散值:分散的值序列,例如:城市区号、信息分类编码等列表页记录:列表页中要获取的每一项被称为一条记录,通常一行数据为一条记录规则表达式转义:规则表达式中对于一些特殊字符(如.、?、*等)需要进行转义,因规则表达式配置容易出错,本系统提供自动转义功能规则表达式检测:对于写好的规则表达式,进行检测,因规则表达式配置容易出错,
20、本系统提供检测功能 益众网站信息抓取工具用户手册第 11 页 共 72 页4.4. 使用说明使用说明首先介绍一下本软件的使用流程,以下的具体功能说明均按照使用流程一步一步展开。登录:进入系统入库数据表配置:设置本系统将要使用的数据库和数据表信息页面配置页面基本信息配置:要抓取一个网站,首先要配置该网站的基本信息,作为入口url 配置:配置要抓取页面的 url定位信息配置:配置要抓取页面内容的具体定位信息下级页面配置:对于任何页面,都可以根据该页面解析出来的 url,增加子页面,可以深度挖掘想要的信息。页面解析页面解析配置:配置要抓取页面内容的具体解析信息值替换:对需要替换的页面数据项信息进行替
21、换设置页面入库设定入库数据表:设定该页面要入库的数据表入库字段对照值:设定该页面数据项和数据表字段的对照关系系统使用流程图如下: 益众网站信息抓取工具用户手册第 12 页 共 72 页. 辅助功能辅助功能辅助功能主要包括登录、修改管理员信息、系统参数配置、入库数据表配置、抓取统计、查看网页源码、软件注册等。.1.1.登录登录进入系统,必须先登录,在浏览器里输入:http:/【服务器 ip:端口】/webspider/,例如:http:/localhost:8080/webspider/,显示登录页面,输入管理员用户名、密码后,按“登录”按钮进行登录,登录成功后,进入
22、系统。系统初始密码为:11。进入系统后,请及时在菜单“修改管理员信息”中修改登录密码。.1.2.修改管理员信息修改管理员信息修改管理员信息包括修改管理员的密码、中文名。.1.3.系统参数配置系统参数配置用于修改系统中预设的系统参数,包括同时抓取的网页数、信息抓取日志文件存放路 益众网站信息抓取工具用户手册第 13 页 共 72 页径、网络连接超时等。参数说明如下:参数名称参数说明缺省值spider_count同时抓取的网页数(任务数) 。取决于主机性能及网络速度,取值应在 1 到 10 之间4spider_log_file_path信息抓取日志文件存放路径。wind
23、ows 下通常为:c:webspiderlogslinux 下通常为:/usr/local/webspider/logsc:webspiderlogsnetwork_timeout网络连接超时,单位:秒。0 表示永不超时。强烈建议不要设置为0,否则可能会导致网页抓取堵塞。60page_charset页面字符集,取值gbk 或 utf-8。对于只抓取简体中文的网页,建议设置为 gbk;如果抓取的网页中既有中文网页,还有德文网页等其他语种的网页,应设置为 utf-8。gbkhttp_default_charset抓取到的页面的缺省字符集。如果页面配置信息中的页面字符集设置为自动识别且不能自动获得页
24、面字符集时,该gbk 益众网站信息抓取工具用户手册第 14 页 共 72 页页面采用本参数值。http_request_header向服务器发送请求时发送的头部信息,格式为:参数名=参数值。一个控制参数一行。accept=*/*accept-language=zh-cncontent-type=application/x-www-form-urlencodeduser-agent=mozilla/4.0 (compatible; msie 6.0; windows nt 5.0)cache-control=no-cachehttp_mime_mappingcontent-type 和文件后缀名
25、对照信息,格式为:content-type=文件后缀名列表,多个文件后缀名之间用西文逗号分隔。一个对照一行。image/gif=gifimage/jpeg=jpg,jpegimage/png=pngapplication/vnd.ms-powerpoint=pptapplication/vnd.ms-excel=xlsapplication/msword=docapplication/x-shockwave-flash=swftext/html=html,htmtext/plain=txtvisual_parse_exclude_tag可视化解析时,定位字符串中不应出现的html 标记,多个标
26、记之间用西文逗号分隔。a,iframehttp_proxy_ipaddr代理服务器地址,如果不使用代理服务器,不需要设置。http_proxy_port代理服务器端口,小于等于 0 表示不使用代理服务器8080http_proxy_username代理服务器用户名http_proxy_password代理服务器用户密码 益众网站信息抓取工具用户手册第 15 页 共 72 页.1.4.入库数据表配置入库数据表配置入库数据表配置用于配置系统要使用的数据库、数据表信息。包括增加入库数据表、修改入库数据表、删除入库数据表功能。增加入库数据表,包括如下几个输入框:jdbc driver:j
27、dbc 驱动类名,例如:com.mysql.jdbc.driverjdbc url:jdbc 连接 url,例如:jdbc:mysql:/localhost:3306/test?useunicode=true&characterencoding=gbk。jdbc driver 和 jdbc url 如何配置,参见“6.2 jdbc 配置参考” 。用户名:用户名:连接数据库使用的用户名密码:密码:数据库用户密码数据表名:数据表名:指定入库数据表,将抓取到的数据保存到该数据表中。该数据表必须在数据库中存在(事先建立) 。入库方式:入库方式:获取的数据保存到数据库的方式,本系统提供三种方式:
28、insert:插入方式,如果关键字字段值已存在,入库失败update:只对数据库中已经存在的记录进行更新replace:对于存在的记录进行更新,不存在的记录进行插入定位记录的字段列表定位记录的字段列表:当入库方式为“update”和“replace”时,必须设定用于定位记录的字段列表,多个字段间使用西文逗号分隔。jdbc driver、jdbc url、用户名和密码这四项可以不输入,如果不输入,将使用系统缺省的数据库连接。点击数据表名输入框右侧的“选择数据表”按钮,在新弹出的页面内会列出需要进行入库的数据表名,选中后该数据表名会添加到输入框内,接下来选取入库方式。当入库方式为“update”和
29、“replace”时,必须设定用于定位记录的字段列表,可以点击右侧“选择字段”按钮进行选择,点击“新增”按钮,系统会增加一条入库数据表信息。修改入库数据表,修改已经配置好的入库数据表信息,操作步骤同“增加入库数据表” 。删除入库数据表,在入库数据表列表内,选中要删除的入库数据表,点击“删除”按钮即可删除。 益众网站信息抓取工具用户手册第 16 页 共 72 页.1.5.抓取统计抓取统计抓取统计用于查看系统对网站抓取情况的日志、统计信息等。在统计信息列表的“操作”栏中有三项操作:查看日志、查看详细统计信息、抓取。查看日志:可以查看该网站的抓取日志。查看详细统计信息:可以查看该网站及
30、其所有下级页面的详细抓取信息,可以查看最新一次及累计的抓取页面数、成功抓取页面数、成功解析页面数、成功入库页面数。抓取:可以启动该网站的抓取,实时观察抓取情况。.1.6.查看网页源码查看网页源码查看网页源码用于查看网站的页面代码,在进行抓取页面配置的过程中,需要打开页面的代码进行分析配置,但是有些网站出于安全考虑,对页面进行安全保护,导致无法获得页面代码,针对这些网站,可以使用本功能获得页面代码。在“网址”项输入要获得代码的 url,例如 。点击右侧的“确定”按钮,系统会将整个页面代码写入下方的文本框内,这样就可以进行页面配置了。点击“察看”按钮,可以进入到该页面,进行浏览。4.
31、.7.软件注册软件注册该工具未注册时,只能使用有限的试用功能,要想正式使用本系统,获得更多的使用功能的话,必须进行软件注册,点击页面上方菜单栏中的“软件注册”链接(如果已经注册了,不会显示该链接) ,会进入“软件注册”页面,该页面会显示您的机器码,在序列号输入框内正确输入我方提供的序列号后,点击确定后即可进行注册,如果您输入的序列号正确的话,您就可以畅通无阻地使用该工具的强大功能了。. 页面配置页面配置“页面配置”用于对要抓取网站的页面进行分析配置,这是进行抓取配置的第一步,主要功能包括增加页面基本信息配置、修改页面基本信息配置,删除页面基本信息配置、页面定位信息配
32、置、url 配置、url 参数配置、页面解析、页面入库、下级页面配置、设置抓取时间、启动抓取、复制页面配置等功能。 益众网站信息抓取工具用户手册第 17 页 共 72 页进入“页面配置”页面有两种方式:在任何页面下,点击页面最上方的菜单项中的“页面配置”链接在进行页面操作时,如果上方有导航条,点击导航条中“页面配置”链接页面配置页面中,上方的“网站 id” 、 “网页名称”等输入框中的为查询条件,如果不输入,表示不按该字段检索。各个字段之间是“且”的关系,即:如果指定了多个字段值,只有当这几个条件同时满足时才符合查询条件。可以按“网站 id” 、 “网页名称” 、 “网页类型”等字段排序,在排
33、序字段列表中选择一个排序字段即可。排序方式包括:升序和降序。升序表示从小到大的排列顺序,反之则是降序。“是否使用模糊查询方式”只对按“网页名称”查询有效。如果使用模糊查询方式,只要网页名称中包含了输入的关键字,就满足查询条件。不使用模糊查询方式,只有当输入的关键字和网页名称完全相同时才满足查询条件。例如网页名称为“最终页” ,输入的查询关键字为“最终” ,当使用模糊查询方式时,因为“最终页”中包含“最终”两个字,所以网页名称满足查询条件;如果不使用模糊查询方式,因为“最终页”和“最终”不相等,所以网页名称不满足查询条件。.2.1.增加页面基本信息增加页面基本信息增加页面基本信息是
34、整个页面配置的第一步,是增加一个网站抓取的入口页。点击页面上方的“页面配置”菜单,页面会显示系统已经配置好的网站列表,在列表的上方和下方各有一排按钮,点击其中“新增”按钮,即进入增加页面基本信息页面,这是配置信息抓取的入口页。根据页面提示设定好各输入项,具体输入项设定说明如下:网页名称网页名称:该项必须输入,根据需要设定名称,比如:“益众网” 。是否登录是否登录:如果要抓取的网站需要登录,选择“是” ,否则选择“否” ,当选取“是”时,下面会出现登录设置输入框,包括登录 url、登录方式、登录成功标志三项,其中“登录 url”项必须设置,设置为登录页面的 url,通常应包含用户名及用户密码,例
35、如:http:/ 。休眠时间休眠时间:每抓一个网页休眠的毫秒数,0 表示不休眠。该项必须输入。设置休眠时间主要是为了降低服务器的负载,保证其他关键业务的正常运行。 益众网站信息抓取工具用户手册第 18 页 共 72 页输入方式输入方式:有两个选项:html 和 text,表示被解析页面的输入方式,一般情况下都是html 输入方式。如果为 text(文本)输入方式,将把页面内容转换为纯文本后,再进行页面解析。页面字符集页面字符集:表示页面文本使用的字符集。有 5 个选项:简体中文、繁体中文、utf-8、iso8859_1 和自动识别。对于英文网站或国内的网站,通常应设置为简体中文;对于德语网站,
36、通常应设置为 iso8859_1。对于 utf-8 编码的网页,最好设置为自动识别,其他情况请不要轻易设置为自动识别。是否循环抓取是否循环抓取:表示所有页面抓取结束后,是否从头开始抓取, “是”表示重新抓取,“否”表示不重新抓取。只有当入口页的 url 设置了 1 个或多个参数时,本设置才有效。urlurl 保存周期保存周期:抓取到的页面 url 的保存周期,单位为天。保存网页的 url 是为了保证不会重复抓取网页。如果抓取的网页数很多,日积月累,会使保存的 url 信息过多而降低系统的处理速度。为了提高系统的性能,应根据实际情况尽可能把 url 保存周期设置得小一些。需要注意的是,0 表示不
37、保存已处理过的网页 url。不保存已处理过的网页 url,意味着下次抓取时,系统无法判断该 url 是否抓取过,因此系统就会尝试抓取。该项必须输入。可接受的网页连续抓取失败次数:可接受的网页连续抓取失败次数:抓取网页失败时,继续尝试抓取的页面数。假设其取值为 n,如果实际的连续失败次数大于 n,则不再继续抓取。一旦成功抓取了一个网页,实际的连续失败次数从零开始重新计数。0 表示不尝试抓取,该项必须输入。调试信息显示方式:调试信息显示方式:有四个选项:显示页面解析过程、显示详细调试信息、显示简单调试信息和不显示调试信息。是用来设定系统在抓取该网站时,采用何种方式显示调试信息的。显示调试信息的详细
38、程度按简单到详细排序如下:不显示调试信息显示简单调试信息:显示正在处理的网页 url显示详细调试信息:显示数据项的取值显示页面解析过程:显示数据项解析时的输入文本调试信息详细程度高的输出的调试信息包括上级需要输出的所有调试信息。例如,显示详细调试信息包括简单调试信息,显示页面解析过程包括详细调试信息。在抓取设置或调试阶段,应使用“显示详细调试信息”或“显示页面解析过程”或“显示简单调试信息”以便查看抓取结果,在出现问题的情况下,可以准确地定位出问题所在。 益众网站信息抓取工具用户手册第 19 页 共 72 页注意:抓取正常后,为了减少日志文件中的冗余信息,应设置为“不显示调试信息” 。是否有效
39、是否有效:设定该网页是否生效。 “有效”表示系统可以在后台中抓取该网页;“无效”表示系统在后台不抓取该网页。该选项可以随时进行修改,这样可以随时控制某个配置好的网站是否进行抓取。设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“页面基本信息增加成功”页面,该页面会显示设定的各项内容。点击“完成”按钮,会返回“网站列表” ,在列表中会显示出刚才新增加的网站信息,这样完成了抓取一个网站的入口配置。.2.2.修改页面基本信息修改页面基本信息在“网站列表”中右侧“操作”栏中,点击“修改基本信息”链接,会进入“修改页面基本信息”页面,根据需要设置好要修改的项,具体设置方式可参照“
40、增加页面基本信息” ,点击“保存”按钮,如果设置正确无误,会进入“修改页面基本信息成功”页面,显示页面设置的内容,点击“完成”按钮,会返回“网站列表” 。.2.3.删除页面基本信息删除页面基本信息在“网站列表”中,选中一条记录,点击列表页上方或下方的“删除”按钮,系统会提示确认信息,确定后删除该条页面基本信息记录,如果未选中记录,系统会提示选中要删除的记录。.2.4.url 配置配置完成“增加基本页面信息”后,页面会显示系统已经配置好的网站列表,或者点击页面上方的“页面配置”菜单,进入页面配置网站列表页面,进行 url 配置,选中要进行配置的网站,点击列表页上方或下
41、方的“url 配置”按钮,如果未选中要进行配置的网站,系统会提示“请选择要配置 url 的页面” ,选中后,系统会根据所选中网站的网页类型、是否已经有 url 配置信息,进入不同的操作页面:网页类型是正文页,未进行 url 配置的,进入“增加正文页 url 及定位配置信息”页面;已经进行过 url 配置的,进入“修改正文页 url 及定位配置信息”页面;网页类型是列表页, 益众网站信息抓取工具用户手册第 20 页 共 72 页未进行 url 配置的,进入“增加列表页 url 配置信息”页面;已经进行过 url 配置的,进入“修改列表页 url 配置信息”页面;.2.5.增加正文页
42、增加正文页 url 及定位配置信息及定位配置信息当选中网站的网页类型是正文页,且未进行 url 配置的,点击“url 配置”按钮进入“增加正文页 url 及定位配置信息”页面;按页面提示设置好各项,各项具体说明如下:页面页面 url:该项必须输入,设定要抓取的正文页的 url 地址,比如:http:/ 和 get,通常为get 方式。是否重新抓取是否重新抓取:用来设定对于抓取过的页面是否重新抓取。 “是”表示重新抓取, “否”表示不重新抓取。是否需要是否需要 unescapeunescape 解码解码:如果页面内容使用 javascript escape 编码,需要进行unescape 解码。
43、这种情况下页面调用 javascript 的函数 unescape 解码,为了获得解码后的内容,需要把本项设置为“是” 。可接受的页面可接受的页面 url 连续重复次数:连续重复次数:抓取页面过程中,url 连续重复时,继续尝试的抓取次数。假设其取值为 n,如果实际的连续 url 重复次数大于 n,则不再继续抓取。一旦一个网页的 url 不重复,实际的 url 连续重复次数从零开始重新计数。本项的缺省值为0,表示碰到已抓取过的网页,就停止抓取。该项必须输入且不小于零。可接受的入库连续失败次数:可接受的入库连续失败次数:抓取网页过程中,入库连续失败时,继续尝试的抓取次数。假设其取值为 n,如果实
44、际的入库连续失败次数大于 n,则不再继续抓取。一旦一个网页成功入库,实际的入库连续失败次数从零开始重新计数。本项的缺省值为 0,表示入库一旦失败,就停止抓取。该项必须输入且不小于零。定位到数据项开始的字符串定位到数据项开始的字符串:用于设置能够唯一定位到要抓取的数据项开始的字符串,这样可以保证解析出的页面数据项的准确性,也可以提高抓取效率。可以不设置,表示从页面的起始处开始。格式为:定位字符串,后面的“”为可选项。当没有本可选项时,表示跳过的匹配次数为 0。例如:表示跳过 2 次匹配,第 3 次匹配到的为起始位置。 益众网站信息抓取工具用户手册第 21 页 共 72 页定位到数据项结束的字符串
45、定位到数据项结束的字符串:用于设置能够唯一定位到要抓取的数据项结束的字符串,这样可以保证解析出的页面数据项的准确性,也可以提高抓取效率。可以不设置,表示数据项一直到页面结束。格式为:定位字符串,后面的“”为可选项。当没有本可选项时,表示跳过的匹配次数为 0。例如:表示跳过 1 次匹配,第 2 次匹配到的为数据项结束位置。是否分页显示是否分页显示:用于设定该正文页是否有多页。 “是”表示分页显示, “否”表示不分页显示。当选择“是”时,页面会显示如何获得下一页 url 的配置项,包括以下四项:定位下一页定位下一页 urlurl 开始的字符串:开始的字符串:用于设置能够唯一定位到下一页 url 开
46、始的字符串,这样可以保证定位到下一页 url 的准确性,也可以提高抓取效率。可以不设置,表示从头开始定位。定位下一页定位下一页 urlurl 结束的字符串:结束的字符串:用于设置能够唯一定位到下一页 url 结束的字符串,这样可以保证定位到下一页 url 的准确性,也可以提高抓取效率。可以不设置,表示定位到整个页面结束。定位下一页定位下一页 urlurl 的外围规则表达式:的外围规则表达式:用于设置缩小定位下一页 url 范围的规则表达式。关于本处及本手册以下各处的“规则表达式” ,参见“术语”说明。该项系统缺省设置为“.*?” ,一般情况下都可以解析,如发现特殊情况下一页定位方式不同的话,需
47、调整或重新设定。该项右侧有“转义”和“检测”两个按钮,关于本处及本手册以下各处的“转义”和“检测” ,参见“术语”说明。当把页面内的代码拷贝到该输入项时,点击“转义”按钮,系统会自动对输入项进行转义。注意当写好规则表达式后,不要进行转义操作,否则会将规则表达式的内容转义;对于设置完的规则表达式,可以点击“检测”按钮进行检测,系统会弹出一个新窗口,提示该规则表达式是否有效。定位下一页定位下一页 urlurl 规则表达式:规则表达式:获取下一页 url 的规则表达式。该项系统缺省设置为“下一页” 。一般情况下都可以解析,如发现特殊情况下一页 url不同的话,需调整或重新设置。如果没有下一页链接,只
48、有页码链接,通常可以设置为:$sys_current_page_no;,其中标记$sys_current_page_no;表示当前页码。设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“增加正文页 url及定位信息成功”页面,该页面会显示设定的各项内容。该页面有两个按钮:“url 参数配置”和“完成” ,如果该正文页 url 中包含参数,点击“url 参数配置”按钮,会进入 益众网站信息抓取工具用户手册第 22 页 共 72 页“url 参数列表”页面,进而进行 url 参数配置。如不需要进行 url 参数配置,点击“完成”按钮,会返回“网站列表” ,这样完成了该正文页的 url 配
49、置。.2.6.修改正文页修改正文页 url 及定位配置信息及定位配置信息在页面配置“网站列表”中,选中要进行配置的网页类型为正文页的网站,点击列表页上方或下方的“url 配置”按钮,如果该正文页已经进行过 url 配置,会进入“修改正文页 url 及定位配置信息”页面,根据需要设置好要修改的项,具体设置方式可参照“增加正文页 url 及定位配置信息” ,点击“保存”按钮,如果设置正确无误,会进入“修改正文页 url 及定位配置信息成功”页面,显示页面设置的内容,该页面有两个按钮:“url 参数配置”和“完成” ,如果该正文页 url 中包含参数,点击“url 参数配置”按钮,会进
50、入“url 参数列表”页面,进而进行 url 参数配置。如不需要进行 url 参数配置,点击“完成”按钮,会返回“网站列表” 。.2.7.增加列表页增加列表页 url 配置信息配置信息在“网站列表”中,选中要进行配置的网页类型为列表页的网站,点击列表页上方或下方的“url 配置”按钮,如果该列表页未进行过 url 配置,进入“增加列表页 url 配置信息”页面;按页面提示设置好各项,各项具体说明如下:第一页第一页 url:该项必须输入,设定要抓取的列表页的第一页 url 地址,比如:http:/ 中可以嵌入系统变量或 url 参数,嵌入方式为:$ + 变量名称 + ;。如$sys
51、_current_page_no;(当前页码) ,表示把当前页码值放置到$sys_current_page_no;所在的位置。点击右侧的“选择系统变量”按钮可以选择系统变量或 url 参数,加入到 url 中。其他页其他页 urlurl 获得方式获得方式:用来设定如何获得其他页 url,有两个选项:固定模式和动态解析。如果其他页 url 比较固定,包括一些参数,可以设定为固定模式,否则应设定为动态解析方式。动态解析表示在页面中提取下一页 url,利用规则表达式解析处下一页的url。当选择动态解析方式时,会出现解析下一页 url 四个设置项:定位下一页定位下一页 urlurl 开始的字符串:开始
52、的字符串:用于设置能够唯一定位到下一页 url 开始的字符串,这样可以保证定位到下一页 url 的准确性,页可以提高抓取效率。可以不设置,表示从头开始定位。 益众网站信息抓取工具用户手册第 23 页 共 72 页定位下一页定位下一页 urlurl 结束的字符串:结束的字符串:用于设置能够唯一定位到下一页 url 结束的字符串,这样可以保证定位到下一页 url 的准确性,也可以提高抓取效率。可以不设置,表示定位到整个页面结束。定位下一页定位下一页 urlurl 的外围规则表达式:的外围规则表达式:用于设置缩小定位下一页 url 范围的规则表达式。本项可以不设置,表示直接使用“定位下一页 url
53、规则表达式”即可解析出下一页 url。定位下一页定位下一页 urlurl 规则表达式:规则表达式:用于设置解析下一页 url 的规则表达式,该项必须设定。其他页其他页 url:设定要抓取的列表页的其他页 url 地址,如果不设置表示无其他页,只抓取第一页。当“其他页 url 获得方式”为“动态解析”时,该项必须输入。输入内容如:$1、$2 等,其中$1 代表规则表达式中匹配到的第一组值(第一对括号中匹配到的值) ,$2 代表规则表达式中匹配到的第二组值。当“其他页 url 获得方式”为“固定模式”时,点击右侧的“选择系统变量”按钮可以选择系统变量或 url 参数,加入到 url 中。提取提取
54、hiddenhidden 参数的参数的 formform 名称:名称:用于自动提取该 form 中的 hidden 参数及参数值,如果不需要提取,请不要输入。提取的提取的 hiddenhidden 参数名称:参数名称:多个参数名之间用西文逗号分隔,为空表示提取指定 form中的所有 hidden 参数。只有指定了提取 hidden 参数的 form 名称时,本字段才有意义。提取提取 hiddenhidden 参数的页面:参数的页面:只从第一页中提取 hidden 参数,还是从上一页提取 hidden参数。当下一页的 url 中包含页码或记录号时,通常应设置为“只从第一页中提取” ,以提高系统的
55、处理效率。对于一些特殊的列表页(例如:下一页 url 中没有包含页码或记录号) ,此时需要从上一页中动态提取 hidden 参数,本数据项应设置为“从上一页提取” 。只有指定了提取 hidden 参数的 form 名称时,本字段才有意义。起始页号:起始页号:用于设定该列表页的起始基准页号,取值通常为 0 或 1。基于 0 的情况下,第一页的页号为 0,第二页的为 1,以此类推。本项的缺省值为 1,表示按页码的自然顺序。此项必须设定。起始行号:起始行号:用于设定该列表页的起始基准行号,取值通常为 0 或 1,缺省值为 1。解释参见上面的“起始页号” 。此项必须设定。第一页的第一页的调用方式调用方
56、式:用来设定第一页请求的处理方式,有两个选项:post 和 get,通常应设置为 get。其他页的其他页的调用方式调用方式:用来设定其他页或下一页请求的处理方式,有两个选项:post和 get,通常应设置为 get。 益众网站信息抓取工具用户手册第 24 页 共 72 页是否是总页数标记是否是总页数标记:用来设定是总页数还是总记录数的标记。 “总页数”表示是总页数标记, “总记录数”表示是总记录数标记。定位记录数或总页数的规则表达式:定位记录数或总页数的规则表达式:用于设置解析总记录数或总页数的规则表达式。当“是否是总页数标记是否是总页数标记”设置为总记录数时,本项用于设置解析总记录数的规则表
57、达式;“是否是总页数标记是否是总页数标记”设置为总页数时,本项用于设置解析总页数的规则表达式。是否允许跳页是否允许跳页:用来设定列表页是否可以跳页, “可以”表示可以跳页, “不可以”表示不能跳页。此项用于设定断点续抓。可以跳页的情况下,可以直接跳到上次抓取到的下一页继续抓取,提高了处理效率,否则只能一页一页地翻到目标页。例如,列表页上次抓到了第 10 页就停止了。重新开始抓取从第 11 页开始,但有的网站不允许你直接到第 11 页,必须一页一页的翻到第 11 页,这里就只能设定“不可以”跳页。设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“增加列表页 url配置信息成功”页面,该
58、页面会显示设定的各项内容。该页面有两个按钮:“url 参数配置”和“完成” ,如果该列表页 url 中包含参数,点击“url 参数配置”按钮,会进入“url 参数列表”页面,进而进行 url 参数配置。如不需要进行 url 参数配置,点击“完成”按钮,会返回“网站列表” ,这样完成了该列表页的 url 配置。.2.8.修改列表页修改列表页 url 配置信息配置信息在“网站列表”中,选中要进行配置的网页类型为列表页的网站,点击列表页上方或下方的“url 配置”按钮,如果该列表页已经进行过 url 配置,会进入“修改列表页url 配置信息”页面,根据需要设置好要修改的项,具体设置方式
59、可参照“增加列表页url 配置信息” ,点击“保存”按钮,如果设置正确无误,会进入“修改列表页 url 配置信息成功”页面,显示页面设置的内容,该页面有两个按钮:“url 参数配置”和“完成”,如果该列表页 url 中包含参数,点击“url 参数配置”按钮,会进入“url 参数列表”页面,进而进行 url 参数配置。如不需要进行 url 参数配置,点击“完成”按钮,会返回“网站列表” 。.2.9.url 参数配置参数配置在增加 url 配置信息完成或修改 url 配置信息时,会出现“url 参数配置”按钮,如果需要配置 url 参数,点击该按钮进入“url 参数列表”页面。在该列
60、表的上方和下方各有一排按钮,点击“新增”按钮,进入“增加 url 参数”页面;选中一条记录,点击 益众网站信息抓取工具用户手册第 25 页 共 72 页“删除”按钮会提示是否删除该项,确定后即删除该 url 参数。列表右侧“操作”栏目,中有“修改”链接,对于“参数取值类型”为离散值的参数,还会显示“设置参数值”链接:点击“修改”按钮进入“修改 url 参数”页面;点击“设置参数值”按钮进入“url参数值列表”页面,进行参数值的增加、修改、删除操作。.2.10.增加增加 url 参数参数在“url 参数列表”中,点击列表页上方或下方的“新增”按钮,进入“增加 url 参数”页面;按页面提示设置好各项,各项具体说明如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年标准夫妻和平分手协议范本版B版
- 一些未获解答的问题心得体会
- 2024版二手房改造带儿童游乐区购房合同3篇
- 《吴茱萸汤加减治疗寒湿凝滞型原发性痛经的临床观察》
- 《ZIF-67衍生钴基复合材料电催化性能研究》
- 《寄宿制高中劳动教育实施现状及对策研究》
- 2024年度石英砂矿产资源合作勘查开发合同3篇
- 2024年农田作物种植技术转让合同2篇
- 2024年度云计算服务合同:某云服务提供商与客户之间的云计算资源租赁协议3篇
- 2024版二手房出售合同终止协议书2篇
- 新高考3+1+2改革情况详细讲解课件
- 压铸件气孔通用标准
- 思维训练——对折问题实用教案
- 资产核销管理办法
- 光伏电站并网调试方案
- 轻钢龙骨吊顶和隔墙材料介绍和工艺
- 三科变频器SK说明书
- 光栅衍射实验报告.doc
- 腹腔镜手术设备使用说明与注意事项
- 建渣处置-运输方案(共4页)
- 轮转护士考评表(精编版)
评论
0/150
提交评论