互联网信息采集系统用户手册_第1页
互联网信息采集系统用户手册_第2页
互联网信息采集系统用户手册_第3页
互联网信息采集系统用户手册_第4页
互联网信息采集系统用户手册_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、军犬互联网信息息采集系统用户手册V55.0TOC o 1-3 h z u HYPERLINK l _Toc186476385 第一章:系统介介绍 PAGEREF _Toc186476385 h 3 HYPERLINK l _Toc186476386 1.1软件简介介 PAGEREF _Toc186476386 h 3 HYPERLINK l _Toc186476387 1.2互联网信信息采集与挖挖掘 PAGEREF _Toc186476387 h 3 HYPERLINK l _Toc186476388 1.3互联网采采集系统流程程图 PAGEREF _Toc186476388 h 3 HYPE

2、RLINK l _Toc186476389 1.4系统应用用领域: PAGEREF _Toc186476389 h 4 HYPERLINK l _Toc186476390 1.5 软件特特点 PAGEREF _Toc186476390 h 4 HYPERLINK l _Toc186476391 1.6 系统配配置要求 PAGEREF _Toc186476391 h 13 HYPERLINK l _Toc186476392 1.7 系统性性能 PAGEREF _Toc186476392 h 13 HYPERLINK l _Toc186476393 第二章:使用手手册 PAGEREF _Toc18

3、6476393 h 14 HYPERLINK l _Toc186476394 2.1综合设置置 PAGEREF _Toc186476394 h 14 HYPERLINK l _Toc186476395 2.1.1数据据库管理 PAGEREF _Toc186476395 h 14 HYPERLINK l _Toc186476396 2.1.2表单单管理 PAGEREF _Toc186476396 h 14 HYPERLINK l _Toc186476397 2.1.3频道道管理 PAGEREF _Toc186476397 h 18 HYPERLINK l _Toc186476398 2.1.4模

4、板板管理 PAGEREF _Toc186476398 h 19 HYPERLINK l _Toc186476399 2.2信息采集集 PAGEREF _Toc186476399 h 19 HYPERLINK l _Toc186476400 2.2.1站点点基本属性 PAGEREF _Toc186476400 h 19 HYPERLINK l _Toc186476401 2.2.2提交交访问数据 PAGEREF _Toc186476401 h 20 HYPERLINK l _Toc186476402 2.2.3站点点链接预览 PAGEREF _Toc186476402 h 21 HYPERLIN

5、K l _Toc186476403 2.2.4 采采集过滤 PAGEREF _Toc186476403 h 22 HYPERLINK l _Toc186476404 2.2.5 分分页模板 PAGEREF _Toc186476404 h 22 HYPERLINK l _Toc186476405 2.2.6 附附件采集设置置 PAGEREF _Toc186476405 h 23 HYPERLINK l _Toc186476406 2.2.7新闻闻自动识别 PAGEREF _Toc186476406 h 23 HYPERLINK l _Toc186476407 2.2.8字段段提取设置 PAGER

6、EF _Toc186476407 h 24 HYPERLINK l _Toc186476408 2.2.9 字字段采后处理理 PAGEREF _Toc186476408 h 25 HYPERLINK l _Toc186476409 2.3站点管理理 PAGEREF _Toc186476409 h 25 HYPERLINK l _Toc186476410 2.3.1 采采集站点管理理 PAGEREF _Toc186476410 h 25 HYPERLINK l _Toc186476411 2.3.2扫描描采集源 PAGEREF _Toc186476411 h 25 HYPERLINK l _To

7、c186476412 2.3.3采集集日志 PAGEREF _Toc186476412 h 26 HYPERLINK l _Toc186476413 2.4 信息管管理 PAGEREF _Toc186476413 h 26 HYPERLINK l _Toc186476414 2.4.1信息息管理 PAGEREF _Toc186476414 h 26 HYPERLINK l _Toc186476415 2.4.2附件件管理 PAGEREF _Toc186476415 h 27 HYPERLINK l _Toc186476416 2.4.3记录录导入 PAGEREF _Toc186476416 h

8、 27 HYPERLINK l _Toc186476417 2.4.4信息息导出 PAGEREF _Toc186476417 h 28 HYPERLINK l _Toc186476418 2.5信息发布布 PAGEREF _Toc186476418 h 28 HYPERLINK l _Toc186476419 2.5.1登录录发布服务器器 PAGEREF _Toc186476419 h 28 HYPERLINK l _Toc186476420 2.5.2获取取发布权限的的信息 PAGEREF _Toc186476420 h 29 HYPERLINK l _Toc186476421 2.5.3新

9、建建发布表单发发布映射 PAGEREF _Toc186476421 h 29 HYPERLINK l _Toc186476422 2.5.4发布布表单映射管管理 PAGEREF _Toc186476422 h 29 HYPERLINK l _Toc186476423 2.5.5发布布频道映射管管理 PAGEREF _Toc186476423 h 30第一章:系统介介绍1.1软件简介介信息采集是指利利用计算机软软件技术,针针对定制的目目标数据源,实实时进行信息息采集、抽取取、挖掘、处处理,从而为为各种信息服服务系统提供供数据输入的的整个过程。军犬信息采集集专家是一一款基于人工工智能的自动动学习技

10、术,功功能强大、简简单实用的互互联网信息采采集与监控软软件。1.2互联网信信息采集与挖挖掘要求从互联网上上对特定目标标数据源或不不特定目标数数据源进行采采集与监控,并并对信息进行行结构化抽取取保存为本地地结构化数据据库,然后按按业务流程需需求与其它模模块结合,导导入与应用并并服务于到电电子行业平台台。互联网数据采集集与挖掘技术术是指利用计计算机软件技技术,针对定定制的目标数数据源,实时时进行信息采采集、抽取、挖挖掘、处理,从从而为各种信信息服务系统统提供数据输输入,并按业业务所需,进进行数据发布布、分析的整整个过程。1.3互联网采采集系统流程程图第一步:确定定采集任务。第二步:每个个采集任务,

11、我我们有多个目目标数据源可可供采集。第三步:针对对不同的目标标数据源,进进行不同的采采集配置,以以确保能采集集到数据。第四步:调度度采集任务,与与目标站点同同步更新,增增量采集。第五步:采集集到数据结果果,完成数据据异构到同构构的过程。第六步:通过过发布服务器器,将数据发发布到应用平平台。1.4系统应用用领域:1、搜索引擎与与垂直搜索2、综合门户与与行业门户3、电子政务与与电子商务4、知识管理与与知识共享5、企业竞争情情报系统6、BI商业智智能系统7、信息咨询与与信息增值8、信息安全和和信息监控1.5 软件特特点(1)、过滤滤干净,智能能化抽取正文文,且图文关关联图:采集的目标标源图:采集后“

12、干干净”的正文结果果(2)、数据据导出接口丰丰富,可以将将数据导出成成各种主流关关系型数据结结构。(3)、配置简简单对于新闻资讯采采集,只需输输入待采集目目标网站的地地址或某个主主题页面地址址,软件即会会自动学习网网站的风格,并并自动提取网网站的资讯,无无需配置模板板,目标网站站风格发生变变化,软件自自动学习。对于数据采集软软件提供了通通俗易懂的站站点配置向导导,维护人员员稍加培训即即可配置出任任何的信息采采集。对于复杂的采集集过程,通过过一张采集卡卡脚本即可实实现信息的自自动采集与监监控。 图:输入“网址址”,完成配置置工作图:支持关键字字采集,直接接输入关键字字,一步设置置输入“关键字”,

13、完成配置置工作(4)、所采即即所得,所采采即可见图:所采即所得得,所采即可可见(5)、增量采采集与自动更更新增加采集:对于于初次采集目目标网站,软软件支持完全全采集;而对对于已采集过过的站点支持持增量采集。 支持自动更新:自动检测站站点是否发生生更新,并不不会遗漏任何何一个重要的的信息。 (6)、采集结结果自动排重重不是利用简单的的规则判断,而是利用内内容的相似性性进行排重判判断,准确性性高,不会因因为标题或内内容的少许变变化而产生漏漏判,即使把把标题进行了了改头换面,系统也会正正确判定。(7)、内置强强大的信息监监控可以通过一个关关键字广域监监控互联网上上任何一个站站点上的相关关信息。也可可

14、以通过设置置监控频道监监控任何站点点所采集到含含有关键字的的信息。对于于数值字段可可以设置监控控误差监控数数值出现在一一定范围内的的信息。信息息监控达到字字段级。您可可以对任何一一个采集目标标网站设置监监控属性,监监控周期达到到了秒级。对对于发生变化化的信息可以以在短时间内内采集到本地地。图:独有的监控控功能,可能能对采集后的的结果进行进进一步监控与与过滤强大的站点管理理工具可以对对所有采集对对象进行集中中管理和各种种操作图:对所有采集集对象进行集集中管理和各各种操作图:随心所欲自自定义导航与与分类图:综全的选项项配置,提升升采集的性能能图:对采集后的的结果可以马马上进行修改改与编辑(8)、支

15、持多多种编码支持多种网站的的信息的编码码,GBK、BBIG5、UUNICODDE、UTFF8,软件会会自动转换成成GBK码进进行统一的处处理。软件即会自动识识别网站的组组织结构,自自动识别网站站的编码。 表单管理,随心心所欲自定义义表单,方便便采集不同的的内容,如采采集软件用单单独的表单,采采集图片用图图片表单。(9)、信息导导入导出随心心所欲提供信息导入导导出与其它软软件可作无缝缝连接 ,如如CRM OA 软件提供有强大大的信息记录录导入导出功功能,您可以以对任何一个个频道、一条条记录进行导导入与导出。可可以导成Exxcel/AAccesss等,也可以以直接导到指指定的数据库库。与信息发布服

16、服务器结合合使用可以将将信息发布到到任何一个地地方。 (10)、支持持阅读模板任何一种信息类类型,软件都都会自动创建建一个阅读模模板方便了您您快速阅读;任何信息您可以以对任何一种种信息表单定定制一款漂亮亮的阅读模板板,也可以对对任何一个频频道设置不同同的阅读模板板。 (11)、支持持多页面内容容重组对于目标数据源源的一篇文章章在目标网站站上分页显示示,系统能自自动对其重组组.软件运行稳定、采采集速度快、占占用系统资源源少历经多次改造的的软件采集底底层模块运行行稳定、采集集速度快,点点用系统资源源少。可多线线程并发运行行,而不占有有过多的系统统资源。采集集速度快到瞬瞬间到位。软软件完全可以以实现

17、7*224小时不间间断无人值守守的信息采集集。更多细节节功能有待于于您在使用中中去体验。 (12)、其它它特点列表:、支持多种语语言:支持简简体中文、繁繁体中文、英英文、日文、韩韩文等多国语语言、支持多种站站点类型:包包括htmll与rss、支持登录、验验证后采集、软件支持需需要登录与需需要验证码的的网站信息采采集,采集过过程完全仿人人工。 、支持附件采采集包括图片附件采采集、多媒体体附件采集、音音视频附件采采集、附件与与正文自动映映射与关联、完全结构化化抽取将网页的非结构构化数据抽取取成特定的结结构化信息数数据。网页搜索是以网网页为最小单单位,基于视视觉的网页块块分析是以网网页块为最小小单位

18、,垂直直搜索是以结结构化数据为为最小单位。然然后将这些数数据存储到数数据库,进行行进一步的加加工处理,如如:去重、分分类等,最后后分词、索引引再以搜索的的方式满足用用户的需求。整个过程中,数数据由 HYPERLINK /n20051112144458735.asp 非结构构化数据抽取取成结构化数数据,经过深深度加工处理理后以非结构构化的方式和和结构化的方方式返回给用用户。 、数据保存到到本地,您可可以随时查阅阅信息。 采集到信息自动动保存到本地地数据库,您您可以随时查查阅信息。 、多线层、多多任务、支持海量数数据采集10、软件实用用、易用、功功能强大11、可移植、可可扩展、可定定制1.6 系统

19、配配置要求需要WindoowsNT44/ Winndows 2000 Serveer 或更新新的操作系统统。需要 Micrrosoftt SQL Serveer 7/ 2000或或其它ODBBC接口硬件平台:inntel xxeon 11G 以上CCPU,10000M 以以上RAM,硬硬盘空间400GM 以上上1.7 系统性性能支持多线程采集集。单机在数据采集集在G级以上上。数据与数据源同同步更新小于于10秒级。数据同步发布小小于10秒级级。第二章:使用手手册2.1综合设置置2.1.1数据据库管理新建数据库通过“系统(SS)”主菜单下的的“新建数据库库”功能菜单,您您可以创建一一个全新的信信息

20、采集与管管理数据库。新新建的数据库库,默认会创创建一个新新闻表单,该该表单主要用用于文章、新新闻等资讯信信息管理,该该表单不允被被删除。我们们建议:您在在新建数据库库时希望能将将数据库文件件存储在与操操作系统不同同的驱动盘下下,这样数据据库中的信息息内容会更安安全一些。备份数据库通过备份数据库库的功能,您您可以将当前前正在使用的的数据库压缩缩并备份到另另一个目录下下。以备以后后的使用。压缩数据库由于桌面版的软软件版本使用用了微软的AACCESSS数据库,该该数据库在您您删除记录时时不会自动释释放已删除记记录所占用的的空间。所以以需要您不定定期地对当前前正在使用的的数据库进行行压缩,以减减少数据

21、库占占用硬盘资源源的空间。对于SQL SServerr版本的软件件,则无需使使用压缩数据据库的功能。软软件也将该功功能屏蔽。2.1.2表单单管理表单的概念互联网信息采采编发系统中中的表单等同同于数据库中中的表。通俗俗地说需要为为每种信息类类型创建一个个存储空间。不不同的是为了了能够对数据据库中的所有有表单记录进进行统一的管管理,需要在在各个表单中中预置一些字字段,通常这这些字段含以以下几个部分分:显示控制信息字字段: 密码码字段、文字字颜色字段、文文字背景颜色色字段、显示示图标字段后续跟踪信息字字段:信息来来源地址字段段频道信息字段:频道信息,监监控频道信息息 创建表单下面以创建一个个图书管理

22、表表单为例,逐逐步向您说明明如何创建一一个属于自己己的管理表单单。找到主菜单栏中中的“工具”=系统统表单管理菜单,在弹弹出的在表单单管理器中点点击“新建表单”按钮。在“表单标题”编辑框中输输入“图书表单”,在“表单名称”编辑框中输输入“tblBoookSheeet”。注意:如果“表表单名称”或“表单标题”为空将不能能成功地创建建表单。 点击“保存”按按钮,这时系系统会提示您您已成功地创创建了一个名名称“图书表单”的表单,并并在图书表单单下下挂三个个字段“记录编号”、“频道名称”、“源文地址”。这个三个个字段是软件件中对一个表表单中任何一一条记录进行行管理的必要要的字段。您您不可删除或或更改名称

23、或或属性。记录录编号用于标标识表单中任任何一条记录录的唯一的标标识。频道名名称用于标识识该记录从属属于哪个频道道;而源文地地址则用于标标识信息来源源于何处。表单标题该字段用于通俗俗易懂地标示示表单。必必须输入,我我们建议您表表单标题做到到整个数据库库是唯一的。表单名称该字段用于在数数据库中创建建对应表单的的名称,该字字段的值不能能与数据库中中其它的表单单名称重复需要在数据据库中唯一。字段值长长度不能超过过20个汉字字(40个英英文字母),命命名规则同WWindowws中的文件件命名规则相相同。可以取取与表单标题题相同的名称称,但建议采采用tblXXXXSheeet作为命命名规范。阅读模板该字段

24、用于标识识该表单的信信息内容阅读读模板的路径径,可以是文文件路径名称称如:e:Quickkreadeerreaadmodeeltbllbookssheet.html,也也可以是网络络上的某个路路径名如:hhttp:/www.xxx.ccom/tbblbookksheett.htmll。也可以是是相对路径,如:reaadmodeeltbllbookssheet.html(如果您将程程序安装在:cProogramee Filees采集软软件QuiickReaader,那那么该相对路路径相当于ccProggrame Filess采集软件件QuicckReadderreeadmoddeltbblboo

25、kksheett.htmll)如果没有该表单单对应的阅读读模板,“阅读模板”字段可以不不输入任何值值。等最后创创建完该表单单所有字段后后利用软件提提供的“创建模板”进行创建。 添加字段以创建图书信息息管理表单为为例,假设管管理图图需要要以下字段:字段标题 字段段名称 说明明 属性 图书名称 flldBookkName 用于保存图图书的名称 字符型,长长度40,查查重键,主题题键 作者 flddBookAAuthorr 图书作者者 字符型,长长度30 购买日期 flldPurcchaseDDate 可可用于控制或或统计 日期期型 图书价格 flldBookkPricee 价格 浮浮点型 借阅人

26、flddUserNName 当当前借阅用户户名称 字符符型,长度440 借阅日期 flldBrowwDate 借阅日期 日期型 图书简介 flldBookkMemo 有关该图书书的说明 备备注型 选中刚才新建的的“图书表单”后,点击“新建字段”按钮,将在在“图书表单”下增加一个个结点,编辑辑框中预输入入了“新字段”,你可以在在这里输入字字段标题,也也可以在列表表中的“字段标题”中输入。现现在,在结点点编辑中输入入“图书名称”后,点击列列表中的“字段名称”在编辑框中中输入“fldBoookNamme”。选择“字段类型”为“字符”,“长度”输入40,“设为查重键键”选择“是”,“允许为空”选择“否

27、”。点击“保存”按钮。如果果没有报错表表明系统已成成功地图书表表单上增加了了“图书名称”字段。可按照上述图书书管理的需求求表格,完成成在图书表单单的创建工作作。 下面将对表单各各个属性进行行详细地说明明。 字段标题 该字段用于通俗俗显式地标示示字段的名称称,在同一个个表单中字段段名称不能重重复。最大长长度不能超过过50个字节节。字段名称该字段用于在表表单中隐式地地标示字段名名称,在同一一个表单中字字段名称不能能重复。最大大长度不能超超过50个字字节,命名规规则同Winndows中中的文件命名名。建议采用用fldXXXX作为该值值的输入规范范。字段类型目前字段类型有有:字符型、日日期型、整型型、

28、浮点型和和备注型5种种字段类型,可可以根据实际际需要从这55种类型中选选择。不同类类型的字段在在输入字段值值时将有不同同的控件和限限制。可以在在以后对其进进行修改。字段长度 字段长度只能“字符型”的字段有效效,其它类型型输入长度是是无效的,对对于字符型长长度值默认为为50个字节节。设为查重键该字段可以选择择为“是”或“否”。可根据实实际需要设置置一些字段为为查重键。如如我们在“图书表单”中设置“图书名称”为查重键,这这样,以后在在输入每一本本书的属性时时,系统将查查找是否存在在有相同图书书名称的记录录。主题字段该字段可以选择择为“是”或“否”。用于标识识一条信息中中的最主要的的信息的字段段。如

29、新闻表表单中的新闻闻标题。我们们在“图书表单”中可以设置置“图书名称”为主题字段段。识别标签该字段将用于文文档识别、网网络信息采集集时对该字段段值的自动识识别。如以后后需要自动从从文本中识别别“图书名称”的值,则可可以输入“图书名称;名称;图书书;BOOKKNAME;”等作为图书书名称字段的的识别标签,各各个标签之间间以“;”或“;”分隔。默认值 该值将用于在识识别、录入或或采集时没有有得到该字段段的值是将用用默认值填入入。如有字段段“性别”,在没有识识别到“性别”字段的值时时,将用默认认值“女”或“男”作为“性别”的值。在列表中显示用于控制属性字字段在概览表表单内容时是是否在列表中中显示。列

30、表宽度用于控制属性字字段在概览表表单时显示在在列表中的长长度。对齐格式用于控制属性字字段在概览时时在列表中的的对齐格式,有有三种选择:左对齐、居居中对齐和右右对齐。可选择以前的值值用于控制在录入入该表单的资资讯时,该属属性字段可否否从以前录入入的值中选择择一个。如有有属性字段“民族”,则在录入入记录信息时时遇到该属性性字段既可以以手工输入也也可以从以前前的值中选取取一个。允许为空用于控制属性字字段是否允许许为空,如果果设置不空时时,在录入或或采集该表单单的资讯记录录时,发现该该字段没有值值的记录将被被丢弃或要求求录入该字段段。如“图书表单”中要求“图书名称”不为空,那那么如果“图书名称”为空的

31、话,该该记录就变得得没必要了。修改属性在使用表单的过过程中,还可可以表单的属属性进行修改改与编辑,但但不能修改表表单名称和字字段名称。修修改后的属性性可以立即在在使用中生效效。特别提示:在信信息采集的过过程中软件不不允许您对表表单进行修改改。删除表单通过“删除表单单”按钮可以删删除掉一些不不再使用的表表单。注意:删除表单单时,表单中中的所有记录录将被同时删删除,另外建建立在该表单单基础上的所所有栏目也将将被删除。删除字段通过“删除字段段”按钮可以删删除掉一些不不再使用的属属性字段。注意:删除字段段时将同时删删除表单中该该字段的所有有数据。上移下移字段您可以通过“上上移”按钮将表单单中的一个字字

32、段上移或下下移到到一个个指定的位置置。以改变字字段在列表与与阅读模板中中显示顺序。 创建阅读模板板您可以随时使用用“表单管理器器”中的“创建模板”功能为某个个表单创建一一个由系统生生成的阅读模模板。阅读模模板主要是便便于您快速阅阅读信息。您您也可以自己己一个漂亮的的阅读模板。如如何创建阅读读模板,请参参照阅读模模板一节。远程表单管理远程表单管理对对于使用了互互联网信息采采编发系统 的用户才会会显示。对于于普通的用户户不会显示有有该节点。主主要用于管理理远程发布服服务器上的分分配给指定用用户允许使用用的发布表单单。只有在发发布服务器上上分配给用户户允许发布的的表单后才会会在该节点下下显示有相关关

33、的表单信息息。用户可以以通过表单管管理器来浏览览远程表单的的信息。但不不能修改表单单属性。2.1.3频道道管理 创建频道选中一个结点作作为新建频道道的父目录,点点击右键,在在弹出的右键键菜单上选择择“新建频道”,在弹出的的“频道属性”对话框中输输入频道的名名称,并选择择一个表单,默默认为“新闻表单”,我们选择择前面表单管管理中创建的的“图书表单”。如果存在在有该频道的的阅读模板,可可以浏览输入入模板的路径径。最后,还可以为为该频道选择择一个适合的的图标。如果果图标列表中中没有合适的的图标,也可可以找到一个个合适的图标标文件,并将将图标文件放放置于安装目目录的Icoon目录下。重重启软件,就就可

34、以更新该该栏目的图标标为您刚才放放置的图标。修改频道属性可以通过右键菜菜单或双击某某个频道,都都可以弹出频频道属性对话话框,可以在在属性对话框框中修改频道道的各个属性性(不能修改改栏目所对应应的表单)后后保存即可。删除频道通过右键菜单可可以删除选中中的频道,注注意删除频道道时将同时删删除其子频道道的所有信息息。如果该频频道及其子频频道下的记录录比较多,删删除可能需要要一段时间,请请耐心等待。隐藏频道在频道较多的时时候,可以通通过隐藏频道道功能隐藏一一些栏目在导导航树上的显显示。刷新频道通过刷新频道,可可以重新在导导航树上显示示那些被隐藏藏的子频道。清空频道清空频道,将会会将频道中的的所有记录都

35、都清空,但不不会影响到其其子频道的信信息。设置频道密码设置了频道密码码后,可以控控制频道的访访问权限,再再次访问需要要输入密码才才可以访问。设置标记还可以将频道标标记为重要(或或一般)的状状态,标记为为重要状态的的频道文字将将以加粗的方方式显示,相相反标记为一一般的频道则则以非加粗的的方式显示。还还可以设置或或取消频道结结点的文字颜颜色。而也可可以通过取取消所有文字字颜色来取取消所有已设设置文字显示示颜色的频道道的颜色。拖动频道通过将选中的频频道拖动到其其它频道下,可可以改变频道道的父结点。下下次生成导航航树时将会把把被拖动的频频道显示在新新的父频道下下,以改变信信息分类结构构。2.1.4模板

36、板管理阅读模板的作用用通过阅读模板可可以将表单中中的信息内以以网页的形式式快速展现,以以便让您快速速阅读。互互联网信息采采编发系统可可以支持对每每个频道定义义一个不同的的模板也可以以是同一表单单共用一个阅阅读模板。 如何设计模板下面以一个新闻闻阅读模板作作为示例,说说明如何设计计模板。模板板中必须包含含您要为哪个个信息表单中中要快速阅读读的字段设置置的阅读模板板。如上述模模板中要显示示新闻作者,新新闻来源,所所属频道,收收录日期和新新闻内容以及及新闻相关附附件等。设计计好的模板中中主要在各位位单元格中放放置“表单管理”中各个要显显示的字段的的字段名称。主主要放置 iid=字段段名称 nname

37、=字段名称 。这里要要特别说明是是放置字段名名称,而非字字段标题2.2信息采集集2.2.1站站点基本属性性在增加或编辑站站点属性时,需需要设置站点点的的第一步步就是设置采采集站点的基基本属性。站站点基本信息息包括:站点地址站点地址设定了了从该站点哪哪个页面开始始采集。可以以一些网站的的首页,可以以是网站中某某个主题的页页面地址,也也可以是某个个论坛的地址址。还可以是是某个RSSS站点的链接接地址。站点名称站点名称主要用用于显示地标标识该站点,以以便于以后站站点维护与管管理。特别说明:当您您在输入了站站点的地址后后,可以点击击旁边的小球球。该功能既既可以帮您取取得站点的名名称,也可以以取得下面要

38、要说到的站点点类型和站点点编码。站点类型您可以手工设置置站点的类型型,也可以由由软件自动识识别。目前有有两种类型的的站点类型:普通HTMML站点和聚聚类RSS站站点。目前大大部的站点还还是普通的HHTML站点点,软件会自自动识别出该该站点上所有有的信息链接接;聚类RSSS站点是近近几年兴起的的一种信息聚聚合方式,这这里面可能包包含了多个不不同网站相同同或相关主题题的信息链接接。只要您输输入一个地址址,软件自动动识别站点类类型。站点编码站点编码用于显显示地告诉软软件该站点的的网页采用了了哪种编码模模式,如繁体体网页一般采采用BIG55编码;一些些网站的网页页则采用UTTF8编码。对对于不同的编编

39、码网页软件件需要进行统统一的编码转转换处理后再再进行提取。一一般软件会自自动识别网站站的编码模式式。而对于不不能识别出站站点的编码模模式,则需要要用户手工设设定采集站点点的编码模式式。这样,可可以最大地保保证网站的信信息采全。需要使用代理有些站点可能需需要设置代理理信息才能访访问与采集,而而且其它的站站点并不需要要代理。而如如果所有需采采集的网站都都需要通过代代理,你只需需设置默认认采集属性中的代理信信息后,以后后增加每个站站点都会自动动采用该代理理。不需使用用代理的采集集一般比使用用代理采集速速度要快。该网站需要登录录在采集一些如论论坛或其它需需要您输入登登录账号的站站点时,需要要设置登录用

40、用户名和密码码。登录时需要输入入验证码 有些网站在采集集时除了需要要登录外,还还要求登录时时输入一个图图片或文字形形式的验证码码才能采集。这这里就需要您您设置如何提提取与识别验验证码。需要使用代理、网网站需要登录录详见登录录目标网站;登录时需需要输入验证证码,详见验证码识别别允许自动周期检检测该站的更更新并采集对于一些需要长长期采集其发发布的最新信信息,适当地地设置每个站站点的更新周周期,可以加加快每次的更更新速度。因因为有些站点点是1个星期期更新一次,而而有些站点几几分钟就更新新一次。通过过设置的周期期猎手可以快快速检测并更更新达到更新新周期的站点点。2.2.2提交交访问数据为什么要提交数数

41、据有些时候,我们们为了准确地地控制采集页页面,或是为为了登录等的的要求,需要要在访问网页页时提交一些些数据给目标标网站。目标标网站在解析析了这些数据据后就会按照照数据中的要要求返回相应应的页面。您只需把要提交交的访问数据据拷贝到该页页面的顶端最最大的编辑框框中,软件就就会自动解析析这些数据。您您可以修改解解析后的参数数列表中的某某些参数值。比比如usernamme=abccd&useerpswdd=134&classsid=233&pageeno=2可以解释成这样样的:用户名名:abcdd 密码1334 要访问问类别ID为为23 的第第二页上的信信息。只要这这些信息 符符合目标网站站的要求,就

42、就会返回相应应的页面。如何获得访问数数据 我们知道了访问问数据的重要要性,我们就就要知道如何何才能获得访访问数据。获获得访问数据据的方法有很很多,我们在在此推荐一种种最可靠最有有效的获取访访问数据的方方法。您可以在互联网网上下载一些些捕包工具,然然后先手工访访问目标网站站。然后在捕捕包工具中找找到需要提交交的数据,并并拷贝出来。2.2.3站点点链接预览 站点链接预览与与设置进入该页面后,软软件会解析采采集目标页面面上所有的链链接信息,并并以树状的形形式显示。用用户选择任何何一点条记录录后,点击右右键,可以弹弹出控制菜单单。复制链接地址 拷贝贝当前选中的的链接信息中中的链接地址址。复制链接标题

43、拷贝贝当前选中的的链接信各的的链接标题。浏览原文件 在网页页浏览器中打打开原文查看看。打开该链接 将会在软软件的链接预预览窗口选中中的链接下展展开该链接记记录的子链接接信息。设为典型页面 设置为您要要采集的感兴兴趣的链接信信息。您可以以多设置几个个,以作后面面的字段信息息提取测试的的测试页面。采集深度采集深度是指您您要对该目标标链接采集到到第几层。设置提取特殊的的链接地址在采集过程中经经常会遇到一一些信息内容容是在弹出式式的窗口上显显示的,其脚脚本类似于:javasscriptt:privvateWiin(20007087766)的的链接地址,而而该链接地址址的实际地址址可能是这样样的:htt

44、p:/www.ttest.ccom/teestsmtth.aspp?id=22007088766那么这个时候您您就要告诉软软件说,您要要提取出这类类特殊的链接接地址,并把把这些链接地地址转换成真真实的链接地地址。那么链接地址特特征:就输入入:priivateWWin(1)真实的链接地址址请输入:hhttp:/ttestsmmth.assp?id=1这样软件就会自自动提取中所所有链接中符符合privvateWiin()的链接变量量,并转换成成真实的链接接地址。这种情况,一般般的用户可以以跳过该节。2.2.4 采采集过滤采集过滤控制设设置为了加快采集有有效信息,直直接过滤或不不采集明显地地无效信息

45、,我我们就需要在在采集过滤控控制中设置一一些过滤控制制条件。您可以从“链接接地址”、“链接标题”和“信息正文”中“包含”或“不包含”某个关键字字的链接进行行控制,控制制动作有:不不采集,采集集不提取,采采集并提取。如如设置链接地地址中包含有有123的不采集。而而采集不提取取的概念是,只只采集到符合合条件的链接接地址的信息息,并根据采采集深度分析析出子链接,但但不会提取该该页面上的信信息。而采集集并提取,则则不但会分析析子链接而且且还会提取该该页面的信息息。设置信息链接提提取范围 为了更精确地控控制采集,比比如我们只要要采集图2中中的社会新闻闻中的链接信信息。我们就就要用设定信信息链接信息息范围

46、。请在在网页的源文文件中找到链链接的开始标标识与结束标标识。更详细细的设置,请请参阅字段段信息提取。链接扩展名采集集控制控制采集提取链链接的扩展名名采不采集外网或或不同的专内内容根据需要设置需需不需要采集集外部的网站站的信息。2.2.5 分分页模板为了一次性从目目标网站上采采集更多的信信息,我们可可以通过配置置一些目标网网站上有规律律的网页链接接,如分页信信息链接。http:/t/testt.asp?pagenno=2.http:/t/testt.asp?pagenno=2000表示了从第2页页到第2000页。当然我我们可以手工工一个一个的的添加到链接接模板中,也也可以一次性性由软件自动动生成

47、。自动动生成的方式式如下:http:/t/testt.asp?pagenno=2,200,11,表示从从第2页到2200页,每每次增加一页页。2.2.6 附附件采集设置置附件识别方法:使用扩展名提取取 设置您您要提取的附附件扩展名,每每个扩展名以以“;”作分隔,如如:jpg;gif;zzip;等。 使用特征符提取取 您要要设置附件链链接中必须包包含有关键字字的附件才要要采集。各个个关键字也是是以“;”分隔。不采集 就不会会识别与采集集任何附件。 附件保存方式设置适当的附件件保存方式来来保存站点中中已识别的附附件信息和文文件。目前有有3种方式可可以选择:保存到数据库:该方式将自自动下载附件件并将

48、附件以以压缩或不压压缩的方式存存储到知识库库中的附件表表单中。选中中保存前压压缩附件可可以减少附件件在数据库中中的占用空间间。保存到文件夹:该方式将会会把附件直接接下载到指定定的文件夹。注注意文件夹路路径不能为空空,否则将采采用第一种方方式。保存附件链接:该方式将不不下载已识别别出的附件,而而只是保存附附件的链接地地址。该方式式采集速度快快。但缺点是是一旦目标站站点的文件被被删除或更改改,链接地址址方法将变得得无效。信息息与就失去完完整性。2.2.7新闻闻自动识别软件具有自动学学习新闻或资资讯的目标网网站,可以自自动学习简体体中文、繁体体中文、英文文等多国语言言的新闻资讯讯。如果您要识别新新闻

49、的作者,则则需要作者识识别标签。常常见的标签有有:记者;编编辑;作者;通讯员等。每每个标签以“;”作分隔。同同样要识别来来源与发布日日期等也要输输入相应的标标签。只采集最新文章章的链接地址址软件将只采集目目标网站的最最新信息的链链接地址和链链接标题,而而不会去识别别链接中的正正文信息。自动重组文章的的所有页面很多目标网站会会将长的新闻闻文章分配到到多个页面中中显示。勾选选该选项后软软件就会自动动重组这些类类型的新闻信信息。正文长度小于阈阈值不保存用户可以设定阈阈值来限制新新闻的长度,如如果长度小于于阈值就不保保存。文章中的附件数数大于阈值不不保存当新闻中的附件件数量大于阈阈值就不保存存不采集。

50、2.2.8字段段提取设置通过本节的学习习您将学会如如何从一个网网页中提取出出每个字段的的信息。提取取信息的方法法有4种:通过智能标签提提取如我们想提取一一个电影信息息的片名,可可以用“片名;影片片;”等识别标签签来提取;这这种方法简单单适用于多数数的网站。通过正则表达式式提取对于熟悉正则表表达式的高级级用户可以使使用正则表达达到来提取页页面中的信息息。指定一个特定的的值您可以直接为某某个表单字段段指定链接地地址、链接标标题、采集日日期、采集时时间或者自己己指定一个特特定的值。通过前后标识提提取这种方法虽然简简单,但却经经常使用。比比如我们要提提取影片的名名称,影片在在页面中的信信息如下:影片:

51、XXXXXXXXXX那么我们可以采采用前标识符符为:影片: 后标识符符为:来提取取,这样提取取到的内容为为XXXXXXXXXX那么我们不勾选选“保留字段值值中的HTMML代码”,将得到的的字段值为:XXXXXXXXX提取该字段的附附件对于一些大文本本的字段,我我们可以勾选选“提取该字段段的附件”让采集软件件自动识别与与提取字段内内的附件。如此循环,直到到表单中所有有的字段信息息提取方法都都配置完成。2.2.9 字字段采后处理理用户可以对采集集到的字段值值作以下处理理:字段内容替换可以查找某个特特征值,替换换成另一个字字符串。字段中需要保留留HTML标标签可以设定字段中中要不要保留留HTML标标

52、签,及要保保留哪些标签签。字段值前插 在字段值前前面插入一个个指定的特征征串字段值后追加 在字段值后后追加一个指指定的特征串串特殊截取处理可以截取左边的的几个字符;可以截取中中间的字符,设设定从哪里开开始截取,截截取几个;可可以取右边的的几个字符。字段值的后处理理是使得采集集到的信息更更符合您的要要求。2.3站点管理理2.3.1 采采集站点管理理通过站点管理器器可以管理所所有采集站点点列表。 删除:可以从站站点列表中删删除某个站点点。 复制: 可以复复制一个相同同规则的站点点,但是采集集的入口地址址和一些重要要的相关信息息需要改变。 编辑:可以修改改站点的采集集规则。如果果站点的保存存栏目已被

53、删删除,该站点点将一直处于于禁用状态。直直到您设置了了一个有效的的保存栏目,并并设置启用后后才会使该站站点使能。向上:可以提高高站点的采集集优先级。 向下:可以降低低站点的采集集优先级。 禁用/启用:可可以设置站点点的采集使能能或处于禁用用状态。 复位:如果站点点已经采集了了,但下一个个采集周期还还没到达。为为了让该站点点加入本次的的采集列表中中,可以设置置该站点处于于复位状态来来实现。清除日志:清除除站点的采集集日志。详细细可参见下节节的采集日志志管理一节。2.3.2扫描描采集源选中某个频道后后,点击右键键可以弹出该该频道下所有有采集站点,如如果选择扫描描所有子频道道将列出该频频道下所有子子

54、频道的采集集站点。您可可以在该对话话框中对相应应的采集站点点进行操作。操操作功能同站站点管理。点点击扫描将关关闭对话,并并开始根据设设置对站点进进行检测更新新与采集。2.3.3采集集日志采集日志管理软件在采集每个个一站点都将将对应一个采采集日志和学学习数据文件件。您可以通通过日志管理理器来实现清清除所有采集集日志,也可可以在日志列列表中通过双双击打开某个个日志链接来来阅读原文。清除采集日志 清除日志功能将将清除掉所有有站点的采集集日志。 建议:如果没有有特殊情况(如如全部站点重重新采集和学学习)不要使使用清除日志志功能。因为为站点日志被被清除后,在在下一次采集集过程中需要要重新学习,增增加了采

55、集时时间。但不会会影响学习后后的采集时间间。2.4 信息管管理2.4.1信息息管理添加与编辑信息息记录在添加或编辑信信息记录时,视视您当前正在在使用的表单单可以快速弹弹出录入或编编辑信息记录录的窗口。可可以在导航树树上选中某个个栏目后,通通过右键菜单单中的新建文文档(对于文文档表单)或或新记录记录录(其它表单单)来增加记记录。也可以以通过工具栏栏上的“新建”按钮来弹出出编辑界面。文档表单的信息息编辑界面采采用了仿Woord的窗口口,可以在上上面进行文字字编辑或插入入图片等。保保存时可以保保存成纯文本本方式也可以以保存成多彩彩格式。建议:如果没有有必要保存成成多彩格式的的文档就采用用纯文本的方方

56、式,这是因因为保存成多多彩格式的方方法占用的空空间比后者大大。而对于非文档类类型的表单在在新建或编辑辑时会弹出各各个记录录入入窗口。需要要注意的是:如果表单中中设定的字段段为数字型的的,只能输入入数字,而日日期型的字段段则预先输入入当日的日期期。 信息内容阅读读在概览信息记录录时,您可以以通过右键菜菜单或通过快快捷键进行快快速阅读。如如果正在阅读读的信息记录录所在栏目已已设定有阅读读模板,则软软件将会先下下载模板文件件,然后将信信息记录的各各个字段输入入到模板中进进行显示。如如果没有设定定阅读模板,则则会弹出信息息记录的编辑辑窗口。注意:如果遇到到没有弹出信信息记录的编编辑窗口,而而且在浏览页

57、页面中报找不不到文件,这这时需要您检检查一下该栏栏目的模板文文件的路径是是否设置正确确。删除信息记录软件在很多地方方提供有删除除功能,可以以很方便地删删除掉无用的的记录。在浏浏览记录列表表中,可以通通过右键菜单单或快捷键删删除掉列表上上选中的记录录。删除时会会提示“您是否确实实要删除选中中的记录”字样的警告告。如果对于于那些已设置置了密码的信信息记录在删删除时会要求求用户输入记记录密码。信息记录分类您可以在概览列列表中通过将将选中的记录录拖动到另一一个相同表单单的不同栏目目下。如果要要将资讯记录录拖动另一个个表单下的栏栏目中,改变变分类操作将将不会成功的的,但不会改改变记录原来来的分类。浏览原

58、文对于那些从网络络上采集到的的记录,可以以通过右键菜菜单来浏览原原文。如果信信息记录设置置了密码,需需要输入密码码才能允许浏浏览。设置标识 设置(取消)密密码用户可以对信息息记录设置密密码,已设置置了密码的记记录也可解除除密码。密码码虽然已采用用了加密的方方式。但是信信息的安全性性更多的还是是需要用户自自己保证正在在使用计算机机的安全。设置其它标记互联网信息采采编发系统为为了突出某些些信息记录的的特殊性或重重要性可以采采用设置图标标、设置加粗粗、设置文字字颜色或设置置背景颜色等等方式来实现现。点击“Ctrl+B”可以快速对对选中的记录录进行加粗或或取消加粗显显示。2.4.2附件件管理 互联网信息采采编发系统可可以支持对任任何表单任何何记录插入附附件,附件格格式可以是图图片或文件。增增加附件时可可以选择放置置附件到知识识库或放置到到文件夹中,对对于入库的附附件还可以选选择采用压缩缩或不压缩的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论