版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、军犬互联网信息采集系统用户手册V5.0第一章:系统介绍31.1软件简介31.2互联网信息采集与挖掘31.3互联网采集系统流程图31.4系统应用领域:41.5 软件特点41.6 系统配置要求131.7 系统性能13第二章:使用手册142.1综合设置142.1.1数据库管理142.1.2表单管理142.1.3频道管理182.1.4模板管理192.2信息采集192.2.1站点基本属性192.2.2提交访问数据202.2.3站点链接预览212.2.4 采集过滤222.2.5 分页模板222.2.6 附件采集设置232.2.7新闻自动识别232.2.8字段提取设置242.2.9 字段采后处理252.3站
2、点管理252.3.1 采集站点管理252.3.2扫描采集源252.3.3采集日志262.4 信息管理262.4.1信息管理262.4.2附件管理272.4.3记录导入272.4.4信息导出282.5信息发布282.5.1登录发布服务器282.5.2获取发布权限的信息292.5.3新建发布表单发布映射292.5.4发布表单映射管理292.5.5发布频道映射管理30第一章:系统介绍1.1软件简介信息采集是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入的整个过程。军犬信息采集专家是一款基于人工智能的自动学习技术,功能强大、简单实用的
3、互联网信息采集与监控软件。1.2互联网信息采集与挖掘要求从互联网上对特定目标数据源或不特定目标数据源进行采集与监控,并对信息进行结构化抽取保存为本地结构化数据库,然后按业务流程需求与其它模块结合,导入与应用并服务于到电子行业平台。互联网数据采集与挖掘技术是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入,并按业务所需,进行数据发布、分析的整个过程。1.3互联网采集系统流程图第一步:确定采集任务。第二步:每个采集任务,我们有多个目标数据源可供采集。第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。第四步:调度采
4、集任务,与目标站点同步更新,增量采集。第五步:采集到数据结果,完成数据异构到同构的过程。第六步:通过发布服务器,将数据发布到应用平台。1.4系统应用领域:1、搜索引擎与垂直搜索2、综合门户与行业门户3、电子政务与电子商务4、知识管理与知识共享5、企业竞争情报系统6、BI商业智能系统7、信息咨询与信息增值8、信息安全和信息监控1.5 软件特点(1)、过滤干净,智能化抽取正文,且图文关联图:采集的目标源图:采集后“干净”的正文结果(2)、数据导出接口丰富,可以将数据导出成各种主流关系型数据结构。(3)、配置简单对于新闻资讯采集,只需输入待采集目标网站的地址或某个主题页面地址,软件即会自动学习网站的
5、风格,并自动提取网站的资讯,无需配置模板,目标网站风格发生变化,软件自动学习。对于数据采集软件提供了通俗易懂的站点配置向导,维护人员稍加培训即可配置出任何的信息采集。对于复杂的采集过程,通过一张采集卡脚本即可实现信息的自动采集与监控。 图:输入“网址”,完成配置工作图:支持关键字采集,直接输入关键字,一步设置输入“关键字”,完成配置工作(4)、所采即所得,所采即可见图:所采即所得,所采即可见(5)、增量采集与自动更新增加采集:对于初次采集目标网站,软件支持完全采集;而对于已采集过的站点支持增量采集。 支持自动更新:自动检测站点是否发生更新,并不会遗漏任何一个重要的信息。 (6)、采集结果自动排
6、重不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。(7)、内置强大的信息监控可以通过一个关键字广域监控互联网上任何一个站点上的相关信息。也可以通过设置监控频道监控任何站点所采集到含有关键字的信息。对于数值字段可以设置监控误差监控数值出现在一定范围内的信息。信息监控达到字段级。您可以对任何一个采集目标网站设置监控属性,监控周期达到了秒级。对于发生变化的信息可以在短时间内采集到本地。图:独有的监控功能,可能对采集后的结果进行进一步监控与过滤强大的站点管理工具可以对所有采集对象进行集中管理和各种操
7、作图:对所有采集对象进行集中管理和各种操作图:随心所欲自定义导航与分类图:综全的选项配置,提升采集的性能图:对采集后的结果可以马上进行修改与编辑(8)、支持多种编码支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进行统一的处理。软件即会自动识别网站的组织结构,自动识别网站的编码。 表单管理,随心所欲自定义表单,方便采集不同的内容,如采集软件用单独的表单,采集图片用图片表单。(9)、信息导入导出随心所欲提供信息导入导出与其它软件可作无缝连接 ,如CRM OA 软件提供有强大的信息记录导入导出功能,您可以对任何一个频道、一条记录进行导入与导出。可以导成
8、Excel/Access等,也可以直接导到指定的数据库。与信息发布服务器结合使用可以将信息发布到任何一个地方。 (10)、支持阅读模板任何一种信息类型,软件都会自动创建一个阅读模板方便了您快速阅读;任何信息您可以对任何一种信息表单定制一款漂亮的阅读模板,也可以对任何一个频道设置不同的阅读模板。 (11)、支持多页面内容重组对于目标数据源的一篇文章在目标网站上分页显示,系统能自动对其重组.软件运行稳定、采集速度快、占用系统资源少历经多次改造的软件采集底层模块运行稳定、采集速度快,点用系统资源少。可多线程并发运行,而不占有过多的系统资源。采集速度快到瞬间到位。软件完全可以实现7*24小时不间断无人
9、值守的信息采集。更多细节功能有待于您在使用中去体验。 (12)、其它特点列表:、支持多种语言:支持简体中文、繁体中文、英文、日文、韩文等多国语言、支持多种站点类型:包括html与rss、支持登录、验证后采集、软件支持需要登录与需要验证码的网站信息采集,采集过程完全仿人工。 、支持附件采集包括图片附件采集、多媒体附件采集、音视频附件采集、附件与正文自动映射与关联、完全结构化抽取将网页的非结构化数据抽取成特定的结构化信息数据。网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最
10、后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。 、数据保存到本地,您可以随时查阅信息。 采集到信息自动保存到本地数据库,您可以随时查阅信息。 、多线层、多任务、支持海量数据采集10、软件实用、易用、功能强大11、可移植、可扩展、可定制1.6 系统配置要求² 需要WindowsNT4/ Windows 2000 Server 或更新的操作系统。² 需要 Microsoft SQL Server 7/ 2000或其它ODBC接口² 硬件平台:intel xeon 1
11、G 以上CPU,1000M 以上RAM,硬盘空间40GM 以上1.7 系统性能l 支持多线程采集。l 单机在数据采集在G级以上。l 数据与数据源同步更新小于10秒级。l 数据同步发布小于10秒级。第二章:使用手册2.1综合设置2.1.1数据库管理新建数据库通过“系统(S)”主菜单下的“新建数据库”功能菜单,您可以创建一个全新的信息采集与管理数据库。新建的数据库,默认会创建一个新闻表单,该表单主要用于文章、新闻等资讯信息管理,该表单不允被删除。我们建议:您在新建数据库时希望能将数据库文件存储在与操作系统不同的驱动盘下,这样数据库中的信息内容会更安全一些。备份数据库通过备份数据库的功能,您可以将当
12、前正在使用的数据库压缩并备份到另一个目录下。以备以后的使用。压缩数据库由于桌面版的软件版本使用了微软的ACCESS数据库,该数据库在您删除记录时不会自动释放已删除记录所占用的空间。所以需要您不定期地对当前正在使用的数据库进行压缩,以减少数据库占用硬盘资源的空间。对于SQL Server版本的软件,则无需使用压缩数据库的功能。软件也将该功能屏蔽。2.1.2表单管理表单的概念互联网信息采编发系统中的表单等同于数据库中的表。通俗地说需要为每种信息类型创建一个存储空间。不同的是为了能够对数据库中的所有表单记录进行统一的管理,需要在各个表单中预置一些字段,通常这些字段含以下几个部分:显示控制信息字段:
13、密码字段、文字颜色字段、文字背景颜色字段、显示图标字段后续跟踪信息字段:信息来源地址字段频道信息字段:频道信息,监控频道信息 创建表单下面以创建一个图书管理表单为例,逐步向您说明如何创建一个属于自己的管理表单。找到主菜单栏中的“工具”=>"系统表单管理"菜单,在弹出的在表单管理器中点击“新建表单”按钮。在“表单标题”编辑框中输入“图书表单”,在“表单名称”编辑框中输入“tblBookSheet”。注意:如果“表单名称”或“表单标题”为空将不能成功地创建表单。 点击“保存”按钮,这时系统会提示您已成功地创建了一个名称“图书表单”的表单,并在图书表单下下挂三个字段“记录编
14、号”、“频道名称”、“源文地址”。这个三个字段是软件中对一个表单中任何一条记录进行管理的必要的字段。您不可删除或更改名称或属性。记录编号用于标识表单中任何一条记录的唯一的标识。频道名称用于标识该记录从属于哪个频道;而源文地址则用于标识信息来源于何处。表单标题该字段用于通俗易懂地标示表单。必须输入,我们建议您表单标题做到整个数据库是唯一的。表单名称该字段用于在数据库中创建对应表单的名称,该字段的值不能与数据库中其它的表单名称重复需要在数据库中唯一。字段值长度不能超过20个汉字(40个英文字母),命名规则同Windows中的文件命名规则相同。可以取与表单标题相同的名称,但建议采用tblXXXShe
15、et作为命名规范。阅读模板该字段用于标识该表单的信息内容阅读模板的路径,可以是文件路径名称如:e:Quickreaderreadmodeltblbooksheet.html,也可以是网络上的某个路径名如: Files采集软件QuickReader,那么该相对路径相当于cPrograme Files采集软件QuickReaderreadmodeltblbooksheet.html)如果没有该表单对应的阅读模板,“阅读模板”字段可以不输入任何值。等最后创建完该表单所有字段后利用软件提供的“创建模板”进行创建。 添加字段以创建图书信息管理表单为例,假设管理图图需要以下字段:字段标题 字段名称 说明
16、属性 图书名称 fldBookName 用于保存图书的名称 字符型,长度40,查重键,主题键 作者 fldBookAuthor 图书作者 字符型,长度30 购买日期 fldPurchaseDate 可用于控制或统计 日期型 图书价格 fldBookPrice 价格 浮点型 借阅人 fldUserName 当前借阅用户名称 字符型,长度40 借阅日期 fldBrowDate 借阅日期 日期型 图书简介 fldBookMemo 有关该图书的说明 备注型 选中刚才新建的“图书表单”后,点击“新建字段”按钮,将在“图书表单”下增加一个结点,编辑框中预输入了“新字段”,你可以在这里输入字段标题,也可以在
17、列表中的“字段标题”中输入。现在,在结点编辑中输入“图书名称”后,点击列表中的“字段名称”在编辑框中输入“fldBookName”。选择“字段类型”为“字符”,“长度”输入40,“设为查重键”选择“是”,“允许为空”选择“否”。点击“保存”按钮。如果没有报错表明系统已成功地图书表单上增加了“图书名称”字段。可按照上述图书管理的需求表格,完成在图书表单的创建工作。 下面将对表单各个属性进行详细地说明。 字段标题 该字段用于通俗显式地标示字段的名称,在同一个表单中字段名称不能重复。最大长度不能超过50个字节。字段名称该字段用于在表单中隐式地标示字段名称,在同一个表单中字段名称不能重复。最大长度不能
18、超过50个字节,命名规则同Windows中的文件命名。建议采用fldXXX作为该值的输入规范。字段类型目前字段类型有:字符型、日期型、整型、浮点型和备注型5种字段类型,可以根据实际需要从这5种类型中选择。不同类型的字段在输入字段值时将有不同的控件和限制。可以在以后对其进行修改。字段长度 字段长度只能“字符型”的字段有效,其它类型输入长度是无效的,对于字符型长度值默认为50个字节。设为查重键该字段可以选择为“是”或“否”。可根据实际需要设置一些字段为查重键。如我们在“图书表单”中设置“图书名称”为查重键,这样,以后在输入每一本书的属性时,系统将查找是否存在有相同图书名称的记录。主题字段该字段可以
19、选择为“是”或“否”。用于标识一条信息中的最主要的信息的字段。如新闻表单中的新闻标题。我们在“图书表单”中可以设置“图书名称”为主题字段。识别标签该字段将用于文档识别、网络信息采集时对该字段值的自动识别。如以后需要自动从文本中识别“图书名称”的值,则可以输入“图书名称;名称;图书;BOOKNAME;”等作为图书名称字段的识别标签,各个标签之间以“;”或“;”分隔。默认值 该值将用于在识别、录入或采集时没有得到该字段的值是将用默认值填入。如有字段“性别”,在没有识别到“性别”字段的值时,将用默认值“女”或“男”作为“性别”的值。在列表中显示用于控制属性字段在概览表单内容时是否在列表中显示。列表宽
20、度用于控制属性字段在概览表单时显示在列表中的长度。对齐格式用于控制属性字段在概览时在列表中的对齐格式,有三种选择:左对齐、居中对齐和右对齐。可选择以前的值用于控制在录入该表单的资讯时,该属性字段可否从以前录入的值中选择一个。如有属性字段“民族”,则在录入记录信息时遇到该属性字段既可以手工输入也可以从以前的值中选取一个。允许为空用于控制属性字段是否允许为空,如果设置不空时,在录入或采集该表单的资讯记录时,发现该字段没有值的记录将被丢弃或要求录入该字段。如“图书表单”中要求“图书名称”不为空,那么如果“图书名称”为空的话,该记录就变得没必要了。修改属性在使用表单的过程中,还可以表单的属性进行修改与
21、编辑,但不能修改表单名称和字段名称。修改后的属性可以立即在使用中生效。特别提示:在信息采集的过程中软件不允许您对表单进行修改。删除表单通过“删除表单”按钮可以删除掉一些不再使用的表单。注意:删除表单时,表单中的所有记录将被同时删除,另外建立在该表单基础上的所有栏目也将被删除。删除字段通过“删除字段”按钮可以删除掉一些不再使用的属性字段。注意:删除字段时将同时删除表单中该字段的所有数据。上移下移字段您可以通过“上移”按钮将表单中的一个字段上移或下移到到一个指定的位置。以改变字段在列表与阅读模板中显示顺序。 创建阅读模板您可以随时使用“表单管理器”中的“创建模板”功能为某个表单创建一个由系统生成的
22、阅读模板。阅读模板主要是便于您快速阅读信息。您也可以自己一个漂亮的阅读模板。如何创建阅读模板,请参照阅读模板一节。远程表单管理远程表单管理对于使用了互联网信息采编发系统 的用户才会显示。对于普通的用户不会显示有该节点。主要用于管理远程发布服务器上的分配给指定用户允许使用的发布表单。只有在发布服务器上分配给用户允许发布的表单后才会在该节点下显示有相关的表单信息。用户可以通过表单管理器来浏览远程表单的信息。但不能修改表单属性。2.1.3频道管理 创建频道选中一个结点作为新建频道的父目录,点击右键,在弹出的右键菜单上选择“新建频道”,在弹出的“频道属性”对话框中输入频道的名称,并选择一个表单,默认为
23、“新闻表单”,我们选择前面表单管理中创建的“图书表单”。如果存在有该频道的阅读模板,可以浏览输入模板的路径。最后,还可以为该频道选择一个适合的图标。如果图标列表中没有合适的图标,也可以找到一个合适的图标文件,并将图标文件放置于安装目录的Icon目录下。重启软件,就可以更新该栏目的图标为您刚才放置的图标。修改频道属性可以通过右键菜单或双击某个频道,都可以弹出频道属性对话框,可以在属性对话框中修改频道的各个属性(不能修改栏目所对应的表单)后保存即可。删除频道通过右键菜单可以删除选中的频道,注意删除频道时将同时删除其子频道的所有信息。如果该频道及其子频道下的记录比较多,删除可能需要一段时间,请耐心等
24、待。隐藏频道在频道较多的时候,可以通过隐藏频道功能隐藏一些栏目在导航树上的显示。刷新频道通过刷新频道,可以重新在导航树上显示那些被隐藏的子频道。清空频道清空频道,将会将频道中的所有记录都清空,但不会影响到其子频道的信息。设置频道密码设置了频道密码后,可以控制频道的访问权限,再次访问需要输入密码才可以访问。设置标记还可以将频道标记为重要(或一般)的状态,标记为重要状态的频道文字将以加粗的方式显示,相反标记为一般的频道则以非加粗的方式显示。还可以设置或取消频道结点的文字颜色。而也可以通过"取消所有文字颜色"来取消所有已设置文字显示颜色的频道的颜色。拖动频道通过将选中的频道拖动到
25、其它频道下,可以改变频道的父结点。下次生成导航树时将会把被拖动的频道显示在新的父频道下,以改变信息分类结构。2.1.4模板管理阅读模板的作用通过阅读模板可以将表单中的信息内以网页的形式快速展现,以便让您快速阅读。互联网信息采编发系统可以支持对每个频道定义一个不同的模板也可以是同一表单共用一个阅读模板。 如何设计模板下面以一个新闻阅读模板作为示例,说明如何设计模板。模板中必须包含您要为哪个信息表单中要快速阅读的字段设置的阅读模板。如上述模板中要显示新闻作者,新闻来源,所属频道,收录日期和新闻内容以及新闻相关附件等。设计好的模板中主要在各位单元格中放置“表单管理”中各个要显示的字段的字段名称。主要
26、放置 id="字段名称" name="字段名称" 。这里要特别说明是放置字段名称,而非字段标题2.2信息采集2.2.1站点基本属性在增加或编辑站点属性时,需要设置站点的的第一步就是设置采集站点的基本属性。站点基本信息包括:站点地址站点地址设定了从该站点哪个页面开始采集。可以一些网站的首页,可以是网站中某个主题的页面地址,也可以是某个论坛的地址。还可以是某个RSS站点的链接地址。站点名称站点名称主要用于显示地标识该站点,以便于以后站点维护与管理。特别说明:当您在输入了站点的地址后,可以点击旁边的小球。该功能既可以帮您取得站点的名称,也可以取得下面要说到的站
27、点类型和站点编码。站点类型您可以手工设置站点的类型,也可以由软件自动识别。目前有两种类型的站点类型:普通HTML站点和聚类RSS站点。目前大部的站点还是普通的HTML站点,软件会自动识别出该站点上所有的信息链接;聚类RSS站点是近几年兴起的一种信息聚合方式,这里面可能包含了多个不同网站相同或相关主题的信息链接。只要您输入一个地址,软件自动识别站点类型。站点编码站点编码用于显示地告诉软件该站点的网页采用了哪种编码模式,如繁体网页一般采用BIG5编码;一些网站的网页则采用UTF8编码。对于不同的编码网页软件需要进行统一的编码转换处理后再进行提取。一般软件会自动识别网站的编码模式。而对于不能识别出站
28、点的编码模式,则需要用户手工设定采集站点的编码模式。这样,可以最大地保证网站的信息采全。需要使用代理有些站点可能需要设置代理信息才能访问与采集,而且其它的站点并不需要代理。而如果所有需采集的网站都需要通过代理,你只需设置"默认采集属性"中的代理信息后,以后增加每个站点都会自动采用该代理。不需使用代理的采集一般比使用代理采集速度要快。该网站需要登录在采集一些如论坛或其它需要您输入登录账号的站点时,需要设置登录用户名和密码。登录时需要输入验证码 有些网站在采集时除了需要登录外,还要求登录时输入一个图片或文字形式的验证码才能采集。这里就需要您设置如何提取与识别验证码。需要使用代理
29、、网站需要登录详见登录目标网站;登录时需要输入验证码,详见验证码识别允许自动周期检测该站的更新并采集对于一些需要长期采集其发布的最新信息,适当地设置每个站点的更新周期,可以加快每次的更新速度。因为有些站点是1个星期更新一次,而有些站点几分钟就更新一次。通过设置的周期猎手可以快速检测并更新达到更新周期的站点。2.2.2提交访问数据为什么要提交数据有些时候,我们为了准确地控制采集页面,或是为了登录等的要求,需要在访问网页时提交一些数据给目标网站。目标网站在解析了这些数据后就会按照数据中的要求返回相应的页面。您只需把要提交的访问数据拷贝到该页面的顶端最大的编辑框中,软件就会自动解析这些数据。您可以修
30、改解析后的参数列表中的某些参数值。比如username=abcd&userpswd=134&classid=23&pageno=2可以解释成这样的:用户名:abcd 密码134 要访问类别ID为23 的第二页上的信息。只要这些信息 符合目标网站的要求,就会返回相应的页面。如何获得访问数据 我们知道了访问数据的重要性,我们就要知道如何才能获得访问数据。获得访问数据的方法有很多,我们在此推荐一种最可靠最有效的获取访问数据的方法。您可以在互联网上下载一些捕包工具,然后先手工访问目标网站。然后在捕包工具中找到需要提交的数据,并拷贝出来。2.2.3站点链接预览 站点链接预览与设置
31、进入该页面后,软件会解析采集目标页面上所有的链接信息,并以树状的形式显示。用户选择任何一点条记录后,点击右键,可以弹出控制菜单。复制链接地址 拷贝当前选中的链接信息中的链接地址。复制链接标题 拷贝当前选中的链接信各的链接标题。浏览原文件 在网页浏览器中打开原文查看。打开该链接 将会在软件的链接预览窗口选中的链接下展开该链接记录的子链接信息。设为典型页面 设置为您要采集的感兴趣的链接信息。您可以多设置几个,以作后面的字段信息提取测试的测试页面。采集深度采集深度是指您要对该目标链接采集到第几层。设置提取特殊的链接地址在采集过程中经常会遇到一些信息内容是在弹出式的窗口上显示的,其脚本类似于:java
32、script:privateWin('200708766')的链接地址,而该链接地址的实际地址可能是这样的:那么这个时候您就要告诉软件说,您要提取出这类特殊的链接地址,并把这些链接地址转换成真实的链接地址。那么链接地址特征:就输入:privateWin('1')真实的链接地址请输入:这样软件就会自动提取中所有链接中符合privateWin('')的链接变量,并转换成真实的链接地址。这种情况,一般的用户可以跳过该节。2.2.4 采集过滤采集过滤控制设置为了加快采集有效信息,直接过滤或不采集明显地无效信息,我们就需要在采集过滤控制中设置一些过滤控制条
33、件。您可以从“链接地址”、“链接标题”和“信息正文”中“包含”或“不包含”某个关键字的链接进行控制,控制动作有:不采集,采集不提取,采集并提取。如设置链接地址中包含有"123"的不采集。而采集不提取的概念是,只采集到符合条件的链接地址的信息,并根据采集深度分析出子链接,但不会提取该页面上的信息。而采集并提取,则不但会分析子链接而且还会提取该页面的信息。设置信息链接提取范围 为了更精确地控制采集,比如我们只要采集图2中的社会新闻中的链接信息。我们就要用设定信息链接信息范围。请在网页的源文件中找到链接的开始标识与结束标识。更详细的设置,请参阅字段信息提取。链接扩展名采集控制控制
34、采集提取链接的扩展名采不采集外网或不同的专内容根据需要设置需不需要采集外部的网站的信息。2.2.5 分页模板为了一次性从目标网站上采集更多的信息,我们可以通过配置一些目标网站上有规律的网页链接,如分页信息链接。.表示了从第2页到第200页。当然我们可以手工一个一个的添加到链接模板中,也可以一次性由软件自动生成。自动生成的方式如下:2.2.6 附件采集设置附件识别方法:使用扩展名提取 设置您要提取的附件扩展名,每个扩展名以“;”作分隔,如:jpg;gif;zip;等。 使用特征符提取 您要设置附件链接中必须包含有关键字的附件才要采集。各个关键字也是以“;”分隔。不采集 就不会识别与采集任何附件。
35、 附件保存方式设置适当的附件保存方式来保存站点中已识别的附件信息和文件。目前有3种方式可以选择:保存到数据库:该方式将自动下载附件并将附件以压缩或不压缩的方式存储到知识库中的附件表单中。选中"保存前压缩附件"可以减少附件在数据库中的占用空间。保存到文件夹:该方式将会把附件直接下载到指定的文件夹。注意文件夹路径不能为空,否则将采用第一种方式。保存附件链接:该方式将不下载已识别出的附件,而只是保存附件的链接地址。该方式采集速度快。但缺点是一旦目标站点的文件被删除或更改,链接地址方法将变得无效。信息与就失去完整性。2.2.7新闻自动识别软件具有自动学习新闻或资讯的目标网站,可以自
36、动学习简体中文、繁体中文、英文等多国语言的新闻资讯。如果您要识别新闻的作者,则需要作者识别标签。常见的标签有:记者;编辑;作者;通讯员等。每个标签以“;”作分隔。同样要识别来源与发布日期等也要输入相应的标签。只采集最新文章的链接地址软件将只采集目标网站的最新信息的链接地址和链接标题,而不会去识别链接中的正文信息。自动重组文章的所有页面很多目标网站会将长的新闻文章分配到多个页面中显示。勾选该选项后软件就会自动重组这些类型的新闻信息。正文长度小于阈值不保存用户可以设定阈值来限制新闻的长度,如果长度小于阈值就不保存。文章中的附件数大于阈值不保存当新闻中的附件数量大于阈值就不保存不采集。2.2.8字段
37、提取设置通过本节的学习您将学会如何从一个网页中提取出每个字段的信息。提取信息的方法有4种:通过智能标签提取如我们想提取一个电影信息的片名,可以用“片名;影片;”等识别标签来提取;这种方法简单适用于多数的网站。通过正则表达式提取对于熟悉正则表达式的高级用户可以使用正则表达到来提取页面中的信息。指定一个特定的值您可以直接为某个表单字段指定链接地址、链接标题、采集日期、采集时间或者自己指定一个特定的值。通过前后标识提取这种方法虽然简单,但却经常使用。比如我们要提取影片的名称,影片在页面中的信息如下:<td>影片:</td><td>XXXXXXXX</td&g
38、t;那么我们可以采用前标识符为:影片:</td> 后标识符为:</td>来提取,这样提取到的内容为<td>XXXXXXXX那么我们不勾选“保留字段值中的HTML代码”,将得到的字段值为:XXXXXXXX提取该字段的附件对于一些大文本的字段,我们可以勾选“提取该字段的附件”让采集软件自动识别与提取字段内的附件。如此循环,直到表单中所有的字段信息提取方法都配置完成。2.2.9 字段采后处理用户可以对采集到的字段值作以下处理:字段内容替换可以查找某个特征值,替换成另一个字符串。字段中需要保留HTML标签可以设定字段中要不要保留HTML标签,及要保留哪些标签。字段值
39、前插 在字段值前面插入一个指定的特征串字段值后追加 在字段值后追加一个指定的特征串特殊截取处理可以截取左边的几个字符;可以截取中间的字符,设定从哪里开始截取,截取几个;可以取右边的几个字符。字段值的后处理是使得采集到的信息更符合您的要求。2.3站点管理2.3.1 采集站点管理通过站点管理器可以管理所有采集站点列表。 删除:可以从站点列表中删除某个站点。 复制: 可以复制一个相同规则的站点,但是采集的入口地址和一些重要的相关信息需要改变。 编辑:可以修改站点的采集规则。如果站点的保存栏目已被删除,该站点将一直处于禁用状态。直到您设置了一个有效的保存栏目,并设置启用后才会使该站点使能。向上:可以提
40、高站点的采集优先级。 向下:可以降低站点的采集优先级。 禁用/启用:可以设置站点的采集使能或处于禁用状态。 复位:如果站点已经采集了,但下一个采集周期还没到达。为了让该站点加入本次的采集列表中,可以设置该站点处于复位状态来实现。清除日志:清除站点的采集日志。详细可参见下节的采集日志管理一节。2.3.2扫描采集源选中某个频道后,点击右键可以弹出该频道下所有采集站点,如果选择扫描所有子频道将列出该频道下所有子频道的采集站点。您可以在该对话框中对相应的采集站点进行操作。操作功能同站点管理。点击扫描将关闭对话,并开始根据设置对站点进行检测更新与采集。2.3.3采集日志采集日志管理软件在采集每个一站点都
41、将对应一个采集日志和学习数据文件。您可以通过日志管理器来实现清除所有采集日志,也可以在日志列表中通过双击打开某个日志链接来阅读原文。清除采集日志 清除日志功能将清除掉所有站点的采集日志。 建议:如果没有特殊情况(如全部站点重新采集和学习)不要使用清除日志功能。因为站点日志被清除后,在下一次采集过程中需要重新学习,增加了采集时间。但不会影响学习后的采集时间。2.4 信息管理2.4.1信息管理添加与编辑信息记录在添加或编辑信息记录时,视您当前正在使用的表单可以快速弹出录入或编辑信息记录的窗口。可以在导航树上选中某个栏目后,通过右键菜单中的新建文档(对于文档表单)或新记录记录(其它表单)来增加记录。
42、也可以通过工具栏上的“新建”按钮来弹出编辑界面。文档表单的信息编辑界面采用了仿Word的窗口,可以在上面进行文字编辑或插入图片等。保存时可以保存成纯文本方式也可以保存成多彩格式。建议:如果没有必要保存成多彩格式的文档就采用纯文本的方式,这是因为保存成多彩格式的方法占用的空间比后者大。而对于非文档类型的表单在新建或编辑时会弹出各个记录录入窗口。需要注意的是:如果表单中设定的字段为数字型的,只能输入数字,而日期型的字段则预先输入当日的日期。 信息内容阅读在概览信息记录时,您可以通过右键菜单或通过快捷键进行快速阅读。如果正在阅读的信息记录所在栏目已设定有阅读模板,则软件将会先下载模板文件,然后将信息
43、记录的各个字段输入到模板中进行显示。如果没有设定阅读模板,则会弹出信息记录的编辑窗口。注意:如果遇到没有弹出信息记录的编辑窗口,而且在浏览页面中报找不到文件,这时需要您检查一下该栏目的模板文件的路径是否设置正确。删除信息记录软件在很多地方提供有删除功能,可以很方便地删除掉无用的记录。在浏览记录列表中,可以通过右键菜单或快捷键删除掉列表上选中的记录。删除时会提示“您是否确实要删除选中的记录”字样的警告。如果对于那些已设置了密码的信息记录在删除时会要求用户输入记录密码。信息记录分类您可以在概览列表中通过将选中的记录拖动到另一个相同表单的不同栏目下。如果要将资讯记录拖动另一个表单下的栏目中,改变分类
44、操作将不会成功的,但不会改变记录原来的分类。浏览原文对于那些从网络上采集到的记录,可以通过右键菜单来浏览原文。如果信息记录设置了密码,需要输入密码才能允许浏览。设置标识 设置(取消)密码用户可以对信息记录设置密码,已设置了密码的记录也可解除密码。密码虽然已采用了加密的方式。但是信息的安全性更多的还是需要用户自己保证正在使用计算机的安全。设置其它标记互联网信息采编发系统为了突出某些信息记录的特殊性或重要性可以采用设置图标、设置加粗、设置文字颜色或设置背景颜色等方式来实现。点击“Ctrl+B”可以快速对选中的记录进行加粗或取消加粗显示。2.4.2附件管理 互联网信息采编发系统可以支持对任何表单任何记录插入附件,附件格式可以是图片或文件。增加附件时可以选择放置附件到知识库或放置到文件夹中,对于入库的附件还可以选择采用压缩或不压缩的方法。选择压缩的方法可以减小占用知识库空间,而选择不压缩的方法可以很方便地支持附件在其它应用程序中使用。插入的附件,在自动发布时将随着信息记录一起发布。无需单独发布。2.4.3记录导入互联网信息采集专家目前可以支持两种格式的信息导入功能,即从Excel文件导入和Access文件中导入。首先选择并打开一个您要记录所在的EXCEL或ACCES
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省常州市2024届中考数学试卷(含答案)
- 小班清明节课件
- 儿童发育过程常见下肢关节异常
- 小学二年级下册全册音乐教案(人教版)
- 中学综合发展三年规划(2024.9-2027.8)
- (统考版)2023版高考化学一轮复习课时作业2物质的量在化学实验中的应用
- 印刷制品运输协议模板
- 亲子活动中心装修合作协议
- 大宗商品运输安全协议合同
- 产业园装修清包工合同样本
- 控制计划(CP)—培训教材PPT课件
- 低泄漏阀门试验标准及应用
- 北京营业性演出申请登记表
- 第二临床医学院审核评估自评报告
- 液压油发热量计算公式
- 第五章-贝塞尔函数讲解PPT课件
- 小学主题班会《与同学友好相处》.ppt
- 2019农机深松整地作业实施方案
- 关于火电厂在役机组管道焊口返修的探讨-邹德安
- 敦煌写本《龙泉神剑歌》解读
- 学校安全管理问责机制
评论
0/150
提交评论