互联网信息采集系统用户手册_第1页
互联网信息采集系统用户手册_第2页
互联网信息采集系统用户手册_第3页
互联网信息采集系统用户手册_第4页
互联网信息采集系统用户手册_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

互联网信息采集系统用户手册用户手册[V5.0]\l“_TOC_250010“第一章:系统介绍 3\l“_TOC_250009“软件简介 3\l“_TOC_250008“互联网信息采集与挖掘 3\l“_TOC_250007“互联网采集系统流程图 3\l“_TOC_250006“系统应用领域: 4\l“_TOC_250005“软件特点 4系统配置要求 13系统性能 13\l“_TOC_250004“其次章:使用手册 14\l“_TOC_250003“综合设置 14数据库治理 14表单治理 14频道治理 18模板治理 19信息采集 19站点差不多属性 19提交访问数据 20站点链接预览 21采集过滤 22分页模板 22附件采集设置 23闻自动识别 23字段提取设置 24字段采后处理 25\l“_TOC_250002“站点治理 25采集站点治理 25扫描采集源 26采集日志 26\l“_TOC_250001“信息治理 26信息治理 26附件治理 27记录导入 27信息导出 28\l“_TOC_250000“信息公布 28登录公布效劳器 28猎取公布权限的信息 29建公布表单公布映射 29公布表单映射治理 29公布频道映射治理 30第一章:系统介绍软件简介挖掘、处理,从而为各种信息效劳系统供给数据输入的整个过程。联网信息采集与监控软件。互联网信息采集与挖掘要求从互联网上对特定目标数据源或不特定目标数据源进展采集与监控效劳于到电子行业平台。行信息采集、抽取、挖掘、处理,从而为各种信息效劳系统供给数据输入,并按业务所需,进展数据公布、分析的整个过程。互联网采集系统流程图第一步:确定采集任务。其次步:每个采集任务,我们有多个目标数据源可供采集。第三步:针对不同的目标数据源,进展不同的采集配置,以确保能采集到数据。第四步:调度采集任务,与目标站点同步更,增量采集。第五步:采集到数据结果,完成数据异构到同构的过程。第六步:通过公布效劳器,将数据公布到应用平台。系统应用领域:1、搜寻引擎与垂直搜寻2、综合门户与行业门户3、电子政务与电子商务4、学问治理与学问共享5、企业竞争情报系统6、BI7、信息询问与信息增值8、信息安全和信息监控软件特点、过滤干净,智能化抽取正文,且图文关联图:采集的目标源图:采集后“干净”的正文结果、数据导出接口丰富,能够将数据导出成各种主流关系型数据构造。、配置简洁自动学习。关于数据采集软件供给了通俗易明白的站点配置向导何的信息采集。关于简单的采集过程,通过一张采集卡脚本即可实现信息的自动采集与监控。图:支持关键字采集,直截了当输入关键字,一步设置输入“关键字、所采即所得,所采即可见、增量采集与自动更

图:所采即所得,所采即可见量采集。支持自动更:自动检测站点是否发生更,并可不能遗漏任何一个重要的信息。、采集结果自动排重不是利用简洁的规章判定,而是利用内容的相像性进展排重判定,准确性高,可不能由于标题或内容的少许变化而产生漏判,即使把标题进展了改头换面,系统也会正确判定。、内置强大的信息监控能够通过一个关键字广域监控互联网上任何一个站点上的相关信息控频道监控任何站点所采集到含有关键字的信息属性,监控周期到达了秒级。关于发生变化的信息能够在短时刻内采集到本地。图:独有的监控功能,可能对采集后的结果进展进一步监控与过滤强大的站点治理工具能够对全部采集对象进展集中治理和各种操作图:对全部采集对象进展集中治理和各种操作图:为所欲为自定义导航与分类图:综全的选项配置,提升采集的性能、支持多种编码

图:对采集后的结果能够赶忙进展修改与编辑支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进展统一的处理。软件即会自动识别网站的组织构造,自动识别网站的编码。集图片用图片表单。、信息导入导出为所欲为供给信息导入导出与其它软件可作无缝连接,如CRM OAExcel/Access等,也能够直截了当导到指定的数据库。与《信息公布效劳器》结合使用能够将信息公布到任何一个地点。、支持阅读模板任何一种信息类型,软件都会自动创立一个阅读模板便利了您快速阅读;任何信息您能够对任何一种信息表单定制一款秀丽的阅读模板设置不同的阅读模板。、支持多页面内容重组关于目标数据源的一篇文章在目标网站上分页显示,系统能自动对其重组.软件运行稳固、采集速度快、占用系统资源少并发运行,而不占有过多的系统资源。采集速度快到瞬时到位。软件完全能够实现7*24小时不连续无人值守的信息采集。更多细节功能有待于您在使用中去体验。、其它特点列表:1、支持多种语言:支持简体中文、繁体中文、英文、日文、韩文等多国语言htmlrss3、支持登录、验证后采集4、软件支持需要登录与需要验证码的网站信息采集,采集过程完全仿人工。5、支持附件采集包括图片附件采集、多媒体附件采集、音视频附件采集、附件与正文自动映射与关联6、完全构造化抽取将网页的非构造化数据抽取成特定的构造化信息数据。去重、分类等,最终分词、索引再以搜寻的方式满足用户的需求。的方式和构造化的方式返回给用户。7、数据储存到本地,您能够随时查阅信息。采集到信息自动储存到本地数据库,您能够随时查阅信息。8、多线层、多任务9、支持海量数据采集10、软件有用、易用、功能强大11、可移植、可扩展、可定制系统配置要求WindowsNT4/Windows2023Server或更的操作系统。需要MicrosoftSQLServer7/2023ODBC接口硬件平台:intelxeon1G以上CPU,1000MRAM40GM以上系统性能支持多线程采集。单机在数据采集在G级以上。10秒级。10秒级。其次章:使用手册综合设置数据库治理建数据库通过“系统(S)”主菜单下的“建数据库”功能菜单,您能够创立一个全的信息采集与治理数据库。建的数据库,默认会创立一个『闻表单储藏在与操作系统不同的驱动盘下,如此数据库中的信息内容会更安全一些。备份数据库通过备份数据库的功能,您能够将当前正在使用的数据库压缩并备份到另一个名目下。以备以后的使用。压缩数据库由于桌面版的软件版本使用了微软的ACCESS数据库,该数据库在您删除记录时可不能自动开释已删除记录所占用的空间缩,以削减数据库占用硬盘资源的空间。关于SQLServer版本的软件,则无需使用压缩数据库的功能。软件也将该功能屏蔽。表单治理表单的概念在各个表单中预置一些字段,通常这些字段含以下几个局部:显示操纵信息字段:密码字段、文字颜色字段、文字背景颜色字段、显示图标字段后续跟踪信息字段:信息来源地址字段频道信息字段:频道信息,监控频道信息创立表单下面以创立一个图书治理表单为例,逐步向您说明如何创立一个属于自己的治理表单。找到主菜单栏中的“工具”=>“系统表单治理“菜单,在弹出的在表单治理器中点击“建表单”按钮。在“表单标题”编辑框中输入“图书表单tblBookShee留意:假设“表单名称”或“表单标题”为空将不能成功地创立表单。点击“储存”按钮,这时系统会提示您已成功地创立了一个名称“图书表单”的表单,并在图书表单下下挂三个字段“记录编号录编号用于标识表单中任何一条记录的唯独的标识道;而源文地址则用于标识信息来源于何处。表单标题该字段用于通俗易明白地标示表单。[必需输入],我们建议您表单标题做到整个数据库是唯独的。表单名称该字段用于在数据库中创立对应表单的名称2040个英文字母同Windows中的文件命名规章相同。能够取与表单标题一样的名称,但建议采纳tblXXXSheet作为命名标准。阅读模板该字段用于标识该表单的信息内容阅读模板的路径,能够是文件路径名称如:e:\Quickreader\readmodel\tblbooksheet.html,也能够是网络上的某个路径名如: :// xxx/tblbooksheet.html。也能够是相对路径,如:readmodel\tblbooksheet.html(假设您将程序安装在:c\ProgrameFiles\采集软件\QuickReader,c\ProgrameFiles\采集软件\QuickReader\readmodel\tblbooksheet.html)假设没有该表单对应的阅读模板该表单全部字段后利用软件供给的“创立模板”进展创立。添加字段以创立图书信息治理表单为例,假设治理图图需要以下字段:图书名称fldBookName40,查重键,主题键作者fldBookAuthor30购置日期fldPurchaseDate可用于操纵或统计日期型图书价格fldBookPrice价格浮点型借阅人fldUserName40借阅日期fldBrowDate借阅日期日期型图书简介fldBookMemo有关该图书的说明备注型选中刚刚建的“图书表单”后,点击“建字段”按钮,将在“图书表单”下增加一个结点,编辑框中预输入了“字段的“字段标题”中输入。现在,在结点编辑中输入“图书名称”后,点击列表中的“字段名fldBookNam4统已成功地图书表单上增加了“图书名称”字段。可依据上述图书治理的需求表格,完成在图书表单的创立工作。下面将对表单各个属性进展具体地说明。字段标题50个字节。字段名称50个字节,命名规章同Windows中的文件命名。建议承受fldXXX作为该值的输入标准。字段类型5种字段类型,能够依照实际需要从这5在以后对其进展修改。字段长度50个字节。设为查重键该字段能够选择为“是”或“否“图书表单”中设置“图书名称”为查重键,如此,以后在输入每一本书的属性时,系统将查找是否存在有一样图书名称的记录。主题字段该字段能够选择为“是”或“否闻表单中的闻标题。我们在“图书表单”中能够设置“图书名称”为主题字段。识别标签本中识别“图书名称”的值,则能够输入“图书名称;名称;图书;BOOKNAME;”等作默认值在列表中显示用于操纵属性字段在概览表单内容时是否在列表中显示。列表宽度用于操纵属性字段在概览表单时显示在列表中的长度。对齐格式对齐。可选择寻常的值选取一个。承诺为空用于操纵属性字段是否承诺为空觉察该字段没有值的记录将被丢弃或要求录入该字段。如“图书表单”中要求“图书名称”不为空,那么假设“图书名称”为空的话,该记录就变得没必要了。修改属性名称。修改后的属性能够赶忙在使用中生效。特地提示:在信息采集的过程中软件不承诺您对表单进展修改。删除表单通过“删除表单”按钮能够删除掉一些不再使用的表单。栏目也将被删除。删除字段通过“删除字段”按钮能够删除掉一些不再使用的属性字段。留意:删除字段时将同时删除表单中该字段的全部数据。上移下移字段字段在列表与阅读模板中显示挨次。创立阅读模板何创立阅读模板,请参照『阅读模板』一节。远程表单治理远程表单治理关于使用了《互联网信息采编发系统》的用户才会显示。关于一般的用信息。用户能够通过表单治理器来扫瞄远程表单的信息。但不能修改表单属性。频道治理创立频道选中一个结点作为建频道的父名目在弹出的“频道属性”对话框中输入频道的名称,并选择一个表单,默认为“闻表单我们选择前面表单治理中创立的“图书表单入模板的路径。找到一个适宜的图标文件,并将图标文件放置于安装名目的Icon名目下。重启软件,就能够更该栏目的图标为您刚刚放置的图标。修改频道属性修改频道的各个属性〔不能修改栏目所对应的表单〕后储存即可。删除频道通过右键菜单能够删除选中的频道,留意删除频道时将同时删除其子频道的全部信息。假设该频道及其子频道下的记录比较多,删除可能需要一段时刻,请急躁等待。隐蔽频道在频道较多的时候,能够通过隐蔽频道功能隐蔽一些栏目在导航树上的显示。刷频道通过刷频道,能够重在导航树上显示那些被隐蔽的子频道。清空频道清空频道,将会将频道中的全部记录都清空,但可不能阻碍到其子频道的信息。设置频道密码设置了频道密码后,能够操纵频道的访问权限,再次访问需要输入密码才能够访问。设置标记〔或一样颜色。而也能够通过“取消全部文字颜色“来取消全部已设置文字显示颜色的频道的颜色。拖动频道把被拖动的频道显示在的父频道下,以转变信息分类构造。模板治理阅读模板的作用通过阅读模板能够将表单中的信息内以网页的形式快速呈现,以便让您快速阅读阅读模板。如何设计模板置“表单治理”中各个要显示的字段的字段名称。要紧放置id=“字段名称“name=“字段名称“。那个地点要特地说明是放置字段名称,而非字段标题信息采集站点差不多属性在增加或编辑站点属性时,需要设置站点的的第一步确实是设置采集站点的差不多属性。站点差不多信息包括:站点地址主题的页面地址,也能够是某个论坛的地址。还能够是某个RSS站点名称站点名称要紧用于显示地标识该站点,以便于以后站点疼惜与治理。站点的名称,也能够取得下面要说到的站点类型和站点编码。站点类型HTML站点和聚类RSSHTMLRSS类型。站点编码站点编码用于显示地告知软件该站点的网页承受了哪种编码模式BIG5编码;一些网站的网页则承受UTF8编码。关于不同的编码网页软件需要进展统一的编全。需要使用代理加每个站点都会自动承受该代理。不需使用代理的采集一样比使用代理采集速度要快。该网站需要登录在采集一些如论坛或其它需要您输入登录账号的站点时,需要设置登录用户名和密码。登录时需要输入验证码有些网站在采集时除了需要登录外能采集。那个地点就需要您设置如何提取与识别验证码。需要使用代理、网站需要登录详见『登录目标网站码识别』承诺自动周期检测该站的更并采集1设置的周期猎手能够快速检测并更到达更周期的站点。提交访问数据什么原因要提交数据页面。您只需把要提交的访问数据拷贝到该页面的顶端最大的编辑框中些数据。您能够修改解析后的参数列表中的某些参数值。比方username=abcd&userpswd=134&classid=23&no=2能够说明成如此的:用户名:abcd134要访问类别ID23的其次页上的信息。如何获得访问数据方法有特地多,我们在此举荐一种最牢靠最有效的猎取访问数据的方法。到需要提交的数据,并拷贝出来。站点链接预览站点链接预览与设置户选择任何一点条记录后,点击右键,能够弹出操纵菜单。复制链接地址 拷贝当前选中的链接信息中的链接地址。复制链接标题 拷贝当前选中的链接信各的链接标题。扫瞄原文件 在网页扫瞄器中翻开原文查看。翻开该链接 将会在软件的链接预览窗口选中的链接下开放该链接记录的子链接信息。设为典型页面设置为您要采集的感爱好的链接信息。您能够多设置几个,以作后面的字段信息提取测试的测试页面。采集深度采集深度是指您要对该目标链接采集到第几层。设置提取特地的链接地址在采集过程中常常会遇到一些信息内容是在弹出式的窗口上显示的,其脚本类似于:javascript:privateWin(”202308766”)的链接地址,而该链接地址的实际地址可能是如此的::// test /testsmth.asp?id=202308766转换成真实的链接地址。那么链接地址特点:就输入::privateWin(”{1}”)真实的链接地址请输入: :// test /testsmth.asp?id={1}如此软件就会自动提取中全部链接中符合privateWin(””)的链接变量,并转换成真实的链接地址。这种情形,一样的用户能够跃过该节。采集过滤采集过滤操纵设置滤操纵中设置一些过滤操纵条件。您能够从“链接地址字的链接进展操纵,操纵动作有:不采集,采集不提取,采集并提取。如设置链接地址中包含有“123“的不采集。而采集不提取的概念是,只采集到符合条件的链接地址的信息,并依链接而且还会提取该页面的信息。设置信息链接提取范畴2设置,请参阅『字段信息提取链接扩展名采集操纵操纵采集提取链接的扩展名采不采集外网或不同的专内容依照需要设置需不需要采集外部的网站的信息。分页模板为了一次性从目标网站上采集更多的信息网页链接,如分页信息链接。:// /test.asp?no=2...:// /test.asp?no=2002200一次性由软件自动生成。自动生成的方式如下::// /test.asp?no={2,200,12200增加一页。附件采集设置附件识别方法:使用扩展名提取 设置您要提取的附件扩展名,每个扩展名以“;”作分隔,如:jpg;gif;zip;等。使用特点符提取 您要设置附件链接中必需包含有关键字的附件才要采集。各个关键字也是以“;”分隔。不采集就可不能识别与采集任何附件。附件储存方式设置适当的附件储存方式来储存站点中已识别的附件信息和文件3种方式能够选择:的附件表单中。选中“储存前压缩附件“能够削减附件在数据库中的占用空间。为空,否则将承受第一种方式。与就失去完整性。闻自动识别多国语言的闻资讯。假设您要识别闻的作者,则需要作者识别标签。常见的标签有:记者;编辑;作者;通讯员等。每个标签以“;”作分隔。同样要识别来源与公布日期等也要输入相应的标签。只采集最文章的链接地址软件将只采集目标网站的最信息的链接地址和链接标题文信息。自动重组文章的全部页面特地多目标网站会将长的闻文章安排到多个页面中显示重组这些类型的闻信息。正文长度小于阈值不储存用户能够设定阈值来限制闻的长度,假设长度小于阈值就不储存。文章中的附件数大于阈值不储存当闻中的附件数量大于阈值就不储存不采集。字段提取设置通过本节的学习您将学会如何从一个网页中提取出每个字段的信息4通过智能标签提取法简洁适用于多数的网站。通过正则表达式提取关于生疏正则表达式的高级用户能够使用正则表到达来提取页面中的信息。指定一个特定的值己指定一个特定的值。通过前后标识提取如下:<td>影片:</td><td>XXXXXXXX</td>那么我们能够承受前标识符为:影片:</td>后标识符为:</td容为<td>XXXXXXXX那么我们不勾选“保存字段值中的HTMLXXXXXXXX提取该字段的附件取字段内的附件。如此循环,直到表单中全部的字段信息提取方法都配置完成。字段采后处理用户能够对采集到的字段值作以下处理:字段内容替换能够查找某个特点值,替换成另一个字符串。字段中需要保存HTML能够设定字段中要不要保存HTML标签,及要保存哪些标签。字段值前插在字段值前面插入一个指定的特点串字段值后追加在字段值后追加一个指定的特点串特地截取处理够取右边的几个字符。字段值的后处理是使得采集到的信息更符合您的要求。站点治理采集站点治理通过站点治理器能够治理全部采集站点列表。删除:能够从站点列表中删除某个站点。复制:能够复制一个一样规章的站点转变。用状态。直到您设置了一个有效的储存栏目,并设置启用后才会使该站点使能。向上:能够提高站点的采集优先级。向下:能够降低站点的采集优先级。禁用/启用:能够设置站点的采集使能或处于禁用状态。采集列表中,能够设置该站点处于复位状态来实现。去除日志:去除站点的采集日志。具体可参见下节的采集日志治理一节。扫描采集源将列出该频道下全部子频道的采集站点。您能够在该对话框中对相应的采集站点进展操作。操作功能同站点治理。点击扫描将关闭对话,并开头依照设置对站点进展检测更与采集。采集日志采集日志治理软件在采集每个一站点都将对应一个采集日志和学习数据文件来实现去除全部采集日志,也能够在日志列表中通过双击翻开某个日志链接来阅读原文。去除采集日志去除日志功能将去除掉全部站点的采集日志。〔如全部站点重采集和学习〕不要使用去除日志功能。由于习后的采集时刻。信息治理信息治理添加与编辑信息记录〔关于文档表单〕或〔其它表单文档表单的信息编辑界面承受了仿Word的窗口,能够在上面进展文字编辑或插入图片等。储存时能够储存成纯文本方式也能够储存成多彩格式。格式的方法占用的空间比后者大。如表单中设定的字段为数字型的,只能输入数字,而日期型的字段则预先输入当日的日期。信息内容阅读字段输入到模板中进展显示。假设没有设定阅读模板,则会弹出信息记录的编辑窗口。需要您检查一下该栏目的模板文件的路径是否设置正确。删除信息记录输入记录密码。信息记录分类您能够在概览列表中通过将选中的记录拖动到另一个一样表单的不同栏目下先的分类。扫瞄原文密码,需要输入密码才能承诺扫瞄。设置标识设置〔取消〕密码加密的方式。然而信息的安全性更多的照旧需要用户自己保证正在使用运算机的安全。设置其它标记《互联网信息采编发系统》为了突出某些信息记录的特地性或重要性能够承受设置图标、设置加粗、设置文字颜色或设置背景颜色等方式来实现。点击Ctrl+中的记录进展加粗或取消加粗显示。附件治理的方法能够特地便利地支持附件在其它应用程序中使用。插入的附件,在自动公布时将随着信息记录一起公布。无需单独公布。记录导入Excel文件导入Access第一选择并翻开一个您要记录所在的EXCEL或ACCESS1软件界面。①选择一个EXCELACCESS20②建立字段映射关系要正确的从EXCEL或ACCESS中导入数据,您必需指定EXCEL使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论