小猪采集器规则制作_第1页
小猪采集器规则制作_第2页
小猪采集器规则制作_第3页
小猪采集器规则制作_第4页
小猪采集器规则制作_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上1.何时才需要做小猪采集规则小猪内置了数百种采集规则(内置规则无法修改),方便了用户使用,不过网页(模板)是千变万化的,当Ctrl+b预览不到内容、或者预览到的内容不符合您要求的时候,就需要制作采集规则了。注意点:小猪采集规则主要功能是提取字符、网址; 采集回复数量、关键词SEO、伪原创、图片/附件下载、发布切换用户、发布时间间隔等是通过“采集方案”来控制,并且这些是运行均是自动化的。2.小猪采集规则的作用采集规则,顾名思义,就是采集用的,将网页上的内容提取整理成适合的形式,以便于发布到网站或者存储到CSV数据表格里面。补充: 小猪采集规则实际包含了 采集规则+发布规

2、则 ,这么设计的好处,可以处理交互式的网页,实现自动登录、回复、购买等互动采集,普通采集器很难实现这些互动处理,比如在论坛的帖子页,可以采集这个帖子,也可以对这个帖子进行回复后再采集,当然,大部分情况下是不需要做发布规则的,请按需选择。3.小猪采集规则的兼容性小猪的采集规则处理的对象是“网页模板”,普通的网站一般只用一套模板,这种网页就有规律可循,比如相同模板的列表页只需要制作一条列表采集规则。小结 : 网站的发布内容展示在网页上,通过“网页模板”展示出来,软件则是通过对应的“采集规则”来解密出网页的内容,小猪规则相当于是“钥匙”,不同的钥匙打开不同的“网页模板”。4.小猪采集规则的独立性与调

3、用小猪软件采集规则,是互相独立,又互相配合的,并且规则和任务也是独立的。小猪的各个任务会自动调用“已经打钩”的本地规则、内置规则、云规则等,所以制作好规则后,就可以测试采集了,任务会自动调用,无需手工再次选择。5.采集页面深度小猪理论上支持采集支持无限深度,原理是通过不同的规则识别不同的网页模板,也就是抓取不同的页面深度。对于更复杂的需求,还可以通过p语言来实现,比如通过p语言抓取相关的网页页面字符和当前页面字符进行拼接组合。第四节 实战编写小猪规则有些用户可能比较心急,这一节讲解如何操作,不过我们建议大家有空的话还是看全 五节教程的文字部分,这样能基本掌握小猪规则的制作方法。 (0 Byte

4、s, 下载次数: 862) 2011-12-19 13:03:56 上传下载次数: 862 ,新手可以参考此表来编写小猪规则。建议按顺序看以下视频教程:序号视频教程说明视频下载地址本地下载教程规则下载1编辑规则相关界面介绍2正文采集规则制作方法 (428 Bytes, 下载次数: 641) 2011-12-19 14:44:17 上传下载次数: 641 3列表采集规则制作方法 (481 Bytes, 下载次数: 607) 2011-12-19 14:44:30 上传下载次数: 607 4论坛帖子采集规则制作 5视频采集规则制作(包含采集视频评论) 以下为文字说明和相关注意点:正文规则制作教程正

5、文规则是为了采集到 标题、内容(包括图片、附件网址),以及获取正确的翻页网址,便于实时发布。一、在文章页面,CTRL+B 测试获取内容不正确,就需要做正文规则二、右键点“本地规则库”-制作当前网页采集规则编辑正文规则方法如下:操作顺序配置名操作方法和注意点1全局区设置规则名称和规则类型,一般是选择源代码,正文页类型2标题鼠标框选网页上标题区域,右键菜单-内容采集-此处取标题,其他配置名均可以如此操作3正文注意:只有在要采集回复、评论,才需要设置“首帖区域”“单元区域” 4正文下一页网址如果有翻页,设置翻页地址,便于软件自动采集文章分页注意:如果是论坛帖子的翻页,需要设置为“下一页网址”5识别区

6、回过头来,用正文的 class属性,设置 识别区内容必包含保存规则,打开其他正文页面测试是否获取正常,是否调用到了此正文采集规则。小结: 制作文章类型的正文规则,主要设置“配置名”中的识别区、标题、正文、正文下一页。注意点:识别区务必要设置,识别区的重要性在第二节中有相关说明。列表规则的制作教程列表规则起到导航的作用,便于软件抓取到正文网址,采集正文内容。一、打开版块列表页,CTRL+B 测试获取内容不正确,就需要做列表规则此教程中,内置规则能正常识别到列表,只是演示制作方法二、右键点“本地规则库”-制作当前网页采集规则编辑列表规则方法如下:操作顺序配置名操作方法和注意点1全局区设置规则名称和

7、类型,一般是选择源代码,列表页类型2单元区域单元区域:重复的HTML块,比如列表上的标题一般都有规律可循鼠标框选网页上第一个文章链接区域,右键送入“单元区域”小技巧:列表规则单元区域可以直接输入 “正文网址”的特征,软件会自动抓取这些链接检查标题、正文显示内容是否正确,如果不对需要修改3有效区域可以通过“有效区域”来限定获取内容的范围,比如排除置顶帖4下一页网址找到翻页地址并设置,便于软件自动翻页采集5识别区回过头来,用单元区域的 class属性,设置 识别区内容必包含如果一时找不到,可以将正文规则的class属性,设置到 识别区-内容不包含 里面这样就简单实现2个规则互不干扰注意:要在列表页

8、源代码中搜索一下class属性,检查并确定没有此字段,才可用此方法保存规则,打开其他列表页面测试是否获取正常,是否调用到了此列表采集规则。小结: 制作列表采集规则,主要设置了“配置名”中的单元区域、下一页网址、识别区。注意点:寻找单元区域有一定的技巧,需要耐心,同样,识别区非常重要,务必设置好识别区第二节 小猪浏览器采集规则执行原理小猪浏览器常用的采集规则主要有三类:列表规则、正文规则(根据是否采集回复、评论,还可以分2种)、下载规则。首先理解要做哪些规则:序号网页类型制作规则类型及注意点1版块列表页面列表规则,“单元区域”设置列表网址的特征值,或者正文网址所在重复区块的特征值2文章类页面(不

9、采集回复)正文规则,不需要用到单元区域3帖子类页面(需回复、评论)正文规则,需要用到单元区域对于有些网页评论和回复不在重复区块内,还需要用到首帖区域4跳转的附件下载页面下载规则自编采集规则可以和软件内置采集规则配合使用,比如软件内置规则能识别出列表页面,但是无法识别正文页面,那么我们只需要制作正文采集规则就可以了。为了让这些规则互相不冲突,需要用到“识别区”,识别区的意义,是让规则只识别某一类网址、某一种模板,让规则分工协调。和普通采集器不一样的是,小猪规则是智能调用的,规则打钩即生效,软件通过识别区来自动匹配网页所对应的规则。识别区有4个特征选项序号识别区说明(特征字符是固定的字符,请按行填

10、写,不支持通配符号)1网址必包含只有网址包含了这些特征字符,才调用此规则技巧:新建规则时,软件会自动填入完整域名,有时候可以去掉二级前缀来扩大规则识别范围2网址不包含当网址包含这些特征字符的时候,则不调用此规则3内容必包含当网页代码中带有网页模板特征字符、文字,调用此规则网页代码:制作规则所针对的网页代码来源,如网页源代码技巧:我们常用 标题、正文、或者区域的 class=* 等HTML属性,这些一般是网页模板的特征字符4内容不包含当网页代码中包含了这些特征字符,则不调用此规则根据排列组合原理,小猪识别区理论上可以识别无限个网页(模板),利用好识别区,可以让规则匹配不同的网页生效。相关html

11、代码属性,可以参考下面的第五节学习。采集规则编辑流程图如下,红线示意了规则循环执行原理扩展一下:一级列表规则也可以指向二级列表规则,直至抓到最终的正文页面;类似于蜘蛛爬行原理,而我们需要更精确和可控的内容,所以需要制作对应的小猪采集规则。(蜘蛛爬行是顺着网页链接来抓取对应的内容,有一定“随机性”)2011-12-11 18:48:32 上传 小猪浏览器采集规则流程图 当前在线 在线时间5027 小时最后登录2013-3-21154 活力14464 论坛币2275 注册时间2010-7-7阅读权限200帖子主题精华6积分40199UID7164 TA的每日心情奋斗2013-3-3 13:02:5

12、7签到天数: 206 天LV.7常住居民III最后登录2013-3-21154 注册时间2010-7-7积分40199主题帖子 发表于 2011-12-11 22:22:58 | 第三节规则编辑操作简述一、规则编辑,相关界面介绍:序号功能区名称位置作用及相关功能介绍1规则管理区工具栏-规则标签管理规则的地方,可以执行新建、删除规则等操作(打钩的规则才生效)Misc:自动整理的规则会放到此文件夹Poster:发布子规则文件夹,可以新建和管理发布子规则Recycle:此文件夹内的规则不参与规则冲突检查,可以用此文件夹屏蔽规则2规则编辑器编辑规则窗口编辑、调试具体的规则左边:规则总览区,一览检查规则

13、完成度中间:配置代码编辑区,快速编辑配置名 输出:实时显示配置名的测试结果右边:p语言函数说明3代码及抓包工具(快捷键F8)html代码窗口查看网页HTML代码,内置抓包工具,便于调试和测试代码树:根据源代码和浏览器代码生成的树状目录结构源代码:网页服务器端代码,一般针对源代码做规则浏览器代码:经过浏览器解释过的客户端网页代码(效率偏低)浏览包:用户访问网页产生的数据包软件包:软件自动执行相关的数据包小猪规则编辑器新特性:所见即所得,编辑的代码可以在浏览网页中同步高亮显示,便于检查结果。二、编辑规则基本操作方法:1.浏览器中,打开需要制作规则的网页2.右键点击“本地规则库”,新建采集规则3.在

14、浏览器中,鼠标框选内容,通过右键菜单送入相应的“配置名”中(单元区域选第一个重复区域,识别成功率会较高)4.检查“配置名”获取到的内容是否正确分析方法:1.分析代码树,鼠标框选内容,定位到代码树,比如:通过代码树快速分析出重复的“单元区域”;2.在网页上,选择一定的区域,右键菜单查看网页代码,可以快速查看源代码片段,比如分析下一页代码,或者在源代码中搜索,分析相关的源代码。检查结果的方法:1.点击配置名,检查浏览器网页上对应高亮显示区域;2.规则编辑器下方“输出”窗口会显示测试内容;3.规则保存后,预览结果(ctrl+b)是最终验证规则是否有效的手段。 当前在线 在线时间5027 小时最后登录

15、2013-3-21154 活力14464 论坛币2275 注册时间2010-7-7阅读权限200帖子主题精华6积分40199UID7164 TA的每日心情奋斗2013-3-3 13:02:57签到天数: 206 天LV.7常住居民III最后登录2013-3-21154 注册时间2010-7-7积分40199主题帖子 发表于 2011-12-11 22:27:30 | 第五节 小猪规则编辑器中,获取及处理内容“配置名”的编辑方法这边说的“配置名”,主要侧重预置的“配置名”如 “标题”“正文”等,“自定义标签”对应的配置名请看第六节。小猪规则编辑器 的采集 “配置名”,一般有1-4种普通处理方法(

16、普通情况下用不到p语言),并且大部分时候只需通过 在网页上取值就可以,这边主要讲解如何手工编辑:注意:类似 id=idwebpig*这样的代码,是规则管理器生成代码树用的,并非源代码,做规则的时候一定不能带这样的代码,否则规则会失效。2011-12-19 23:12:27 上传 如图红色箭头标出了“总览区”和“配置名编辑”的对应关系,蓝色框子是配置名的处理方法,具体讲解如下:一、获取内容:获取内容是小猪规则里最常用的方法,大部分时候,通过“获取内容”就可以制作出需要的规则代码了。了解一些html代码知识会有帮助(见下面补充说明)。 1. 这是标题 12. 段落13. 4. 这是标题25. 段落

17、26. 复制代码如上面源代码,html代码是闭合的,开始,闭合,两个代码成对出现,我们一般称之为一个HTML块。在小猪编辑器里面,输入 1. h1复制代码,就能提取到标题了,不需要写结尾,规则编辑器会自动匹配结尾。精准定位的方法:上例中,有2个段落,需要获得 段落2,可以这样写,这样是用 class=news 属性来进行一次定位,指定获取第二个p 1. class=news2. p语言-块删除-p语言-标签过滤=UBB2. 第二阶段 UBB代码处理:UBB=正则过滤-p语言=结果(ubb)3. 第三阶段 UBB代码处理:结果(ubb)=后处理(p语言)=最终结果(ubb)复制代码小猪规则解释器

18、采集过程是将网页内容先进行标准化处理,转换成 UBB代码后,再按发布网站源程序,自动选择对应的编码发布。补充:为了缩小获取内容(不包括标题和下一页)的范围,小猪编辑器引入了有效区域概念,限定采集内容的范围(不包括标题、版块地图、翻页),注意:有效区域设置不当会获取不到内容。有效区域的技巧:只想采集从 “版块主题” 之后正文网址,可以用第3行序号有效区域开始有效区域结束有效区域含义1只写代码开头空表示循环获取此html块为有效区域,针对列表规则获取链接非常有效2版块主题从网页开头到“版块主题”结束的代码区域,是普通网页的开始代码3版块主题从“版块主题”开始直到代码结束的代码区域,是普通网页的结束

19、代码下面表格列出了一些常用的html代码,了解这些代码定义,能极大的提高规则制作效率,主要看序号1-5代码,其中 标准属性(常用部分),是我们经常用到的定位特征代码,如class=*(因为这个属性通常来说是唯一的,并且常可以作为识别区-内容识别代码) 。序号名称/定义HTML代码标准属性(常用部分)链接代码结束1标题h1-6id, class, title2文档中的分区或节divid, class, title3组合文档中的行内元素spanid, class, title4锚,链接aid, class, titlehref=链接5向网页中嵌入一幅图像imgid, class, titlesrc=图片链接6段落id, class, title7块引用id, class, title8列表项目id, class, title9定义列表id, class, title10列表中的项目(即术语部分)id, class, title11无序列表id, class, title12表格id, class, title13表格内的表头单元格id, class, title14表格中的标准单元格id, class, title15表格中的行id, class, title16规定文本的字体、字体尺寸、字体颜色id, class, title17f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论