![CX文章采集器规则写法如何写Discuz论坛采集规则.doc_第1页](http://file.renrendoc.com/FileRoot1/2019-3/18/55e53110-d1f0-4b21-8760-a07c610fe117/55e53110-d1f0-4b21-8760-a07c610fe1171.gif)
![CX文章采集器规则写法如何写Discuz论坛采集规则.doc_第2页](http://file.renrendoc.com/FileRoot1/2019-3/18/55e53110-d1f0-4b21-8760-a07c610fe117/55e53110-d1f0-4b21-8760-a07c610fe1172.gif)
![CX文章采集器规则写法如何写Discuz论坛采集规则.doc_第3页](http://file.renrendoc.com/FileRoot1/2019-3/18/55e53110-d1f0-4b21-8760-a07c610fe117/55e53110-d1f0-4b21-8760-a07c610fe1173.gif)
![CX文章采集器规则写法如何写Discuz论坛采集规则.doc_第4页](http://file.renrendoc.com/FileRoot1/2019-3/18/55e53110-d1f0-4b21-8760-a07c610fe117/55e53110-d1f0-4b21-8760-a07c610fe1174.gif)
![CX文章采集器规则写法如何写Discuz论坛采集规则.doc_第5页](http://file.renrendoc.com/FileRoot1/2019-3/18/55e53110-d1f0-4b21-8760-a07c610fe117/55e53110-d1f0-4b21-8760-a07c610fe1175.gif)
已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CX文章采集器规则写法教程,教你如何写采集规则相信做用Discuz做站的用户是非常多的,那么用到CX采集插件的用户也是很多,自己也用过CX采集插件,个人觉得非常不错,是Discuz插件中一款很不错的采集插件,很适合Dicuz,可以说是类似于织梦,新云等程序后台自带的那种采集插件,不过很多人对于插件的采集规则写法还是很搞不来,自己的水平虽然不高,但是还能勉强写些规则,所以就写个简陋点的教程,新手可以看一看,老手你也别喷我!在cx采集插件中,机器人就是采集器,首先给大家讲一下采集器制作的基本原理和思路!1,首先确定要采集的文章列表页面的链接(这里的链接一定要是列表的连接)2,要确认要采集这个列表页面的内容区域,也就是机器人中的“列表区域识别规则”3,要确认要采集这个列表页面中的文章的连接,也就是“文章链接URL识别规则”4,然后,我们就要确认要采集的文章内容范围,也就是“文章内容识别规则”5,依靠前面4步,我们已经基本确定了要采集的范围,要过滤一些自己不想要的文章题目或者内容,大家可以按实际情况设置“过滤规则”下面我们的教程正式开始,我以搜瘦网的一个文章列表为例子,给大家讲解;下面我们具体将采集/jfff/ysjf/sssp/这个列表页面;第一步:后台插件CX采集器添加机器人基本设置:1.机器人名(即机器人的名称);2.匹配模式(一般情况选正则表达式);3.一次采集总数(即一次采集的总个数,按自己的选择设置);4分批采集数(默认为5,不可太大,否则采集会超时)5,发布时间(可以自定义发布时间,不设置的话以当前的时间为主)第二:设置采集的列表页面1.采集页面的url设置有两种,一是手工输入,二是自动增长,我们以手工输入为例;添加好链接后,点击下测试,看是否可以链接到;2.采集页面的编码设置,我们可以点击程序辅助识别,这里要填的是被采集页面的编码,其他3项,按个人需要设置3.设置列表区域识别规则 到我们要采集的页面,点击右键,查看源文件,然后找到文章链接url的区域,规则中url区域用list表示现在我们就要找到开始区域和结束区域的div或其他标签,文章链接URL一定要在这个区域中,而且是最近的,标签必须要独一无二,比如:list然后,我们需要点击一下后面的测试,看是否能识别出文章链接url区域4,文章链接url识别规则规则需要的连接如图我们将 中,引号中的连接替换成url,即 填到规则中,然后点击测试文章链接url补充前缀,因为连接中有域名,所以就不需要填了,如果没有,则需要填上域名第三,文章内容页面采集设置1,文章标题识别规则,点开一篇文章,在文章页面中点击右键,查看源文件,找到这篇文章标题左右最近的标签,文章标题用subject,代替以列表中的这篇文章为例;/2011/5/4/28084.shtml标题规则即:subject 填入规则,点击测试大家都看到,识别后的标题,其中后面的并不是我们想要的标题,所以我们要把不需要的过滤掉,现在我们复制不想要的一些标题即(-资讯中心-减肥频道-减肥方法-饮食减肥-瘦身食谱)将他填到下面的文章标题过滤规则中,现在我们测试下,看看是不是得到我们想要的标题了2,文章内容识别规则找到源文件中这篇文章区域开始和结尾最近的标签,内容用message表示,即内容识别规则为message 点击测试这样规则就写好了,点击最下面的提交,其他规则按你要采集的网站和个人的需要自己设置。然后,点击开始采集采集完成后,点击查看采集结果然后选择,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目分析复盘成品
- 2023年材料员考试试题和答案
- 儿科学试题库
- 胺基化工艺考试试卷题库及答案
- 多媒体教室实施方案
- 2024年钛白粉项目可行性报告
- 智能用电系统产品项目可行性报告
- 《植树的牧羊人-让·乔诺作业设计方案-2023-2024学年初中语文统编版》
- 鲁科版高中化学必修第一册第3章物质的性质与转化第2节第1课时硫及其氧化物练习含答案
- 2024安全风险分级管控和隐患排查治理双重预防机制
- 医美整形美容培训课件皮肤激光技术的选择与操作
- 小学大单元-二下第2单元学生用书作业设计
- 运动主题乐园类可行性方案
- 住宅产品实测实量技术规范
- 人工智能在广告公关中的应用
- 小学五年级下册分数小数加减混合运算习题
- 液化气燃气安全知识讲座
- 瓷砖打包车间管理制度
- “三抓三促”行动知识答题(试题及答案)
- 2024届天一大联考高一化学第二学期期末达标测试试题含解析
- 成都市2021级(2024届)高中毕业班第一次诊断性检测(一诊)英语试卷(含答案)
评论
0/150
提交评论