《各平台数据采集及方法》课件-公众号文章信息采集_第1页
《各平台数据采集及方法》课件-公众号文章信息采集_第2页
《各平台数据采集及方法》课件-公众号文章信息采集_第3页
《各平台数据采集及方法》课件-公众号文章信息采集_第4页
《各平台数据采集及方法》课件-公众号文章信息采集_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

公众号文章信息采集公众号文章信息的采集

本实例主要采集公众号内的所有文章信息,如图所示。通过搜索“读悦文摘”公众号,采集公众号内的所有文章,要求使用提取数据的“自定义数据合并方式”保留文章格式,文章图片位置转化为图片链接保存,并且在链接前加“<img>”标签,后加“</img>”标签。采集字段为文章标题、文章正文、采集时间及页面网址。步骤1:新建自定义采集任务

输入公众号名称。单击网页界面中的输入框,在“操作提示”面板中单击“输入文字”选项,输入公众号名称“读悦文摘”,单击“确定”按钮。步骤2:输入实例网址并保存网址步骤3公众号文章信息的采集步骤4

单击搜公众号。单击网页界面中的“搜公众号”按钮,在“操作提示”面板中单击“点击该按钮”选项。公众号文章信息的采集步骤5

单击进入公众号。单击网页界面中的“读悦文摘”公众号标题,并在“操作提示”面板中单击“点击该元素”选项。步骤6

循环单击商品标题。连续单击两个文章标题,八爪鱼采集器会选中所有标题,在“操作提示”面板中单击“循环点击每个元素”选项。公众号文章信息的采集步骤7

提取标题。单击网页界面中的文章标题,在“操作提示”面板中单击“采集该元素的文本”选项,修改字段名称为“文章标题”,单击“确定”按钮。公众号文章信息的采集步骤8

建立文章内容循环。为了保留文章原格式,需要对文章每一段内容单独提取,然后追加至一个字段内容。从流程图左侧的工具栏中拖动一个循环放入指定位置,选中“不固定元素列表”单选项,如图所示。在下方的“不固定元素列表”文本框中输入对应XPath来匹配文章的每一段内容。本实例的XPath为“//div[@class="rich_media_content"]//p”。公众号文章信息的采集步骤9

判断每段内容是否为图片。数据采集需要将文章内的图片保存为链接,可使用判断条件来判断每段内容是否为图片。添加判断条件如图所示。从流程图左侧的工具栏中拖动判断条件放入指定位置,在左侧的条件分支中选择当前循环项包含元素,然后在“元素XPath”文本框中输入“//img”,单击“确定”按钮进行保存。公众号文章信息的采集步骤10

配置图片提取数据。图片的提取内容为图片链接,并且需要进行字段内容的格式化,添加前缀“<img>”和后缀“</img>”。单击文章内的任一图片,在“操作提示”面板中单击“采集该图片地址”选项,如上图所示。将“提取数据”模块拖动至左侧的条件分支中,并修改“字段名称”为文章内容,在“高级选项”区域中设置“使用循环”,这里选中“采集当前循环中设置的元素”复选框,如下图所示。公众号文章信息的采集步骤10

要修改“提取数据”模块的自定义元素方式,首先选中文章内容字段,待字段变蓝后单击下方的“自定义数据字段”按钮,然后选择“自定义定位元素方式”选项,在打开的界面中选中“相对XPath”复选框,在右侧的文本框中输入“//img”,最后单击“确定”按钮进行保存,如上图所示。单击“自定义数据字段”按钮,选择“格式化数据”选项,在打开的界面中单击“添加步骤”按钮,选择“添加前缀”选项,输入前缀内容“<img>”后单击“确定”按钮,如下图所示。添加后缀的方法和添加前缀的方法类似,选择“添加后缀”选项,输入后缀内容“</img>”。公众号文章信息的采集步骤11

正文文本采集。单击文字部分进行提取,拖动“提取数据”模块至右侧的分支条件中,无须修改分支内容,修改“字段名称”为“文章内容”,在弹出的提示框中询问已存在同名字段是否继续进行命名操作,单击“是”按钮,选中“采集当前循环中设置的元素”复选框。选中文章内容字段,待字段变蓝后单击“自定义数据字段”按钮,然后选择“自定义定位元素方式”选项,在打开的界面中选中“相对XPath”复选框。公众号文章信息的采集步骤12

修改自定义数据合并方式。分别单击两侧“提取数据”模块中的文章内容字段,单击下方的“自定义数据字段”按钮,选择“自定义数据合并方式”选项,然后选中“同一字段多次提取合并为一行,即追加到同一字段。例如正文页合并。”单选项,单击“确定”按钮。公众号文章信息的采集步骤

13

启动本地采集。单击“开始采集”按钮,单击“启动本地采集”按钮。公众号文章信息的采集步骤

14

导出数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论