版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目二数据采集概述任务4采集网络数据一、常规网络数据的采集常规网络数据采集方法主要是针对网络平台数据那些可下载或可复制数据所采用的数据采集方法。1.当在网络上浏览到需要采集的数据时,如果该平台允许下载(或导出)页面中的数据,一般会在该页面中显示与下载(或导出)相关的超链接或按钮,用户只要单击该超链接或按钮,设置数据文件的名称和保存位置,然后点击保存即可。一、常规网络数据的采集/sj/zxfb/202401/t20240129_1946971.html一、常规网络数据的采集2.如果网络平台没有提供与下载(或导出)相关的超链接或按钮,但允许选择并复制数据内容,用户可以点击并按住拖拽鼠标,将需要采集的数据全部选中,在所选区域单击鼠标右键,在弹出的快捷菜单中选挥“复制”命令。启动Excel点击鼠标右键,在弹出的快捷菜单中选挥点击“粘贴”命令,或按“Ctrl+V”组合键即可将剪贴板中的数据粘贴到Excel的工作表。一、常规网络数据的采集/sj/zxfb/202402/t20240228_1947915.html二、利用Excel进行网络数据采集
对于网络数据也可以采用Excel进行数据采集。下面以东方财富网上的股票行情中心数据(/center/gridlist.html#hs_a_board)为例,利用Excel进行网络数据采集。下图为东方财富网行情中心部分股票数据。二、利用Excel进行网络数据采集第一步,启动Excel工作簿,点击编辑页面的“数据”选项卡,在出现的页面中,单击功能区中的“自网站”选项,会弹出“从Web”的对话框;二、利用Excel进行网络数据采集第二步,在URL中录入网址:/center/gridlist.html#hs_a_board,点击“确定”按钮;二、利用Excel进行网络数据采集第三步,在上述步骤之后,会出现“导航器”对话框,二、利用Excel进行网络数据采集第四步,在导航对话框中,点击“显示选项”中的“table0”选项;二、利用Excel进行网络数据采集第五步,点击【加载】按钮,就可以将有关资料采集下来。三、使用gooseeker抓取网页数据GooSeeker集搜客网络爬虫软件是一款功能齐全并且免编程的批量爬虫软件,该软件提供自定义采集和快捷采集两种主要采集方式,自定义采集适用于非常规网站和个性化采集,快捷采集适用于主流网站数据采集,比如知乎、京东、淘宝、安居客、前程无忧、微博等网站,爬取方式简单易用。下面以本软件为例,进行网页数据抓取演示。三、使用gooseeker抓取网页数据(一)数据抓取前的准备工作1.下载与安装首先进行软件安装,软件下载地址:/pro/gooseeker.html该软件提供免费版和高级版本,初学阶段建议使用免费版。三、使用gooseeker抓取网页数据2.激活账号下载软件后,双击安装。安装后双击打开,第一次运行GS爬虫浏览器,要登录才能激活网络爬虫功能,检查是否已经连上服务器(绿勾连接,红勾未连接)。注意:没有账号的请先在官网注册一个账号。如果是Mac版软件,需要购买专业版才能激活。Windows版界面如下(本节以Windows免费版进行讲解)。三、使用gooseeker抓取网页数据(二)使用gooseeker抓取网页数据下面以采集天猫商品评价为例简要说明软件使用方法。1.登陆天猫网站:在数据管家新开一个页签,在新页签打开天猫网站,并登陆一个天猫账号,一般直接用手机验证码就可以。三、使用gooseeker抓取网页数据2.进入快捷采集:点击数据管家左侧边栏的“快”按钮,进入快捷采集。三、使用gooseeker抓取网页数据3.选择合适的快捷工具:根据要采集的网页,选择类别-网站-网页。对于天猫商品评论来说,就是点击:电商
-
天猫
-
天猫商品评论采集三、使用gooseeker抓取网页数据如下图所示,可以打开示例页面看看,确保后面操作时添加的链接和示例页面类似。或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。三、使用gooseeker抓取网页数据4.获得网址在天猫的搜索页面上,输入要搜索的关键词,点击搜索,比如搜索“儿童超轻黏土”,复制出来的某条商品网址就是:/item.htm?abbucket=20&id=657886365325&ns=1&spm=a21n.18b7523cI92qPN三、使用gooseeker抓取网页数据5.粘贴网址,启动采集把上一步得到的网址用Ctrl+v粘贴到快捷工具的网址输入栏,启动采集。三、使用gooseeker抓取网页数据6.采集中的爬虫窗口点击获取数据之后,数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。三、使用gooseeker抓取网页数据7.打包下载数据采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。三、使用gooseeker抓取网页数据如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查1.添加的链接是否和样本页面类似;2.需要提前登陆的网站,是否已经登陆;再重新采集一遍,注意观察采集窗口,网页是否正常加载Gooseeker:自定义采集京东牛仔裤网址/Search?keyword=%E7%89%9B%E4%BB%94%E8%A3%A4&enc=utf-8&wq=%E7%89%9B%E4%BB%94ku&pvid=8b0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年广西经贸职业技术学院马克思主义基本原理概论期末考试笔试真题汇编
- 2025年陇东学院马克思主义基本原理概论期末考试真题汇编
- 2025年天津中德应用技术大学马克思主义基本原理概论期末考试真题汇编
- 科技项目申报咨询方案
- 城市公园景观设计方案
- 企业内部培训师培养方案
- 应急逃生自救知识课件
- 应急管理局安全培训电脑课件
- 应急用血培训资料
- 2026年健康行业趋势咨询合同协议
- 2024年-Juniper防火墙配置
- 线虫病疫木及异常枯死松树处置 投标方案案(技术方案)
- 季度安全工作汇报
- (高清版)DZT 0350-2020 矿产资源规划图示图例
- HGT4134-2022 工业聚乙二醇PEG
- 小学教职工代表大会提案表
- 广西中医药大学赛恩斯新医药学院体育补考申请表
- 公司委托法人收款到个人账户范本
- 2023年上海市春考数学试卷(含答案)
- 2023版押品考试题库必考点含答案
- 北京市西城区2020-2021学年八年级上学期期末考试英语试题
评论
0/150
提交评论