《大数据基础与实务》课件 11a.项目三 任务四 认识基于Python语言的大数据统计分析虚拟仿真系统_第1页
《大数据基础与实务》课件 11a.项目三 任务四 认识基于Python语言的大数据统计分析虚拟仿真系统_第2页
《大数据基础与实务》课件 11a.项目三 任务四 认识基于Python语言的大数据统计分析虚拟仿真系统_第3页
《大数据基础与实务》课件 11a.项目三 任务四 认识基于Python语言的大数据统计分析虚拟仿真系统_第4页
《大数据基础与实务》课件 11a.项目三 任务四 认识基于Python语言的大数据统计分析虚拟仿真系统_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据基础与实务项目三大数据采集与清洗认识Python系统任务五任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR任务描述

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

知识准备

此次实验以“京东”财务指标数据采集为例。登录进入系统后,默认进入“案例一单项实训——数据采集”中的“任务一:‘京东’财务指标数据采集”实验京东财务数据采集一知识准备点击【新建】按钮新增项目,点击选中项目名称,鼠标右键,对项目进行重命名,完成后点击【保存】保存数据采集过程二步骤1知识准备

点击【注册表名】,弹出注册数据表弹窗,如在弹窗中进行数据存储表注册。在输入框中输入设计的表名采集过程二步骤2知识准备

点击【数据向导】,弹出关键词替换弹窗,根据任务描述要求,对每一关键词填入正确的参数,然后点击【确认】,传入参数数据。采集过程二步骤3知识准备

点击【保存】保存数据,然后点击【执行】,执行采集数据代码,执行完成后,选中项目,鼠标右键,通过【查看结果】,进行结果确认。采集过程二步骤4知识准备

点击【导出数据】,可将储存数据的数据表导出,点击【导出】按钮下载数据。采集过程二步骤5课堂研讨在熟悉平台操作的过程中遇到了哪些困难?又是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论