《大数据基础与实务》课件 09.项目三 任务一 数据采集_第1页
《大数据基础与实务》课件 09.项目三 任务一 数据采集_第2页
《大数据基础与实务》课件 09.项目三 任务一 数据采集_第3页
《大数据基础与实务》课件 09.项目三 任务一 数据采集_第4页
《大数据基础与实务》课件 09.项目三 任务一 数据采集_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据基础与实务项目三大数据采集与清洗数据采集任务一任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR任务描述大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5%~1%。大数据在核心领域的渗透速度有目共睹,然而调查显示,未被使用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。勤奋好学的小明找到老师并提问:什么是数据采集呢?知识准备

数据采集就是使用某种技术或手段,将数据收集起来并存储在某种设备上。数据采集处于大数据生命周期中的第一个环节,之后的分析挖掘都建立在数据采集的基础上。数据采集技术广泛应用在各个领域,比如摄像头和麦克风,都是数据采集工具。定义数据采集的概念一知识准备数据采集的三大要点二全面性01多维性02高效性03知识准备数据采集的数据源三1线上行为数据2内容数据页面数据、交互数据、表单数据、会话数据等应用日志、电子文档、机器数据、语音数据、社交媒体数据等新数据源的归纳与分类知识准备数据采集的数据源三商业数据互联网数据传感器数据商业数据主要来源于公司业务平台的日志文件以及业务处理系统互联网数据的采集通常是借助于网络爬虫来完成的。所谓“网络爬虫”,就是一个在网上到处或定向抓取网页数据的程序。传感器是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。课堂研讨在一些专业二手平台上,网售大数据采集和定制业务颇为盛行。有些从事信息贩卖的“商家”,正大肆兜售着覆盖诸多行业的用户信息,内容颇为庞杂,可谓五花八门,无所不包。有的还以行业明码标价,成行成市。这些人打着“专业定制”的旗号,无论需要哪类信息,只要客户提出要求,其都能从网上为你采集到。这些数据商的背后隐藏着一条非法获取用户数据的产业链。他们通过专业的“爬虫软件”,侵入搜索引擎、企业网页、公众号及微信朋友圈等,采集各类个人信息及实时数据,经过汇总、整理然后生成所谓大数据产品出售。思考:如果任由

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论