第五章 数据处理与可视化表达 复习课件 2021-2022学年粤教版(2019)高中信息技术必修一_第1页
第五章 数据处理与可视化表达 复习课件 2021-2022学年粤教版(2019)高中信息技术必修一_第2页
第五章 数据处理与可视化表达 复习课件 2021-2022学年粤教版(2019)高中信息技术必修一_第3页
第五章 数据处理与可视化表达 复习课件 2021-2022学年粤教版(2019)高中信息技术必修一_第4页
第五章 数据处理与可视化表达 复习课件 2021-2022学年粤教版(2019)高中信息技术必修一_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5.数据处理和可视化表达粤教版信息技术必修一《数据与计算》【知识体系】数据处理与可视化表达认识大数据概念特征大量、多样、低值密度、高速样本渐趋于总体,精确让位于模糊,相关性重于因果分布式存储,分布式并行计算影响:双面性数据的采集采集方法系统日志采集法、网络数据采集法:网络爬虫存储方法本地存储,云存储保护措施数据安全保护技术、数据的隐私保护方法数据的分析特征探索数据预处理:发现并处理缺失值、异常数据...关联分析分析相关性,事物同时出现的规律和模式聚类分析K-means算法,物以类聚、人以群分数据分类分类器、贝叶斯分类技术数据的可视化表达1.趋势分析:柱形图、折线图2.比例分析:圆环图、饼图、圈图3.逻辑关系:散点图、词云图4.空间关系:数据地图、动态热力图Seaborn:关注统计模型的可视化,高度依赖MatplotlibBokeh:实现交互式可视化,可通过浏览器呈现【知识梳理】一、认识大数据(一)大数据的概念大数据:无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(二)大数据的特征1.从互联网产生大数据的角度来看(具有“4V”特征):2.从互联网思维的角度来看:3.从大数据存储与计算的角度来看:大量(Volume)多样(Variety)低价值密度(Value)高速(Velocity)样本渐趋于总体精确让位于模糊相关性重于因果分布式存储分布式并行计算。【知识梳理】一、认识大数据(二)大数据的影响1.大数据使人们日常生活更为便捷:2.大数据对人们日常生活产生的负面影响:方便支付方便出行方便购物与产品推荐方便看病与诊病。个人信息泄露信息伤害与诈骗【知识梳理】二、数据的采集(一)数据采集的方法与工具1.系统日志采集法:2.网络数据采集法:Python网络数据采集程序使用扩展库时导入模块的方法:3.其他数据采集法。监视系统中发生的事情检查错误发生的原因寻找攻击时攻击者留下的痕迹网络爬虫:从初始网页的URL(统一资源定位器)获取对应的数据网络公开APIimportmodulefrommoduleimportname【知识梳理】二、数据的采集(二)数据的存储1.本地存储:把数据存在本地内部。(硬盘、磁带、服务器…)2.云存储:把数据放在第三方公共或者私有的“云端”存储。(百度网盘、腾讯微盘)(三)数据的保护1.数据安全保护技术:拷贝、备份、复制、镜像、持续备份,加密…2.数据的隐私保护(1)技术手段:(2)提高自身意识(3)进行道德和法律约束数据收集时:精度处理数据共享时:访问控制数据发布时:人工干扰数据分析时:匿名处理【知识梳理】三、数据的分析常见数据分析方法:特征探索,关联分析,聚类与分类,建立模型,模型评价(一)特征探索:对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。(二)关联分析:分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。(三)聚类分析:一种探索性分析,不必事先给出分类标准,从样本数据出发,自动进行分类,进而达到“物以类聚,人以群分”的效果。(四)数据分类:基于样本数据先训练构建分类函数或分类模型(分类器)分类器将待分类数据映射到某一特点类别。常见应用案例:超市某些商品捆绑促销,新高考选修学科的选择。常见的算法:k-means算法,自下而上的聚类分析方法常见的分类技术:贝叶斯分类技术【知识梳理】四、数据的可视化表达(一)数据可视化表达的方法1.数据可视化的呈现类型(1)探索类:帮助人们发现数据背后的价值(2)解释类:简单明了地呈现数据(二)数据可视化表达的工具1.Seaborn:2.Bokeh:2.数据分析类型及对应的可视化呈现主要关注统计模型的可视化基于且高度依赖于Matplotlib能实现交互式可视化独立于Matplotlib能通过浏览器呈现文档的风格【典型例题】1.从互联网产生的大数据角度看,其最显著特征是()A.数据价值密度低 B.数据类型繁多C.数据规模大 D.数据处理速度快2某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )A.聚类分析 B.分类分析 C.关联分析 D.回归分析CC【典型例题】3.小智通过网络问卷收集同学们课外阅读时间的百分比分布情况,下列可以用于分析调查数据的是()A.饼图 B.折线图 C.动态热力图 D.词云图4.下列关于大数据的特征,说法正确的是()。A.数据价值密度高 B.数据类型少C.数据基本无变化 D.数据体量巨大5.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的()开始获取。A.URL B.WWWC.HTMLD.XMLADA【典型例题】6.利用Python采集网络数据时,导入扩展库的关键字是import。( )7.从互联网产生大数据的角度来看,大数据具有的特征是“4V”特征:大量、多样、高价值密度、低速。()8.网络数据采集法主要通过网络爬虫或网站公开API的方式获取网络爬虫,从网页的URL开始获取。()9.数据采集的基本方法包括系统日志采集、网络数据采集等方法。()ABAA【典型例题】10.数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征。()11.K-平均算法属于聚类分析方法。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论