5.3数据的分析与可视化表达课件粤教版高中信息技术必修1_第1页
5.3数据的分析与可视化表达课件粤教版高中信息技术必修1_第2页
5.3数据的分析与可视化表达课件粤教版高中信息技术必修1_第3页
5.3数据的分析与可视化表达课件粤教版高中信息技术必修1_第4页
5.3数据的分析与可视化表达课件粤教版高中信息技术必修1_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据的分析与可视化表达2目录CONTENT0102数据的分析数据的可视化表达3目录CONTENT0102数据的分析数据的可视化表达特征探索关联分析聚类分析数据分类数据的分析401运用数字化工具和技术,探索数据内在的结构和规律数据进行预测做出决策采集存储保护分析可视化表达5数据的分析01特征探索关联分析

数据分类01030204预处理分布特征描述性统计量分析并发现存在于大量数据之间的关联性或相关性从样本数据出发,自动进行分类K-平均算法基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。聚类分析

6数据的分析01特征探索预处理分布特征描述性统计量检查数据是否缺失,是否有异常7数据的分析01特征探索关联分析

数据分类01030204预处理分布特征描述性统计量分析并发现存在于大量数据之间的关联性或相关性从样本数据出发,自动进行分类K-平均算法基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。聚类分析

8数据的分析01关联分析

分析并发现存在于大量数据之间的关联性或相关性全国零售业巨头沃尔玛再对消费者购物行为分析时,发现:男性顾客在购买尿布时,常常会顺便搭几瓶啤酒来犒劳自己。9数据的分析01订单编号商品1商品2商品3商品4商品5商品61啤酒苹果奶酪2奶酪薯片3薯片面包苹果牛奶4薯片面包牛奶香蕉5面包6奶酪苹果牛奶薯片7牛奶奶酪香蕉面包啤酒8薯片奶酪香蕉啤酒牛奶9面包薯片奶酪苹果香蕉10薯片面包香蕉牛奶啤酒苹果10数据的分析01支持度:某商品(或组合)在所有订单中出现的频率。订单编号商品1商品2商品3商品4商品5商品61啤酒苹果奶酪2奶酪薯片3薯片面包苹果牛奶4薯片面包牛奶香蕉5面包6奶酪苹果牛奶薯片7牛奶奶酪香蕉面包啤酒8薯片奶酪香蕉啤酒牛奶9面包薯片奶酪苹果香蕉10薯片面包香蕉牛奶啤酒苹果支持度(面包

牛奶)=(面包+牛奶)/记录总数=4/10置信度:在所有包含A的订单中出现B商品的概率。置信度(面包

牛奶)=(面包+牛奶)/面包=4/6提升度:销售A商品对B商品带来的提升率。提升度(面包

牛奶)=(面包+牛奶)/有牛奶无面包=4/10频繁项集:支持度大于或等于某个阈值的项集。项集:包含一个或多个商品的组合。写作:AB11数据的分析01支持度:某商品(或组合)在所有订单中出现的频率。支持度(面包

牛奶)=(面包+牛奶)/记录总数=4/10置信度:在所有包含A的订单中出现B商品的概率。置信度(面包

牛奶)=(面包+牛奶)/面包=4/6提升度:销售A商品对B商品带来的提升率。提升度(面包

牛奶)=(面包+牛奶)/有牛奶无面包=4/10频繁项集:支持度大于或等于某个阈值的项集。项集:包含一个或多个商品的组合。写作:AB找出频繁项集(即一个商品组合):按照“支持度≥最小支持度”的标准筛选出频繁项集。找出强关联原则:在所有的销售记录中,找出所有的强关联原则。12数据的分析01特征探索关联分析

数据分类01030204预处理分布特征描述性统计量分析并发现存在于大量数据之间的关联性或相关性从样本数据出发,自动进行分类K-平均算法基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。聚类分析

13数据的分析01聚类分析

从样本数据出发,自动进行分类K-平均算法13245614数据的分析01聚类分析

从样本数据出发,自动进行分类K-平均算法13245615数据的分析01聚类分析

从样本数据出发,自动进行分类K-平均算法13245616数据的分析01K-平均算法步骤

随机选取K个点作为质心;计算每个点到K个质心的距离,分成K个簇;计算K个簇样本的平均值作为新的质心;循环

;位置不变或者达到迭代次数,聚类完成。13245617数据的分析01特征探索关联分析

数据分类01030204预处理分布特征描述性统计量分析并发现存在于大量数据之间的关联性或相关性从样本数据出发,自动进行分类K-平均算法基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。聚类分析

18数据的分析01数据分类基于样本数据先训练构建分类函数或者分类模型(分类器),再根据分类器具进行预测。待分类数据分类器某一类别样本数据训练19数据的分析01贝叶斯分类垃圾邮件7封5封邮件包含“发票”4封邮件包含“便宜”正常邮件3封1封邮件包含“发票”1封邮件包含“便宜”P(正常|发票)=P(发票|正常)P(正常)P(发票)=

1/3×3/106/10=1/6P(垃圾|发票)=P(发票|垃圾)P(垃圾)P(发票)=

5/7×7/106/10=5/6“发票”20数据的分析01贝叶斯分类垃圾邮件7封5封邮件包含“发票”4封邮件包含“便宜”正常邮件3封1封邮件包含“发票”1封邮件包含“便宜”P(正常|发票)=P(发票|正常)P(正常)P(发票)=

1/3×3/106/10=1/6P(垃圾|发票)=P(发票|垃圾)P(垃圾)P(发票)=

5/7×7/106/10=5/6垃圾邮件数据的可视化表达2102视觉冲击力数据的可视化表达2202以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势和规律等,以便更好地理解数据。数据的可视化表达2302分组柱形图堆叠柱形图折线图柱线混合图有关趋势的分析数据的可视化表达2402

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论