高考信息技术复习专题梳理 【核心知识 精讲精研】 表格数据的处理及大数据处理_第1页
高考信息技术复习专题梳理 【核心知识 精讲精研】 表格数据的处理及大数据处理_第2页
高考信息技术复习专题梳理 【核心知识 精讲精研】 表格数据的处理及大数据处理_第3页
高考信息技术复习专题梳理 【核心知识 精讲精研】 表格数据的处理及大数据处理_第4页
高考信息技术复习专题梳理 【核心知识 精讲精研】 表格数据的处理及大数据处理_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题9表格数据的处理及大数据处理知识要点1常用表格数据的处理1.数据整理

(1)目的:检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据质量。(2)常见数据问题:数据缺失,数据重复,数据异常,逻辑错误,格式不一致等。2.数据计算公式:用户自定义的数学表达式函数:电子表格软件提供的完成特定计算的命令

格式:(1)必须以“=”开头(2)连续区域用冒号,不连续用逗号如“=average(A1:A5,A10:A15)”知识要点1常用表格数据的处理2.数据计算绝对引用和相对引用=D3+E3+F3+H3=SUM(D3:F3,H3)=B3/B$8*100知识要点1常用表格数据的处理3.数据可视化(1)数据可视化的作用

1.快捷观察与追踪数据2.实时分析数据3.增强数据的解释力与吸引力

(2)可视化的基本方法(3)可视化工具Excel魔镜中国领先的大数据云分析平台Tableau[tæˈbloʊ]商业智能分析软件d3.jsHighchartsGoogleCharts基于python的matplotlib1.下列关于数据整理的说法,正确的是(

)A.数据集中的缺失值一般用任意值填充B.数据集中的异常数据须直接删除或忽略C.数据集中的重复数据可进行合并或删除D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据C解析选项A,缺失数据可以忽略或采用平均值、中间值或概率统计值进行填充,不能用任意值填充,选项错误;选项B,异常数据可能是要去掉的噪声数据或含有重要信息的数据,需根据具体情况进行分析判断,选项错误;选项D,格式不一致的数据需要根据后续分析和挖掘的需要进行数据转换。2.使用Excel软件处理某地部分市场菜篮子价格数据,如图所示。计算表中“平均值”列数据:选择I3单元格输入公式,然后用自动填充功能完成其他单元格的计算。则I3单元格中可使用的公式为(

)A.=SUM(C3,H3)/6B.=(3.5+3+3+3+3+3)/6C.(C3+D3+E3+F3+G3+H3)/6D.=AVERAGE(C3:H3)D知识要点2大数据处理1.大数据处理的分治思想分治就是把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。分——将问题分解为规模更小的子问题治——将规模更小的子问题逐个击破合——将已解决的子问题合并,最终得出原问题的解知识要点2大数据处理2.大数据处理类型①静态数据:在处理时已收集完成、在计算时不会发生改变的数据,一般采用批处理方式。②流数据:不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析结果。③图数据:现实世界中的许多数据,如社交网络、道路交通等数据,可采用图计算进行处理。知识要点2大数据处理3.批处理计算(Hadoop、Spark)Hadoop是一个运行于计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Spark是一种与hadoop相似的,应用较广的开源分布式计算架构。Spark启用了内存存储中间结果,运行速度比hadoop快。知识要点2大数据处理HDFS将大规模数据以文件形式、用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS容错性高,适合部署在廉价的机器上。比如:云盘、网盘的底层一般采用HDFS实现HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储非结构化数据和半结构化数据。MapReduce能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳)两个函数构成。其核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。知识要点2大数据处理知识要点2大数据处理4.流计算(Storm、Heron、Streams)

流计算系统可以简单、高效、可靠地实现实时数据的获取、传输和存储。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。5.图计算(Neo4j、GooglePregel)

现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。6.实时处理与批处理的整合(Hadoop+Storm)平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。3.在国家级计算机考试时,由于报名人数较多,在各地市报名并把数据汇总在一起,该算法主要体现的思想是(

)A.顺序查找法 B.枚举法C.分治算法 D.解析法解析把大的问题,分为若干个小的问题,再转换为整的问题进行分析,体现了大数据的分治思想。C4.(2022·浙江名校协作体)下列说法正确的是(

)A.HDFS是一个容错性较低的系统,适合部署在廉价的机器上B.MapReduce是一种聚合式的并行编程模型C.Twitter架构实现了批处理系统与流计算在一个平台架构下的整合D.标签云是通过给特征词赋予权重进行统计分析解析选项A,HDFS是一个高度容错性的系统,选项错误;选项B,MapReduce是一种分布式的并行编程模型,选项错误;选项D,标签云是文本可视化,选项错误。C5.下列关于Hadoop平台的说法正确的是(

)A.该平台只能处理结构化数据B.该平台可以节省大型和复杂问题的处理时间C.处理信息必须通过可视化体现处理的结论D.该平台中每台计算机都在处理相同的数据解析选项A,Hadoop平台可以处理非结构化数据、半结构化数据和结构化数据;选项C,该平台可以以可视化形式输出,也可以文本输出;选项D,该平台采用分布式文件格式,不同计算机处理不同的数据。B6.下列应用中涉及静态数据处理的是(

)A.统计上个月的交易量排行榜B.导航系统实时更新数据C.统计在线直播的点赞率D.不断更新的电力数据解析

静态数据为已经收集完毕并不会发生变化的数据。选项BCD都处于正在收集状态。A7.(2022·金衢六校高二)下列有关大数据的说法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论