第4章数据处理与应用知识点梳理高考信息技术二轮复习知识点梳理_第1页
第4章数据处理与应用知识点梳理高考信息技术二轮复习知识点梳理_第2页
第4章数据处理与应用知识点梳理高考信息技术二轮复习知识点梳理_第3页
第4章数据处理与应用知识点梳理高考信息技术二轮复习知识点梳理_第4页
第4章数据处理与应用知识点梳理高考信息技术二轮复习知识点梳理_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据处理与应用数据处理的核心是数据,数据的质量直接影响数据分析的结果。在数据分析和数据挖掘前,通常先对数据进行整理。数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。数据缺失问题是数据集中普遍存在的问题,通常采用平均值、中间值或概率统计值来填充缺失值数据重复问题在多数据源进行合并集成时经常出现,通常在进一步审核的基础上进行合并或删除等处理异常数据指数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象。逻辑错误问题指数据集中的属性值与实际值不符,一般通过检测字段中各属性有效数据值的范围可以判断该值错误。数据计算是数据处理的常用方法之一日常简单的数据处理可以使用Excel软件完成,专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。在Excel软件中,可以应用公式进行数据的计算。公式是以“=”开头,由常数、函数、单元格引用和运算符组成的式子。单元格引用是指对工作表中的单元格或单元格区域的引用。默认情况下,单元格引用是相对的,如Al;单元格绝对引用,如$A$1;连续的单元格区域引用,如A2:D5;不连续的单元格区域引用,如A2:A5,D2:D5。算术运算符有^、%、*、/、十、-,用于进行基本的数学运算。比较运算符有=、>、<、>=、<=、<>,用于比较两个值,结果为逻辑值TRUE或FALSE。文本连接运算符"&",可以连接一个或多个文本字符串,生成一段文本。Excel内置函数函数名使用说明SUMSUM(A1:A10)求和AVERAGEAVERAGE(A1:A10)求平均值MAXMAX(A1:A10)求最大值MINMIN(A1:A10)求最小值COUNTCOUNT(A1:A10)求数量RANKRANK(A1:A10,A1)求排名表1.1相对引用与绝对引用:Excel中对单元格的引用可以是相对的,也可以是绝对的,相对的例如A1:A10,绝对引用一般用$符号标识,例如$A1就是锁定列,在填充的时候A不会随着,单元格位置的变换的变换而变换,同理A$1就是锁定行,$A$1就是锁定行列。图表是用视觉形式向人们展示数据的一种方法。常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图大数据具有数据量大、数据来源与类型多样、处理速度快等特点处理大数据时,一般采用分治思想处理大数据的基本方法有批处理计算、流计算、图计算三种分布式计算(DistributedComputing)是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果并行处理(ParallelProcessing)是计算机系统中能同时执行两个或更多处理的一种计算方法大数据处理按照类型可划分为对静态数据的批处理、对流数据的实时计算和对图结构数据的图计算【如下图】Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块Windows的文件系统采用FAT32或NTFS,Linux的文件系统为Ext2/Ext3/Ext4、云盘、网盘的底层一般采用HDFS实现HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库MapReduce是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳)2个函数构成使用计算机语言编程,可以更加灵活、深入地进行数据分析和挖掘numpy模块是Python中做科学计算的基础库,主要提供科学计算中常用的随机数、数组运算等基础函数。scipy模块是基于numpy构建的一个模块,增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。pandas模块基于numpy实现,主要用于数据的处理和分析。它提供了大量处理数据的函数和方法,能方便地操作大型数据集。pandas提供了Series和DataFrame两种数据结构。使用这两种数据结构,可完成数据的整理、计算、统计、分析及简单可视化。在Python中引入pandas模块的方法:importpandasaspdSeries是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数。列表、字典等可以用来创建Series数据结构,与列表不同的是,Series的索引可以指定,类型可以为字符串型。Series样例使用如下图通过索引可以选取Series对象中的值,通过赋值语句可以修改Series对象中的值。如:s1[0]=168、s2["s01"]=168,可将sl、s2对象中的“166"改为“168”。DataFrame是一种二维的数据结构由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。创建DataFrame对象的方法很多,通常用一个相等长度的列表或字典来创建。如下图Pandas也可以读取Excel,代码如下图DataFrame常见函数表【本表详见附表1】matplotlib是一个绘图库,使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。常用绘图函数如下表样例代码:绘制正弦函数图左1代码图,左2结果图文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前,文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。文本处理的一般步骤:文本内容是非结构化的数据,要从大量的文本中提取出有用的信息,需要将文本从无结构的原始状态转化为结构化的、便于计算机处理的数据。典型的文本处理过程主要包括:分词、特征提取、数据分析、结果呈现中文分词是中文文本信息处理的基础,机器翻译、全文检索等涉及中文的相关应用中都离不开中文分词。分词是将连续的字序列按照一定的规范重新组合成词序列的过程分词的三种方法基于词典的分词方法、基于统计的分词方法、基于规则的分词方法标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断数据可视化的作用:快捷观察与追踪数据、实时分析数据、增强数据的解释力与吸引力数据可视化的基本方法:有关时间趋势的可视化、有关比例的可视化、有关关系的可视化、有关差异的可视化、有关空间关系的可视化数据可视化的工具:用于数据可视化的工具有大数据魔

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论