版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
粤教版2019高中信息技术必修1第五章数据处理和可视化表达知识清单第一部分:考试内容分析1、大数据的定义和特征。2、大数据对日常生活的影响。3、数据采集的方法。4、数据的存储和保护方法。5、数据的分析和可视化表达的方法。6、数据可视化表达的工具。7、能够利用软件工具或平台对数据进行整理、组织和计算与呈现,并能通过技术方法对数据进行保护。第二部分:知识点梳理(一)认识大数据1.大数据的概念:2.大数据的特征:(1)从互联网产生大数据的角度来看(“4V”特征):(2)从互联网思维的角度来看:(3)从大数据存储与计算的角度来看:3.传统数据与大数据的区别:传统数据大数据数据量小数据体量巨大数据类型少数据类型繁多价值密度高价值密度低更新速度慢更新速度快追求数据精准性追求数据模糊性本地存储分布式存储4、大数据带来的影响:(1)积极影响:(2)负面影响:(二)数据的采集1、数据采集的三种基本方法:(1)系统日志采集法➱监视系统中发生的事件➱检查错误发生的原因➱寻找受到攻击时攻击者留下的痕迹(2)网络数据采集法通过网络爬虫或者网站公开API等方式从网站上获取数据信息。从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。(3)其他数据采集法2、Python网络数据采集第三方库:(1)numpy(2)scipy(3)pandas(4)matplotlib3、python导入第三方库的方式:(1)importmodele关键字模块名frommoduleimportname关键字模块名关键字方法名4、数据的存储方式:(1)把数据存在本地内部(2)把数据放在第三方公共或私有的“云端”存储5、数据的保护:(1)数据安全保护技术:①数据安全保护:数据不被破坏、更改、泄露或丢失。②方式1:安装杀毒软件和防火墙。此种方法只能防备数据安全隐患。③方式2:拷贝、备份、复制、镜像、持续备份等技术。此种方法更彻底更有效。数据的隐私保护:隐私泄露的问题不是大数据时代特有的,在没有大数据的时候,我们就已经有很多隐私泄露的问题。➱方法1:技术手段①数据收集时进行数据精度处理②数据共享时进行访问控制③数据发布时进行人工加扰④数据分析时进行数据匿名处理➱方法2:提高自身的保护意识➱方法3:对数据使用者进行道德和法律上的约束(三)数据的分析1、数据分析的定义:是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。2、数据分析的步骤:(1)特征探索①数据特征探索的主要任务:对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分部特征,求最大值、最小值、极差等描述性统计量。(2)关联分析①关联分析的概念:分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。②常见案例:超市某些商品捆绑促销,新高考选修学科的选择。(3)聚类与分类①聚类与分类的概念:一种探索性分析,不必事先给出分类标准,从样本数据出发,自动进行分类,进而达到“物以类聚,人以群分”的效果。②常见的算法:K-Means算法,自下而上的聚类分析方法。(4)建立模型(5)模型评价3、数据分类:(1)数据分类的概念:是数据分析处理中最基本的方法,基于样本数据先训练构建分类函数或者分类模型,该分类器具有将待分类数据项映射到某一特点类别的功能。(2)常见的数据分类技术:贝叶斯分类技术(四)数据的可视化表达1、数据可视化的定义:以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。2、数据可视化的呈现类型:(1)探索类:帮助人们发现数据背后的价值(2)解释类:简单明了地呈现数据3、数据分析类型及其对应的可视化呈现:(1)有关趋势的分析:分组柱形图、堆叠柱形图、折线图、柱线混合图(2)有关比例的分析:百分比圆环图、饼图、圈图、堆叠面积图(3)有关逻辑关系的分析:散点图、雷达图、网络关系图、词云(4)有关空间关系的分析:数据地图、动态热力图、3D动态显示图4、数据可视化表达的工具:(1)Seaborn:主要关注统计模型的可视化,基于且高度依赖于Matplotib(2)Bokeh:能实现交互式可视化,独立于Matplotib,能通过浏览器与数据驱动文档的风格呈现。第三部分:练习题一、选择题1.下列对于知识的描述正确的是(
)。A.知识不可继承 B.知识是对经验的总结C.知识只能从书本上获取 D.知识就是智慧1.从互联网产生大数据的角度来看,大数据具有的特征是()。A.“4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)B.样本渐趋于总体,精确让位于模糊,相关性重于因果C.分布式存储,分布式并行计算D.没有特征2.下列可以用于分析数据趋势的是()。A.饼图B.折线图C.动态热力图D.词云图3.数据分析的方法不包括()。A.线性分析B.关联分析C.聚类分析D.数据分类4.下列关于大数据的特征,说法正确的是()。A.数据价值密度高B.数据类型少C.数据基本无变化D.数据体量巨大5.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是()。A.数据清洗B.异常数据处理C.数据缺失处理D.数据分类处理6.海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风和洋流可能发生的地点。这体现了大数据分析理念中的()。A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据7.大数据时代已经在悄悄地改变我们地日常生活,也使人们日常生活更为便捷,如移动支付、网络约车出行、网络购物、网络预约挂号等。以下不属于大数据分析的是()。A.特征探索B.关联分析C.聚类与分类D.建模分析8.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于()。A.数据分析B.数据采集C.数据分类D.数据可视化表达9.某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这猴子那个属于数据的()。A.聚类分析B.关联分析C.分类分析D.回归分析10.数据采集的基本方法包括()、网络数据采集法和其他数据采集法。A.数据库采集法B.访问记录采集法C.数据目录采集法D.系统日志采集法11.下列关于聚类分析的说法,错误的是()。A.可以从数据点集合中随机选择K个点作为初始的聚集中心B.对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类C.聚类分析,必须先设定分类的标准,否则无法准确分类D.重新计算新的聚簇集合的平均值即中心点12.k-平均算法属于()分析方法。A.聚类B.关联C.分类D.回归13.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的()开始获取。A.HTMLB.WWWC.URLD.XML14.大数据时代,数据应用的关键是()。A.数据收集B.数据存储C.数据分析D.数据再利用15.为了弘扬和传承中华民族勤俭节约的传统美德,引导同学们进一步深化节约粮食的意识和行为习惯,学生会开展了“我为食堂提建议”的活动。请根据学生会开展该活动的几个步骤,排出最合理的顺序()。①根据数据分析结果,撰写数据分析报告,对食堂提出合理化建议。②学生会成员去学校食堂收集数据,并制作调查问卷的题目。③利用图表形式直观展示分析数据。④对问卷进行回收整理,将无效的问卷进行剔除。⑤学生会成员对就餐学生进行问卷调查。⑥对调查数据和食堂数据进行分析与处理。A.②⑤④⑥③①B.②④⑤③⑥①C.⑤②④⑥③①D.⑤④②③⑥①16.下列应用中,最不可能用到大数据技术的是(
)A.某工厂对生产线上的数据监测,提前发现设备故障,提高产品质量B.某电商平台,通过对用户浏览数据的收集和分析,实现商品精准推荐C.某学校通过对学生某一学年成绩进行分析,发现本校学生的优势学科D.某农业大省利用土壤、气候、作物生长等数据,实现全省精准种植、灌溉和施肥17.以下关于大数据的说法正确的是(
)A.大数据分析是抽样数据而非全部数据B.通过搜索引擎获取的数据就是大数据C.短视频平台中的所有用户浏览、点赞、评论等行为所产生的海量数据是大数据的具体体现D.对大数据进行分析时要求每个数据准确无误18.以下关于数据采集的说法,正确的是(
)A.数据采集可以提升决策的科学性,无需考虑其弊端B.数据采集可能会造成信息泄露,要依法合规进行C.数据采集主要是弊大于利,应尽量避免D.数据采集对个人来说影响不大,我们只要使用现成数据即可19.智能交通中,用于采集交通视频、车牌图片数据的设备是(
)A.摄像机 B.地感线圈检测器C.红外线检测器 D.雷达检测器20.在数据分析中,以下哪项不是数据预处理的常见任务?(
)A.数据清洗 B.数据转换 C.数据增强 D.数据集成21.在数据分析中,以下哪项不是常用的数据分析方法?(
)A.对比分析 B.平均分析 C.回归分析 D.数据复制22.数据可视化的主要目的是(
)A.增加数据量 B.降低数据复杂性C.增强数据安全性 D.提高数据可读性23.下列可用于分析数据趋势的是(
)A.折线图 B.词云图 C.饼图 D.动态热力图24.下列关于数据可视化的描述,错误的是(
)A.标签云是文本可视化的一种方式B.数据可视化是将数据以图形图像等形式表示C.数据可视化可以间接地呈现数据中蕴含的信息D.数据可视化增强了数据的解释力与吸引力25.以下说法正确的是(
)A.plot()函数一次只能绘制一种风格的图形B.bar()函数可以绘制水平柱形图C.为了显示图形,须调用plt.show()函数D.pyplot模块的text()函数和title()函数,都可以设置绘图区的标题二、判断题1.数据可视化表达的工具无法处理动态变化的数据。2.词云图实现了非结构化的数得文本的挖据。3.大数据的特征包括数据量大、处理速度快、数据类型单一和价值密度高。4.数据分析的目的是发现数据之间的关联和趋势。5.数据分析可以帮助我们了解事物的现状、剖析事物的发展历程和预测事物的未来走向。练习题参考答案:一、选择题1.A【详解】教材第102页,从互联网产生大数据的角度来看,大数据具有4V特征(数据体量巨大、类型繁多、价值密度低、变化速度快)。2.B【详解】教材第119页,有关趋势的分析的图包括:分组柱形图、堆叠柱形图、折线图、折线图、柱线混合图;饼图是有关比例分析的;动态热力图和词云图是有关关系分析的。3.A【详解】教材第111页,数据分析一般包括:特征探索、关联分析、聚类于分类、建立模型和模型评价。4.D【详解】教材第102页,从互联网产生大数据的角度来看,大数据具有4V特征(数据体量巨大、类型繁多、价值密度低、变化速度快)。5.D【详解】教材第112页,数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求描述性统计量。6.B【详解】题目中的关键词:海军军官通过分析前人的航海日志,绘制了新的航海路线图,标明了大风和洋流可能发生的地点。A选项中,题目中虽然提到了“分析前人的航海日志”,但这并不直接体现对全体数据的偏好,因为航海日志可能只是部分数据,且大数据分析并不总是要求全体数据,而是强调数据的全面性和代表性。B选项中,海军军官通过分析航海日志(即数据),绘制了新的航海路线图,并标明了可能的大风和洋流地点。这种分析更侧重于找出大风和洋流与地理位置之间的相关性,而非深入探究其因果关系。这完全符合大数据分析中注重相关分析的理念。C选项中,题目中并未直接提及分析效率与精确性的权衡,且大数据分析虽然强调效率,但并不意味着牺牲精确性。D选项中,大数据分析确实强调数据的规模,但这里的“相对数据”与“绝对数据”的区分并非大数据分析的核心理念。大数据分析更关注的是数据的全面性和多样性,而非数据的相对性或绝对性。7.D【详解】教材第111页,数据分析包括:特征探索、关联分析、聚类分析、数据分类。8.B【详解】电子警察的主要功能是通过拍照来记录车辆的行为,以便在需要时进行核查或作为违规的证据。A选项中,电子警察的拍照过程本身并不涉及对数据的解读或推理,它仅仅是数据的收集阶段。B选项中,
电子警察通过拍照的方式记录下车辆的行为,这正是数据采集的一个典型例子。拍照所得到的图像是后续可能进行数据分析的原始资料。C选项中,电子警察的拍照过程并不涉及对数据的分类,它仅仅是记录下了车辆行为的原始图像。D选项中,
电子警察的拍照过程并不是为了将数据可视化,而是为了收集数据。9.B【详解】A选项中,聚类分析主要是将数据集中的样本划分为若干个通常不相交的子集(称为簇),使得同一簇内的样本之间相似度较高,而不同簇的样本之间相似度较低。它主要用于探索数据的自然分组或结构,并不涉及特定事件或商品之间的关联。B选项中,关联分析用于发现数据集中不同项之间的有趣关系。在这个场景中,超市发现买商品A的人购买商品B的概率很大,这正是关联分析的一个典型应用。它揭示了商品A和商品B之间的购买关联性,对于超市的促销和商品布局策略有重要意义。C选项中,
分类分析是一种有监督的学习技术,用于根据已知类别的训练数据来预测新数据的类别。D选项中,回归分析是研究一个或多个自变量与一个因变量之间关系的统计方法。它主要用于预测和解释因变量的变化,与问题描述中的商品购买关联性无直接关联。10.D【详解】教材第104页,数据采集的基本方法包括:系统日志采集法、网络数据采集法和其他数据采集法。11.C【详解】教材第115页,聚类分析,不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。12.A【详解】教材第115页,k-平均算法是一种经典的自下而上的聚类分析方法。13.C【详解】教材第104页,网络爬虫是从一个或若干个初始网页的URL开始。14.D【详解】虽然数据收集、存储和分析都是大数据处理流程中不可或缺的环节,但数据再利用才是大数据时代数据应用的关键。它使得数据不仅仅是静止的资产,而是成为推动业务增长和创新的重要动力。15.A【详解】16.C【详解】大数据已经在能源行业、旅游行业、农业行业、制造业行业、互联网行业、零售行业、物流行业、金融行业、医疗行业等,C选项中某校学生成绩体量不够巨大,不属于大数据。17.C【详解】大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据的4V特征是指:Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Value(价值密度低)。大数据分析与以往的数据分析是不同的,它分析的是全部数据。大数据必须满足“4V”特征,因其低密度价值的特点,所以大数据中的每个数据不一定完全准确。18.B【详解】数据采集能为各领域的发展提供基础,能够提升效率和优化决策,改善服务和用户体提升用户满意度,促进资源合理配置,但是所有的数据采集都必须严格遵守法律法规,保护个人隐私和敏感信息不被非法滥用。重视数据的安全性,防止数据泄露、被篡改或被恶意利用。19.A【详解】摄像机能够采集交通视频和车牌图片等数据。地感线圈检测器主要用于检测车辆通过或存在的情况。红外线检测器通过红外线的反射或遮挡来检测车辆。雷达检测器利用雷达波来检测车辆的速度、距离等信息。20.C【详解】数据预处理是数据分析的重要步骤,旨在提高数据质量和可用性。数据清洗用于处理缺失值、异常值和重复数据等,以确保数据的准确性和完整性;数据转换包括对数据进行标准化、归一化、编码等操作,以便后续分析;数据集成则是将多个数据源的数据合并在一起。而数据增强通常用于机器学习中的数据扩充,以增加数据的多样性和数量,不是数据预处理的常见任务。21.D【详解】对比分析通过比较不同数据之间的差异来发现问题和趋势;平均分析用于计算数据的平均值等统计量,以了解数据的集中趋势;回归分析用于研究变量之间的关系,并进行预测和建模。而数据复制并非一种数据分析方法,它只是对数据的简单重复操作,不能从数据中获取有价值的信息和洞察。22.D【详解】数据可视化并非是为了增加数据量,增加数据量需要通过数据收集等手段实现。降低数据复杂性可以通过数据处理和分析的方法,但这不是数据可视化的主要目的。增强数据安全性需要依靠加密、访问控制等技术手段。而数据可视化的主要目的是提高数据可读性,将复杂的数据以直观、易懂的图形、图表等形式展现出来,帮助人们更快速、准确地理解和分析数据,从而获取有价值的信息和洞察。23.A【详解】折线图:折线图通过连接数据点形成线条,清晰地展示了数据随时间或其他连续变量的变化趋势。它非常适合用于显示数据随时间的变化情况,是分析数据趋势的首选图表类型。词云图:词云图通过文字的大小来表示词频的高低,主要用于文本数据的可视化,特别是用于展示文本数据中关键词的出现频率。它并不适合用于分析数据趋势,因为它主要关注的是词语的重要性而非趋势。饼图:饼图主要用于表示各部分在总体中所占的比例,通过扇形的大小来展示各个分类的占比情况。它并不适合用于展示数据的变化趋势,因为饼图缺乏时间或其他连续变量的维度。动态热力图:动态热力图主要用于展示数据在空间或时间上的分布和密度,通过颜色的深浅来表示数据的大小或强度。虽然它可以在一定程度上展
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 买技术合同范例
- 工程施工协议合同范例
- 开业合伙合同范例范例
- 2024年度委托中介房屋买卖合同续签合同3篇
- 2024年离异合同样本3篇
- 2024年灰土水利工程合同
- 《伴脑白质病变认知功能障碍的发生特点及其与代谢综合征的关系》
- 《我国信托公司风险控制研究》
- 《掺杂蓝藻炭的制备及其活化过硫酸盐降解废水中橙黄Ⅱ研究》
- 《人工冻结黏土爆破特性数值模拟研究》
- 钢管架搭设施工方案
- 2021血管压力治疗中国专家共识解读
- 职业安全健康知识培训
- 儿童康复家庭指导培训课件
- 大客户管理制度(管理经验)
- 学校领导迎新年诗歌朗诵稿
- 小学数学重量单位克、千克、吨换算练习100道及答案
- 青海开放大学招聘考试题库2024
- 2024年度医院病区发生火灾的应急预案
- 《人体解剖生理学》全套课件
- 《热胀冷缩》参考课件
评论
0/150
提交评论