版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章课时16文本数据处理、数据可视化信息技术课标梳理·微知著教材重点课标要求学业质量水平文本数据处理、数据可视化1.能从实际生活中发现大数据应用的价值,认识到有效数据处理对于提高数据价值的重要意义2.掌握文本处理方法、数据可视化1-1教材研析·固基础1利用matplotlib模块绘图1.概念:Matplotlib是一个绘图库,使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。2.matplotlib模块常用绘图函数函数说明figure()创建一个新的图表对象,并设置为当前绘图对象plot()绘制线形图bar()绘制垂直柱形图barh()绘制水平柱形图scatter()绘制散点图title()设置图表的标题xlim()、ylim()设置X、Y轴的取值范围xlabel()、ylabel()设置X、Y轴的标签legend()显示图例show()显示创建的所有绘图对象3.Python中引入matplotlib的pyplot子库的方法importmatplotlib.pyplotasplt典例1(2023浙江十校联盟)某校的图书管理员想了解下学生的图书阅读情况,将数据库中的数据表导出至“book.xlsx”文件中,读取数据后,界面如图a所示,统计学生图书阅读情况后,绘制图表如图b所示,部分程序代码如下,请在划线处填入合适的代码。图a图bimportpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=\['SimHei']
#用来显示中文标签df=pd.read_excel(″book.xlsx″)df1=①______________________________#删除“条形码”列
df1=df1.groupby(″读者姓名″,as_index=\False).书名.count()df1.rename(columns={″书名″:″借阅次\数″},inplace=True)df2=df1.sort_values(②______________________________).\head(10)
#按统计次数进行降序排序
x=③__________________________________y=df2[″借阅次数″]plt.figure(figsize=(20,10))plt.bar(x,y)plt.title(″阅读之星TOP10″)plt.show()df.drop(″条形码″,axis=1)″借阅次数″,ascending=Falsedf2[″读者姓名″](或df2.读者姓名)解析
①利用drop函数可删除DataFrame对象的行和列,当删除列时,drop函数第一个参数写列名,第二个参数axis的值应为1(其默认值是0,为删除行),故此处填df.drop(″条形码″,axis=1)。②上文已利用rename函数将列名″书名″修改为″借阅次数″,故此处排序依据应为″借阅次数″,降序时,ascending值应为False(ascending默认值是True,为升序),故此处应填″借阅次数″,ascending=False。③根据图b可知,横坐标的值为″读者姓名″,访问DataFrame对象的数据列有字典方式和属性方式两种,故此处可填df2[″读者姓名″]或df2.读者姓名。2利用Python分析数据实践1.步骤:分析数据
编制程序
查看结果2.读取外部文件的数据(1)打开与当前程序相同路径的文本文件(例如:a.txt),读取文件中的数据,文件的编码是UTF-8(如下图所示),打开的文件描述为对象f。(2)语法格式:f=open('a.txt','r',encoding='utf-8')。(3)'r'代表以只读方式打开当前文件对象,文件的指针将会放在文件的开头,这是默认模式。(4)encoding用于指定当前所读文件的编码方式。(5)file.read([size]):从文件读取指定的字节数(size),若未指定或为负则读取所有。(6)file.readline([size]):读取整行,包括
″\n″
字符。(7)file.readlines([sizeint]):读取所有行并返回列表,若给定sizeint>0,则是设置一次读多少字节,这是为了减轻读取压力。(8)file.close():关闭文件。关闭后文件不能再进行读写操作。3.strip()方法(1)作用:用于移除字符串头尾指定的字符(默认为空格)或字符序列。注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。(2)范例:去除字符串a头尾的
号4.split()方法(1)格式:字符串.split('str',num)(2)作用:通过指定分隔符对字符串进行切片,如果参数
num
有指定值,则分隔num+1个子字符串(3)参数
str
分隔符,默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等。
num
分割次数。默认为-1,即分隔所有。(4)范例:将字符串a用空格作为分隔符切片。
a.split('')
#第2参数num省略,分隔所有
a.split('',1)
#第2参数num为1,在遇到第1个空格时切片,将字符串分隔为2部分。
a.split('',4)
#第2参数num为4,字符串从左到右方向遍历,遇到空格进行切片,切片次数为4,将字符串分隔5部分。典例2有如图a的Excel表格数据,用python程序创建一张反映各采价点红富士价格的比较图,如图b所示。部分程序代码如下,请在划线处填入合适的代码。地区规格单位价格采价点采集时间北京市红富士一级元/500克2.98北京沃尔玛3月中旬北京市红富士一级元/500克4.88北京大润发3月中旬上海市红富士一级元/500克4上海农贸市场3月中旬石家庄市红富士一级元/500克3.98石家庄沃尔玛3月中旬石家庄市红富士一级元/500克6石家庄大润发3月中旬天津市红富士一级元/500克4.5天津沃尔玛3月中旬天津市红富士一级元/500克5天津大润发3月中旬图a图bimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltdf=pd.read_excel(″test.xlsx″)x=df[″采价点″]y=①________________plt.figure(figsize=(10,5))#设置图表对象大小plt.②___________(x,y,color=″g″)
plt.title(″红富士一级价格对比表″)plt.xlabel(″价格点″)plt.ylabel(″价格″)plt.xticks(rotation=90)plt.③________________df[″价格″]barshow()解析
本题主要考查数据分析和绘图的综合应用。首先读入excel数据到DataFrame类型的df对象中,X轴坐标值是df[″价格点″],y轴坐标值是df[″价格″]。垂直柱形图用bar()函数,设置标题等选项,最后show()函数显示图表对象。5.绘图类型(kind参数)☆bar(垂直柱形图)☆barh(水平柱形图)☆plot(线形图)6.用Hadoop处理姓氏数据当xm.csv文件数据量至GB、TB时,需采用处理静态大数据的Hadoop架构,编写Map和Reduce函数处理。Map函数中统计每个分片数据中各个姓的人数,统计结果作为Reduce函数的输入,在Reduce函数中汇总每个姓的总计人数。在Hadoop服务器中运行MapReduce任务,系统会自动把任务分配到各个计算机中运行。典例3以下Python程序功能为:读取外部文件“选手年龄信息.csv”中每位选手的年龄,输出年龄列表中的最大值、最小值和平均值。外部文件的界面、程序界面和代码如下,请在划线处填上合适的代码。#以读取模式打开文件f=①________________________#list用于存放文件中读取的当前行数据组成的列表([姓名,年龄])list1=[]s=0#for用于遍历读取文件后生成的列表f.readlines(),列表中的每个元素是从文件中读取的一行数据(姓名和年龄之间用逗号分隔)forlineinf.readlines():list=line.strip().split(②___)
#列表list1用于存放读取的年龄list1.append(③_________)
s=s+④________________print('参赛选手年龄最大年龄为:',\max(list1),'岁,最小年龄为:',min(list1),'岁,\平均年龄为:',s/len(list1),'岁')⑤________________#关闭文件
open('选手年龄信息.csv','r')','list[1]int(list[1])f.close()解析
依照题意,split函数根据逗号分隔。当前行数据读取时,根据逗号将姓名和年龄分隔成列表list
1的两个元素,其中年龄对应的是第2个元素list[1]。将字符串中分离的年龄用int()转换为整型,为后面年龄的累加做好准备。3文本数据处理1.文本数据处理目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前,文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。典型的文本处理过程主要包括:分词、特征提取、数据分析、结果呈现等。(1)中文分词①基于词典的分词方法,也称作基于字符匹配的分词方法,即在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。②基于统计的分词方法,统计分词的思想是依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词。在实际应用中,一般是将其与基于词典的分词方法结合使用。③基于规则的分词方法,通过让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。由于中文语言知识的笼统性、复杂性,这种分词方法目前还处于试验阶段。(2)特征提取在中文文本分析中可以采用字、词或短语作为表示文本的特征项。相比较而言,词的切分难度比短语的切分难度小且更能表达文本的含义。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。2.文本数据分析与应用(1)标签云标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。标签云广泛应用于报纸、杂志等传统媒体和互联网。(2)文本情感分析文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。文本情感分析作为一个多学科交叉的研究领域,涉及自然语言处理、信息检索、机器学习、人工智能等领域。典例4下列关于文本数据处理的说法错误的是()A.文本内容是结构化数据B.标签云是文本可视化的一种方式C.中文文本分析中多数采用词作为特征项D.特征词通常是用分词算法和词频统计得出的结果解析
文本内容是非结构化数据。
A典例5下列数据处理中,不属于文本数据处理的是()A.对简历数据进行关键信息提取,构建人才画像,精准匹配岗位B.分析消费者的意见数据,挖掘用户观点,辅助运营决策C.实时监测景区的人流数据,及时导流、限流D.解析大量合同文档,有效监控风险条款,节省人力和时间成本解析
C选项主要应用了结构化数据,因此本题答案为C。
C4数据可视化☆概念:是将数据以图形、图像等形式表示,直接呈现数据中蕴含信息的处理过程。1.可视化的作用(1)快捷观察与追踪数据(2)实时分析数据(3)增强数据的解释力与吸引力2.可视化的基本方法☆不同的数据类型决定了可视化的表现形式(1)时间趋势:展现随时间的推移而变化数据可采用柱形图、折线图等。(2)比例:展现各部分的大小及其占总体比例关系的数据可以采用饼图、环形图(也称面包圈图)等。(3)关系:探究具有关联性数据的分布关系,可以使用散点图、气泡图等。(4)差异:探寻包含多种变量的对象与同类之间的差异和联系,可以采用雷达图。(5)空间关系:地理数据或者基于地理数据的分析结果可以运用不同颜色或图表直接在地图上进行展示。3.可视化的工具(1)常见的数据分析软件中一般包含创建可视化图表功能。主要用于数据可视化的工具有大数据魔镜、Gephi、Tableau等。(2)使用Python、R等编写程序代码实现数据的可视化。(3)可视化工具库,如基于JavaScript的D3.js、Highcharts、GoogleCharts等,基于Python的matplotlib
等。
4.可视化的典型案例数据以可视化方式展现出来,用户可以通过直观、交互的方式浏览和观察数据,发现数据中隐藏的特征、关系和模式。如“百度地图”“百度指数”“航班飞行实时跟踪地图”等。典例6下列不属于数据可视化作用的是()A.提高数据处理的智能化程度B.快捷观察与追踪数据C.实时分析数据D.增强数据的解释力与吸引力A5大数据典型应用☆大数据应用领域:随着大数据在各行业的应用,数据成为核心资产。目前,大数据广泛应用于金融、交通、环境、医疗、能源、农业等行业,极大地促进了各行业的发展。1.智能交通(1)交通数据采集:GPS、卡口、视频检测、浮动车、地感线圈等产生的交通流监测数据、视频监控数据、系统数据、服务数据等构筑了交通大数据。(2)智能交通服务智能交通主要通过交通信息服务、交通管理、公共交通、车辆控制、货运管理、电子收费、紧急救援等服务子
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度个人消费借款信用保证合同范本4篇
- 2025版挖掘机买卖合同及挖掘机操作人员培训协议3篇
- 2025版新媒体人工智能助手研发与运营合同2篇
- 2025版小程序技术支持授权协议范本2篇
- 2025年福州货车资格证答案
- 2025年度知识产权代理服务合同样本8篇
- 二零二五版毛竹砍伐与林业碳排放权交易合同3篇
- 二零二五年度出纳风险控制担保及咨询合同4篇
- 2025餐饮业环保节能技术应用合作协议2篇
- 二零二五年度土地承包经营权流转与抵押贷款合同
- 二零二五年度无人驾驶车辆测试合同免责协议书
- 2025年湖北华中科技大学招聘实验技术人员52名历年高频重点提升(共500题)附带答案详解
- 高三日语一轮复习助词「と」的用法课件
- 毛渣采购合同范例
- 2023中华护理学会团体标准-注射相关感染预防与控制
- 五年级上册小数递等式计算200道及答案
- 2024年广东高考政治真题考点分布汇 总- 高考政治一轮复习
- 燃气管道年度检验报告
- GB/T 44052-2024液压传动过滤器性能特性的标识
- 国际市场营销环境案例分析
- 滑雪指导员理论考试复习题库(含答案)
评论
0/150
提交评论