版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
编程处理数据02PARTPython扩展模块使用计算机语言编程可以更加灵活、深入地进行数据分析和挖掘。Python中可以使用扩展模块numpy、scipy、pandas和matplotlibPython中做科学计算的基础库,主要提供科学计算中常用的随机数、数组运算等基础函数。Numpy模块增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。Scipy模块主要用于数据的处理和分析。Pandas模块编程处理数据利用pandas模块处理数据(一):Series是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引。(与字典的key类似,索引值是竖着的)Pandas提供了series和dataframe两种数据结构。使用这两种数据结构可完成数据的整理、计算、统计、分析及简单的可视化。属性说明indexSeries的下标索引,其默认值是从0起递增的整数values存放series值的一个数组Series对象常用属性利用pandas模块处理数据在Python中引入pandas和series的方法:Importpandasaspd(1)使用列表创建series数据结构:Frompandasimportseriesimportpandasaspds1=pd.Series([166,178,180])Print(s1)运行结果:016611782180dtype:int64左列:index右列:valuesPandas中整型为int64,浮点型为float64,字符串、布尔型等其他数据类型为objectSeries([数据….],index=[索引…])利用pandas模块处理数据运行结果:(2)通过赋值语句修改series对象中的值:s1[0]=168s2[“c”]=小二利用pandas模块处理数据(3)删除数据:(4)查询对象的index、values:s1=s1.drop(0)print(s1)利用pandas模块处理数据(二)DataFrame:是一种二维的数据结构,由1个索引和若干个数据列组成,每个数据列可以是不同的类型(每个series可以看做是dataframe的一个列)dataframe对象常用属性属性说明indexdataframe的行索引columns存放各列的列标题values存放值的二维数据T行列转置series和dataframe对比0166178180dtype:int64
姓名性别借阅次数0王静怡女281张佳妮女562李臣武男37索引列数据列数据类型行索引列数据列名利用pandas模块处理数据(1)用字典创建:importpandasaspddata={“姓名”:[”王静怡”,”张佳妮”,”李臣武”],”性别”:[”女”,”女”,”男”],”借阅次数”:[“28”,”56”,”37”]}df1=pd.DataFrame(data,columns=[“姓名”,“性别”,“借阅次数”])Print(df1)运行结果:
姓名性别借阅次数0王静怡女281张佳妮女562李臣武男37利用pandas模块处理数据(2)读取数据文件:最好保存在同一文件夹下importxlrdimportpandasaspddf=pd.read_excel(“test.xlsx”)print(df)运行结果:
姓名性别借阅次数0王静怡女281张佳妮女56
2李臣武男37importcsvimportpandasaspddf=pd.read_csv(“test.csv”)print(df)运行结果:
姓名性别借阅次数0王静怡女281张佳妮女56
2李臣武男37csv是CSV即CommaSeparateValues,逗号分隔值,字符分隔值,其文件以纯文本格式存储表格数据(数字和文本),这种文件格式经常用来作为不同程序之间的数据交互的格式。利用pandas模块处理数据①通过index和columns属性分别访问行标签和列标签:print(df.index)print(df.colunms)利用pandas模块处理数据②查看df1对象的索引、列标题:利用pandas模块处理数据(3)在任意位置插入一列:df.insert(2,”借阅天数”,[2,3,4])print(df)运行结果:语法:insert(ioc,column,value)(4)删除:
drop(labels,axis,inplace)注:axis:0表示删除行,1表示删除列inplace:True表示直接对原表进行修改,默认为false利用pandas模块处理数据
deldf[“姓名”]永久删除df对象中“姓名”列数据利用pandas模块处理数据(5)修改标签:rename()函数完成行和列索引标签的修改,index参数指定要修改的行标签,columns参数指定要修改的列标签。利用pandas模块处理数据(5)groupby:分组计算as_index:ture返回组标签为索引的对象,false则不返回组标签练习1.下列Python的模块中,主要用于数据的处理和分析的是()A.ImageB.pandasC.scipyD.matplotlibB2.有Python程序段如下:importpandasaspdser=pd.Series([1,3,5,7])print(ser.index)
该程序段运行后输出结果为()A利用matplotlib模块绘图matplotlib是一个绘图库,使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标刻度、图例等。matplotlib中的快速绘图的函数库可以通过如下语句载入:接下来调用figure创建一个绘图对象,并且使它成为当前的绘图对象。通过figsize参数可以指定绘图对象的宽度和高度,单位为英寸;dpi参数指定绘图对象的分辨率,即每英寸多少个像素,缺省值为80。因此本例中所创建的图表窗口的宽度为8*80=640像素。importmatplotlib.pyplotaspltplt.figure(figsize=(8,4))利用matplotlib模块绘图figure()创建一个新的图表对象,并设置为当前绘图对象plot()绘制线形图bar()绘制垂直柱形图bath()绘制水平柱形图scatter()绘制散点图title()设置图表的标题xlim()、ylim()设置x、y轴的取值范围xlabel()、ylabel()设置x、y轴的标签legend()显示图例show()显示创建的所有绘图对象利用matplotlib模块绘图利用matplotlib模块绘图文本数据处理文本数据处理是大数据处理的重要分支之一,目的是大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。文本内容是非结构化的数据,要从大量的文本中提取出有用的信息,需要将文本从无结构的原始状态转换为结构化的、便于计算机处理的数据。文本数据处理的一般过程:基于词典分词基于统计分词基于规则分词即在分析句子时与词典中的词语进行对比,词典中出现的就划分为词中文分词依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词通过让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。(1)中文分词分词是将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个一个单独的词。(1)中文分词jieba库是一款优秀的Python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式。精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据搜索引擎模式:在精确模式的基础上,对长词再次进行切分(2)特征提取在中文文本分析中可以采用字、词或者短语作为表示文本的特征性。采用词作为特征项,这种词称作特征词。标签云(词云)用词频表现文本特征,将关键词按照一定的顺序和规律排列,并以文字大小和颜色的形式代表词语的重要性。文本数据分析与应用文本情感分析通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断练习1.文本数据处理的主要步骤包括:①数据分析
②特征提取
③分词
④结果呈现
⑤文本数据获取下列文本数据处理顺序正确的是(
)A.①⑤②③④
B.②⑤③①④C.⑤①③②④D.⑤③②①④2.下列关于中文分词方法的描述中,属于基于词典的分词方法的是(
)A.在分析句子时与词典中的词语进行对比,词典中出现的就划分为词B.依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词C.让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,然后分词D.依据词语与词语之间的空格进行分词3.在中文文本分析中,一般不用做文本的特征项的是(
)A.字B.词C.短语D.段落DAD练习4.下列数据分析中可能涉及文本情感分析的是(
)A.博主地域分析B.微博评论内容分析C.微博发布设备分析D.博主男女比例分析5.某文本数据集的标签云如图所示,下列说法正确的是(
)A.对数据集中文本分词后可直接创建标签云,无须特征提取B.标签云须显示该数据集包含的全部词语C.该数据集中,词语“玩偶”比“注意力”的出现频率高D.最能表现该数据集中文本特征的词有“车顶”“玩偶”“路口”BC数据可视化是将数据以图形图像等形式表示,直接呈现数据中心蕴含信息的处理过程可视化的作用快捷观察与追踪数据利用可视化技术,可以实时将处于不断变化中的数据生成实时变化的可视化图表,帮助人们快捷地发现各种数据的动态变化过程利用可视化技术,可以将实时数据转换为图像呈现给用户,帮助用户分析数据的内涵和特征利用数据图表,直观、动态地呈现新闻、研究报告等内容,可以帮助人们在短时间内了解内容、理解数据背后的含义,同时增强数据的吸引力,提高人们阅读兴趣实时分析数据增强数据的解释力与吸引力数据可视化有关时间趋势的可视化——柱形图、折线图有关比例的可视化——饼图、环形图可视化的基本方法有关关系的可视化——散点图、气泡图有关差异的可视化——雷达图可视化的基本方法有关空间关系的可视化可视化的基本方法tableau、D3.js、highcharts、googlecharts可视化的工具数据可视化可视化的典型案例大数据典型应用03PART网络购票,如火车票,飞机票等。打车软件等。智能交通智能交通的三个子系统交通信息服务系统:推荐行驶路线等。交通管理系统:如优化红绿灯配时、发布诱导信息、道路管制,事故处理与救援等。电子收费系统:高速口的不停车收费(ETC)电子商务精准营销供应链管理智能网站精准营销基于用户购买行为的大数据,使用推荐算法深度挖掘出用户的行为偏好,智能地向用户展示符合其兴趣偏好和购买意图的商品,实现个性化推荐,帮助用户快速地找到所需商品,提高网购效率。精准营销的主要方式是网站推荐、短信等。在仓储管理中,根据商品的销售情况和市场预期数据,依靠预测模型,在库存量达到某一个阈值时自动生成订单发给供货商,实现了商品自动补货。在物流配送领域,供应链管理通过分析物流人员、仓库以及用户之间的地理关系数据,为物流人员提供最优配送路径,提高配送速度,提
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度体育公园场地无偿使用协议4篇
- 二零二五年度快速离婚协议起草服务合同
- 二零二四年淘宝店铺店铺形象设计与电商运营合作协议3篇
- 二零二四年医疗机构消毒灭菌产品认证与推广协议3篇
- 二零二四年文化创意产业设计师聘用协议3篇
- 二零二五年度跨国企业外籍员工引进与培养协议
- 二零二五年度车辆事故理赔与保险欺诈防范协议
- 二零二五年度退定金协议:旅游包车服务合同退订协议
- 二零二五年度酒店整体租赁环保责任协议
- 2025年机关单位退休返聘人员解除协议
- 北师大版 2024-2025学年四年级数学上册典型例题系列第三单元:行程问题“拓展型”专项练习(原卷版+解析)
- 2023年译林版英语五年级下册Units-1-2单元测试卷-含答案
- Unit-3-Reading-and-thinking课文详解课件-高中英语人教版必修第二册
- 施工管理中的文档管理方法与要求
- DL∕T 547-2020 电力系统光纤通信运行管理规程
- 种子轮投资协议
- 物业客服培训课件PPT模板
- 员工工资条模板
- 执行依据主文范文(通用4篇)
- 浙教版七年级数学下册全册课件
- 华为携手深圳国际会展中心创建世界一流展馆
评论
0/150
提交评论