版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8章数据分析基础信息学院2024引言8.1案例:苹果公司股票价格数据的典型技术指标分析8.2科学计算包Numpy8.3数据处理包Pandas8.4编程实践8.5本章小结8.6习题8.1案例:苹果公司股票价格数据的典型技术指标分析通过对证券市场的历史数据进行梳理,应用数学和逻辑方法,归纳总结出典型的行为,从而预测未来的变化趋势,是数据分析的典型应用,不同技术指标都可以从其特定的角度对市场进行观察,反映了市场某一方面深层的内涵。本案例主要选择KDJ随机指标、RSI相对强弱指数指标等。NumPy是Python用于科学计算的基础包,也是大量Python数学和科学计算包的基础,许多数据处理及分析包都是在NumPy基础上开发的,如后面介绍的Pandas包等。NumPy的核心基础是ndarray(N-dimensionalarray,N维数组),即由数据类型相同的元素组成的N维数组。本节主要介绍有关数组的创建、运算、切片、连接、数据存取、矩阵运算及线性代数运算等内容。8.2科学计算包Numpy8.2.1数组导入与创建NumPy中提供的loadtxt()函数可以从数据文件中导入数据,函数及主要参数如下:numpy.loadtxt(fname,dtype=<class'float'>,comments='#',delimiter=None,converters=None,skiprows=0,usecols=None,unpack=False,ndmin=0,encoding='bytes',max_rows=None,*,like=None)fname:被读取的文件名(文件的相对地址或者绝对地址)dtype:指定读取后数据的数据类型delimiter:指定读取文件中数据的分割符skiprows:选择跳过的行数usecols:指定需要读取的列8.2.1数组导入与创建8.2.1数组导入与创建array()函数可以将列表、元组、嵌套列表、嵌套元组等给定的数据结构转化为数组。array()函数的语法格式为:numpy.array(object,dtype=None,copy=True,order=None,ndmin=0)object:表示数组序列dtype:可选参数,表示数组的数据类型copy:可选参数,表示数组能否被复制,默认为Trueorder:用来定义以何种内存布局创建数组ndmin:用于指定数组的维度8.2.1数组导入与创建8.2.2数组属性属性说明ndim数组维度数shape数组的形状,即几行几列size数组元素的个数,相当于shape中行列数的乘积dtype数组元素的数据类型itemsize数组中每个数组元素的大小,以字节为单位8.2.3数组访问在NumPy中,如果想要访问或修改数组中的元素,可以采用索引或切片的方式,例如,使用从0开始的索引依次访问数组中的元素或者按照规则切取原数组中的部分数据等,与列表操作相同。8.2.3数组访问数组变换数组排序数组条件筛选8.2.4数组操作8.2.5数组运算数组和标量之间的运算8.2.5数组运算数组和数组之间的运算8.2.5数组运算数组统计函数8.3数据处理包Pandas8.3.1数据导入Pandas提供了较多的文件读取函数,读取csv文件常使用read_csv()函数,由于其参数较多,以下仅介绍常用的参数:filepath_or_buffer:用来指定数据输入的路径,可以是文件路径,也可以是一个链接,读取csv文件,默认读取第一个sheet的内容sep:用来指定读取csv文件时的分隔符,默认为逗号。特别需要注意,csv文件本身分隔符和读取csv文件时指定的分隔符需要保持一致header和name:用来指定导入数据后列标题,当names没被赋值时,header也没有被赋值时,选取数据文件的第一行作为列标题;当names被赋值,header没被赋值时,那么header会变成None;如果都赋值,就会实现两个参数的组合功能index_col:用来指定列索引,默认是0、1、2、……8.3.1数据导入8.3.2数据创建通过DataFrame()函数,创建新的数据框对象,其语法格式为:pd.DataFrame(data,index,columns,dtype,copy)主要的参数包括:data:指定数据来源对象,可以是ndarray、list或者dict等index:指定列索引,与来源数据的长度相同,默认值为np.arange(n),n代表data中元素个数columns:指定列标签,默认值np.arange(n)dtype:指定数据类型,如果没有定义,Python会根据输入进行判断copy:是否复制数据,默认为falseSeries作为特殊的数据框,由索引index和对应的值构成。Pandas中提供了可以直接创建序列对象的Series()函数,其语法格式为:pandas.Series(data,index,dtype,copy)8.3.2数据创建8.3.3数据预览数据框和序列主要属性属性名主要功能描述axes返回行轴标签列表dtypes返回序列数据类型empty如果系列为空,则返回Truendim返回序列维数size返回序列元素个数values将序列作为数组返回index将索引作为数组返回8.3.4数据访问在对有关数据进行操作之前,需要先将满足条件的数据查找出来,数据访问可以借助loc属性或者iloc属性来完成。loc属性可以指定需待查找数据的列标签和行标签,iloc属性则需要指定待查找数据的行索引和列索引,此外,loc属性和iloc属性均支持通过切片和布尔索引的方式来选择数据。8.3.4数据访问8.3.5数据操作新增数据删除数据修改数据8.3.6时间序列处理
利用道琼斯股票交易数据,进行时间序列分析,计算苹果股价的对数变化率。在金融领域,通常假定股票的对数变化率服从正态分布,这里的对数变化率指的是当前股价和之前的股价对比的对数。在Pandas中没有直接的公式进行计算,需要通过shift方法来进行间接计算。8.3.7本章案例实现KDJ随机指标RSI相对强弱指数指标8.4编程实践根据数据文件online_con_2022.xlsx,利用本章所讲授的有关内容,进行数据分析。8.5本章小结本章主要围绕数据分析基础,重点介绍了常用的NumPy和Pandas两个数据处理工具包,通过相关例题,对数据导入、数据创建、数据操作、数据访问以及时间序列处理能内容进行了有针对性的讲解,在本章的案例部分,以苹果公司股价数据为分析对象,讨论了有关指标的创建,在编程实践部分,展示了如何利用本章内容,对在线医疗社区的服务交易数据进行分析与处理。1.简答题1)请简单描述本章所介绍的Pandas的数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川电子机械职业技术学院《跨境电子商务》2023-2024学年第一学期期末试卷
- 四川电影电视学院《生物化工原理与设备》2023-2024学年第一学期期末试卷
- 四川电力职业技术学院《P高阶交换原理与技术》2023-2024学年第一学期期末试卷
- 四川大学锦江学院《大数据与数据挖掘技术》2023-2024学年第一学期期末试卷
- AI技术对行业发展的影响分析会报告金融、医疗、教育汇报
- 高校劳动教育课程优化研究
- 传染病防控策略与效果评估报告
- 门市合伙合同范例
- 合法承包合同范例
- 小学生语文素养提升途径研究
- 外研社英语教材(一年级起点版)四年级上册句型总结
- 267条表情猜成语【动画版】
- 科研课题立项评审评分参照标准
- 统编版语文三年级上册第三单元培优试卷(含答案)
- 生产效率统计表
- 医疗机构药品自查报告(3篇)
- 钢板切割施工方案
- 有创机械通气与无创机械通气比较
- SWITCH暗黑破坏神3超级金手指修改 版本号:2.7.4.84040
- 广东省广州市黄埔区2023-2024学年数学四年级第一学期期末达标检测试题含答案
- 控制计划(空白)
评论
0/150
提交评论