版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融数据统计分析项目三
数据处理01学习目标目录CONTENT一知识目标(1)掌握数据采集的方法。(2)掌握缺失值、错误值和重复值的数据处理方法。(3)能够对数据进行有效的排序和分组。二能力目标(1)能运用excel进行数据的清洗。(2)能够进行统计汇总。三思政素养目标(1)养成用数据分析缘事析理、明辨是非的意识。(2)勿编造数据,强调数据的真实性、可靠性,提高诚信意识。(3)养成尊重数据、务实严谨的科学态度。(4)减少人为误差,分析误差来源,在收集、分析数据资料,讨论疑难问题的过程中,培养团结协作的意识。02案例导读目录CONTENT2020年浙江省国民经济和社会发展统计公报案例导入
教材案例中的详细数据资料是经过统计整理后得到的,统计整理在整个统计过程中占有十分重要的地位。那么你了解统计吗?你知道如何进行数据处理吗?03新课教学目录CONTENT一、数据处理认知二、数据清洗任务一数据处理认知数据处理认知金融数据是指在各项金融活动中产生的数据。金融数据处理金融数据处理是指将收集到的数据,采用一定的手段、按照一定的程序和要求加工成符合目的要求数据的过程。数据处理就是对原始数据或者次级数据进行处理以后,拾取相应数据作为数据集合,方便后期操作的功能。一、数据排序数据的排序是将一组数据按一定顺序如大小、高低、优劣等进行依次排列的过程,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。数据分组数据分组,是指根据事物内在的特点和统计研究的需要,将数据总体按照一定的标志区分为性质不同又有联系的若干组成部分的一种统计方法。例如,若要分析某一金融公司董事、监事及高级管理人员的教育层次和规模。数据分组例如,若要分析某一金融公司董事、监事及高级管理人员的教育层次和规模,可以按照其文化程度来分:初等教育中等教育高等教育小学普通高中职业高中中专技校博士硕士大学本科高职高专二、数据分组(一)数据分组的原则互斥原则:是指在一定的分组标志下,总体中的任何一个单位只能归属于某一组,不能同时或可能归属于几个组。穷尽原则:就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体的所有单位。二、数据分组(二)数据分组标志的选择“标志”是将总体区分为不同组别的标准或根据,是调查数据分组的核心,标志的选取直接影响调查数据分组的科学性和调查数据整理的准确性,并将最终影响市场预测的准确性。但是任何总体都有很多标志,采用不同的标志分组,其结果会不同。标志二、数据分组选择分组标志应注意:根据统计研究的具体目的选择分组标志。根据具体研究任务,通过对研究对象的理论分析,在若干个标志中选择最能反映现象本质特征的标志。结合研究对象所处的具体时间、地点等历史条件、经济条件和特点选择分组标志,保证分组标志在不同时间、不同场合的适用性。二、数据分组(三)数据分组的具体方法是指选择反映事物数量差异的数量标志,根据其变异范围区分各组界限,将总体划分为若干个性质不同的组成部分。品质标志分组法数量标志分组法品质标志分组是指选择反映事物属性差异的品质标志作为分组标志进行分组。按品质标志分组能直接反映事物间质的差别,给人以明确、具体的概念。二、数据分组1.品质标志分组法例如,人口可以按性别、民族、职业、文化程度等分组。缺点有些品质标志分组也很复杂,尤其是相邻组之间的界限不容易划清。有些在理论上容易区分,但在实际社会经济生活中却难于辨别。例如,人口按城乡分组,居民一般分为城市和乡村两组,但因目前还存在有些既具备城市形态又具备乡村形态的地区,分组时就需慎重考虑。有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。二、数据分组2.数量标志分组法例如,研究居民家庭贫富状态时,按恩格尔系数(即食品类支出占整个居民家庭消费支出的比重)分组,将其在60%以上的划分为贫困家庭,50%~60%的为温饱家庭,40%~50%为小康家庭,40%以下的为富裕家庭。缺点根据变量值的大小来准确划分性质不同的各组界限并不容易,这要求我们在按数量标志分组时,首先分析总体中可能有多少种性质不同的组成部分,然后再研究确定各组成部分之间的数量界限。二、数据分组(1)单项式分组和组距式分组单项式分组:就是以每一变量值依次作为一组的统计分组。一般适用于离散型变量,且在变量值不多、变动范围有限的条件下采用。单项式分组该金融机构职工家庭拥有的子女数职工数(人)比重(%)01030.3411320.442410.143240.08合计300100.00二、数据分组组距式分组:就是以变量值的一定范围依次为一组所进行的统计分组。当变量值的变动幅度较大,项数较多时应采用此方法,此方法对连续变量与离散变量均适用。组距式分组按金融企业职工人数分组(人)某市金融机构数(个)金融机构数比重(%)200以下260.52201-500130.26501-100050.101001-300040.083001以上20.04合计50100.00二、数据分组(2)等距分组和异距分组组距两端的数值称组限。其中,每组的起点数值称为下限,每组的终点数值称为上限。上限和下限的差称组距,表示各组标志值变动的范围。组距是同一分组的上限与下限之间的绝对距离。一般有:组距=上限-下限。异距分组等距分组等距分组是各组保持相等的组距,也就是说各组标志值的变动都限于相同的范围。等距分组是组距分组的基本方法。确定数值的取值范围确定组数计算组距确定组限01020304分配数据05二、数据分组等距分组的5个步骤二、数据分组取值范围一般用R表示:第一步:计算取值范围(全距)
二、数据分组在实际分组时,可以按斯特奇斯(Sturges)提出的经验公式来去额定组数,组数一般用K表示。第二步:确定组数
式中,n是分组对象全体数据的个数,对结果用四舍五人的办法取整数即为组数。但是,经验公式计算出来的组数只是一个参考数值,组距的确定还需要根据研究对象的实际情况,适当增加或减少组数。二、数据分组组距通常用d表示:第三步:计算组距。
即组数=全距/组数在实际应用中,组距应是整数,为便于计算,组距宜取5或10的倍数。二、数据分组规定各组中数值的下限和上限。确定组限需要遵循“不重不漏的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。第四步:确定组限为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,例如,在对成绩进行分组时,80分通常被分在“良好”组而不是“中等”组。二、数据分组分配数列是统计整理结果的一种表现形式,分配数列将分组数据按照各自数值的大小分配到各个组中。第五步:分配数据一般先按照分组标志对原始数据进行排序,然后根据各组的组限水平,将经过排序之后的有序数据进行分段,归入到各个组中。异距分组即各组组距不尽相等的分组方法,主要是考虑到各组之间数据的数量差距过大,一些分组中的数据过多或多少,会影响数据分布状态的分析,所以采用缩小组距或扩大组距的方法,来拆分数据过多的分组或合并数据过少的分组。二、数据分组二、数据分组数据分组在数据处理认知过程中起着十分重要的作用,可以从以下三个方面来说明:1.划分社会经济现象的不同类型2.揭示社会现象总体内部结构3.探讨事物现象之间的依存关系(四)数据分组的作用三、数据处理之一手数据某证券公司50个客户风险承受能力测评问卷的成绩如下:1341402412234319172827291520392311423524291528102237321740133726322341321620341226211614313631421021对以上得分按下表客户风险承受能力评估表,将其分为4组。客户风险承受能力评估表
保守型稳健型成长型积极型得分下限10192837得分上限18273643三、数据处理之一手数据Excel提供了一个专门用于统计分组的频数分布函数(FREQUENCY),它是以一列垂直数组返回某个区域中数据的分布来描述数据分布状态,函数语法如下:EXCEL中的FREQUENCY函数语法三、数据处理之一手数据用频数分布函数进行统计分组的操作流程具体见以下步骤:第一步:将样本数据排成一列,例为“B2:B51”。第二步:按组距分组要求将各组上限值输入组距分组区域(E2:E5)。第三步:将光标移到“F2”单元格,按住鼠标左键,拖拉光标至“F5”单元格,即选中全部输出区域,覆盖住“F2:F5”区域,然后单击“fx”插入函数,搜索并选择函数FREQUENCY,在“Dataarray”中输入原始数据列“B2:B51”,在“Bins_array”中输入组距分组数列“E2:E5”三、数据处理之一手数据第四步:同时单击“Ctrl+Shift+Enter”键,即可得到如下图3-3所示的频数统计结果。需要注意的是,此处不能单击“确定”按钮,否则只能得到一个单位的频数。“Ctrl+Shift+Ente”是Excel软件特别针对矩阵运算的回车符。第四步统计结果三、数据处理之一手数据第五步:在频数分布函数统计分组获得频数的基础上,可用Excel列表计算频数相对应的频率。最终结果如下图所示。最终统计结果任务二数据清洗三、数据处理之一手数据数据清洗,即对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。需清洗的数据:不完整的数据错误的数据重复的数据数据清洗一、一致性检查例如:1.用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS、和Excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案可能以多种形式出现:2.许多调查对象说自己开车上班,又报告没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。二、无效值和缺失值处理1.用某个变量的样本均值、中位数或众数代替无效值和缺失值。2.通过变量之间的相关分析或逻辑推论进行估计。是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。估算成对删除整例删除变量删除剔除含有缺失值的样本。只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。1.保留缺失数据对空值不正确的填充往往会使数据挖掘产生错误的结果。因此,在许多情况下,仍希望在保持原始信息不发生变化的前提下对数据信息进行处理。保留缺失数据,优点是保证了样本的完整性。2.删除缺失数据当采集的数据量很大,即使删除若干数据也不会影响样本时,就可以采取删除的方式修复缺失值。具体做法是将存在缺失值的样本(行)或特征(列)直接删除,从而得到一个完整的数据集。这种方法的优点是简单易行。二、无效值和缺失值处理(一)缺失值修复课堂实训请将教材配套数据“出口主要货物数量和金额(2020年)”中数量未知的品类直接删除整行。课堂实训操作步骤如下:第一步:选中需要筛选的数量列B,操作步骤见下图。课堂实训第二步:在打开的“定位条件”对话框中选中“空值”,并确定,excel自动定位所有内容为“空值”的单元格,操作步骤见下图:课堂实训第三步:删除定位选中的单元格所在行即可完成删除缺失数据业务操作,操作步骤见下图:修补缺失数据可以采用以下几种方法:(1)人工填写。产生偏离的可能性最小,可能是填充效果最好的一种方法。然而当数据规模很大、空值很多的时候,该方法费时费力,是不可行的。(2)特殊值填充。将空值作为一种特殊值来处理。可能导致严重的数据偏离。(3)均值填充。将数据集中的属性分为数值属性和非数值属性来分别进行处理。(4)回归。这种方法需基于完整的数据集,建立回归模型。概念:修补缺失数据一般是用一定的值去填充空值,从而使数据集完整化。通常基于统计学原理,根据初始数据集中其余对象取值的分布情况来对一个缺失值进行填充。注意:切记不能为了补全数据而任意填写。二、无效值和缺失值处理3.修补缺失数据课堂实训请将教材配套数据“居民消费价格分类指数(2020年)”中指数缺失的数据用数据所在列平均值填充。操作步骤如下:第一步:使用excel的AVERAGE函数,计算城市和农村列指数的平均值,AVERAGE函数语法如下图所示。EXCEL中的AVERAGE函数语法二、无效值和缺失值处理平均值计算操作步骤如下图所示。二、无效值和缺失值处理平均值计算操作步骤计算出城市和农村列指数的平均值后,同时选中C65和D65单元格,复制,粘贴成值,操作步骤见右图:二、无效值和缺失值处理平均值粘贴成值的操作步骤第二步:先选中需要查找的城市列数据单元格,在打开的“定位条件”对话框中选中“空值”,并确定,excel自动定位所有内容为“空值”的单元格,操作步骤见下图。二、无效值和缺失值处理定位空值的操作步骤第三步:点击确定后,保持当前单元格所在位置,并在单元格的内容框中输入城市列计算出的平均值,即“=101.36”,然后按Ctrl+Enter,快速填充,操作过程如右图。第四步:同样的方法将农村列计算出的均值“101.16”填充到农村列缺失数据的单元格中。二、无效值和缺失值处理快速填充的操作步骤二、无效值和缺失值处理(二)错误值修复1.屏蔽错误值函数:IFERRORExcel中出现错误信息时,一般可以利用IFERROR函数实现修复,该函数的语法格式见下图;Excel中出现错误信息时,一般可以利用IFERROR函数实现修复,该函数语法如下图所示。该函数的作用是当公式的计算结果发生错误时,返回指定的值,否则返回公式的结果。第一参数“value”表示当不存在错误时的取值,第二参数“value_if_error”是公式计算结果为错误值时要返回的值。课堂实训请使用excel中的IFERROR函数将教材配套数据“市盈率计算”中股票市盈率计算出来,若存在错误,请输出“错误提示信息”,计算结果保留两位小数。操作步骤如下:第一步:在E3单元格输入函数计算公式,市盈率的计算公式为每股市价除以每股收益,因此IFERROR函数的第一个参数表达式为“C3/D3”,当计算结果为错误值时返回“错误提示信息”参数,操作步骤见下图所示。二、无效值和缺失值处理第二步:重复上述操作,使用IFERROR函数补全表格。计算结果如下图所示。二、无效值和缺失值处理二、无效值和缺失值处理2.Excel常见错误信息的含义序号错误值类型含义解决方法1######当列宽不够显示数字,或者使用了负的日期或负的时间时出现错误适当增加列的宽度或修改时间2#VALUE!当使用的参数类型出现错误时出现错误确认公式或函数所需的参数或运算符是否正确,并确认公式引用的单元格所包含均为有效的数值3#DIV/0!当数字被0除时出现错误修改单元格引用,或者在用作除数的单元格中输入不为零的值4#NAME?公式中使用了未定义的文本名称确认使用的名称确实存在。如所需的名称没有被列出,添加相应的名称。如果名称存在拼写错误,修改拼写错误5#N/A公式找不到引用的值如果工作表中某些单元格暂时没有数值,在这些单元格中输入#N/A,公式在引用这些单元格时,将不进行数值计算,而是返回#N/A。6#REF!当被引用的单元格区域或被引用的工作表被删除时,返回该错误更改公式,在删除或粘贴单元格之后,立即单击“撤消”按钮以恢复工作表中的单元格。7#NUM!公式或函数中使用无效数字值时检查数字是否超出限定区域,确认函数中使用的参数类型是否正确。8#NULL!当用空格表示两个引用单元格之间的交叉运算符,但计算并不相交的两个区域的交点时,出现错误。如果要引用两个不相交的区域,使用和并运算符。(三)逻辑错误修复二、无效值和缺失值处理1.数据不合理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年个人所得税赡养老人赡养金代付及税务优惠协议模板3篇
- DeepSeeK开启AI算法变革元年2025-甲子光年
- 2025年食品行业电子商务平台合作协议3篇
- 2025年度钢材环保处理技术研发与应用合同
- 2025年度个人健康保险代理合同书4篇
- 2025年度个人二手车买卖合同车辆交易税费计算及缴纳合同
- 2025-2030全球太阳能深井潜水泵行业调研及趋势分析报告
- 2025年全球及中国MBE掺杂源行业头部企业市场占有率及排名调研报告
- 2025-2030全球植物生长室和房间行业调研及趋势分析报告
- 2025版个人店面租赁合同(含违约责任细化)
- 印染厂安全培训课件
- 红色主题研学课程设计
- 胸外科手术围手术期处理
- 装置自动控制的先进性说明
- 《企业管理课件:团队管理知识点详解PPT》
- 移动商务内容运营(吴洪贵)任务二 软文的写作
- 英语词汇教学中落实英语学科核心素养
- 《插画设计》课程标准
- 高中英语名词性从句讲解
- 尤单抗注射液说明书
- 高考作文答题卡(作文)
评论
0/150
提交评论