版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1数据库建立、整理及其分析
21.什么是数据、数据库?数据(Data)即就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字,也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,数据库不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
32.原始数据与频数数据原始数据是按一定分析目的的要求,将各个观察对象的不同观察指标有序排列的数据值,常用二维数据库的形式列出。统计中,对于二维数据库中所有观察对象的单指标数据或多指标数据都称为原始数据,如表1、表2。4频数数据(Frequencydata)是按分类变量的类别特征或数值变量的数值分组统计原始数据中观察对象的个数(即频数表中的频数),是统计分析中常见的一种数据类型,如表3、表4。5原始数据可以转换为频数数据,但对于数值变量而言,会浪费其中一些可用的数据信息。频数数据也可转换为原始数据,但一般仅限于分类变量。63、数据库2023/12/11672023/12/1178
在调查研究中获取的数据有时很大而零散,且常常存在着异常值和缺失值,如果不能进行科学的整理汇总,就会显得杂乱无章,理不清头绪,抓不住要点,甚至无所适从,最后可能束之高阁、弃之不用,造成数据的极大浪费。
那如何才能对数据有效的利用和分析呢?9数据挖掘数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。10数据挖掘的特征矿山(数据)挖掘工具(软件分析)金子(目标)11数据挖掘技术技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律和现象数据挖掘技术关联分析序列模式分类(预言)聚集异常检测12
数据的挖掘和分析必须基于理论基础开展的,需相关的研究证据和统计分析能力的支撑。二、数据预处理14为什么需要预处理数据不完整含异常值不一致包含其它不希望的成分数据清理通过填写空缺值,平滑异常数据,识别删除孤立点,并解决不一致来清理数据。15污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息重复记录丢失值拼写变化不同的计量单位过时的编码含有各种异常值16数据清理的重要性污染数据的普遍存在,使得在数据库中维护数据的正确性和一致性成为一个及其困难的任务。好的数据库直接影响数据结果的好坏。17异常数据处理内容格式标准化异常数据清除错误纠正重复数据的清除缺失值的处理18异常检测异常检测是数据挖掘中一个重要方面,用来发现”小的模式”(相对于聚类),即数据集中间显著不同于其它数据的对象。19异常检测方法的分类基于统计(statistical-based)的方法基于距离(distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高维数据的异常探测20缺失值的处理1、缺失值产生的原因缺失值产生的原因多种多样,主要分为机械原因和人为原因。(1)机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致数据未能收集。(2)人为原因是由于人的主观失误、有意隐瞒造成的数据缺失,比如,在调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。212、缺失值的处理方法对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。对于主观数据,个人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。223.缺失值的处理方法删除缺失较大的个案人工填写空缺值使用固定值使用属性平均值使用最有可能值23如何做数据挖掘和分析一、明确研究目的研究目的是统计分析的目标和方向,决定了研究设计、研究对象、研究指标等,而研究的设计方案、分析指标是选择不同统计分析方法的决定因素。因此,正确的统计学分析一定要建立在明确的研究目的基础之上,那些没有目的的统计分析,或者事先没有研究设计,事后找来一堆数据的统计分析都是不可取的。24二、建好分析数据库一般来讲,统计分析需要借助于统计分析软件计算,而统计分析软件都要有完整、符合要求的数据或数据库,所以建好分析数据库是统计分析的需要。此外,建好分析数据库还可以理清分析思路。25
在调查研究中获取的数据有时多而零散,如果不能进行科学的整理汇总,就会显得杂乱无章,理不清头绪,抓不住要点,甚至无所适从,最后可能束之高阁、弃之不用,造成数据的极大浪费。相反,建好数据库,可以使观察对象的研究指标一目了然,使研究思路清晰明确。因此建好数据库是正确统计分析的前提和基础。26三、分清楚变量类型数据库中各个研究对象的每项观察指标可以看作是一个个有待分析的变量,变量的不同类型是统计分析中选择不同统计方法的依据,所以,分清楚变量类型是正确选择统计方法的基础和关键。变量分为数值变量和分类变量两类,其中分类变量按是否有序以及项数的多少,又分为二项无序、多项无序、二项有序、多项有序分类变量4种类型。27四、正确选用统计学方法统计学分析可看作是变量与变量之间关系的分析,当研究目的和设计方案确定以后,不同类型的变量组合决定了不同统计方法的选择。如:二项分类变量与二项分类变量组合的关系分析选用X2-检验,二项分类变量与数值变量组合的关系分析选用t-检验,多项无序分类变量与数值变量组合的关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业计划书中的内部培训与员工发展计划考核试卷
- 林业与农村物联网建设考核试卷
- 炼铁过程中的环境保护措施考核试卷
- 城市轨道交通与生态环境考核试卷
- 2017-2022年中国会展行业运营格局现状及十三五投资战略分析报告(目录)
- 2024-2025学年江西省南丰县某中学高三(上)一轮复习联考物理试卷(一)(含答案)
- DB11∕T 1772-2020 地源热泵系统评价技术规范
- 语文研讨课件教学课件
- 新员工入行培训方案
- 区分左右课件教学课件
- 《会计平衡公式》教案
- 除尘器安装专业监理实施细则
- 八年级黄金矩形(数学活动)ppt课件
- 销售技巧个顶尖电梯销售技巧
- 《幼儿园卫生保健后勤材料资料》幼儿园保健医生每日检查工作记录表
- 葡萄糖生产教程
- 需求价格弹性案例分析
- 企业内部通信系统的设计与实现 计算机论文
- 重大决策合法性审查表.doc
- 信号集中监测系统(完整版)
- 复古风同学聚会邀请函.doc
评论
0/150
提交评论