下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 计算机数据分析常用方法与比较 谭博中摘 要:基于数据化时代的发展特点,很多科研工作与行业发展都需要通过数据分析来获得发展依据,数据分析工作也显得越来越重要了。为了完成分析数据的任务,现代人对于数据分析技术进行了开发,并获取了更多的分析方法,计算机在数据分析工作之中发挥了相当重要的作用,应用计算机可以以较高的效率处理种类丰富,数量庞大的数据。分析人员需要以分析条件以及数据实际情况为准,选出合适的分析方法,本文对几种常见的分析数据的方法展开比较性研究。关键词:计算机;数据分析;常用方法;比较数据分析已经逐渐成为了各个行业之中的基础性工作,在对数
2、据进行分析之后可以清晰地找出数据之间存在的规律与联系,在验证了规律的正确性之后,还可以通过合理的方法来运用规律达到一定的目的,进行而成正确可靠的决策。虽然人们对数据分析工作不断改进,但是需要处理的数据量仍在不断增加,数据分析工作逐渐变得更具难度,选择合适的分析方法颇为关键,本文对常用的数据分析方法展开研究,并通过对比来给数据分析人员提供参考。1 数据分析工作概述在了解数据分析工作中常用的分析方法时,工作人员需要对数据分析这项工作任务的基本概念有所了解,在数据分析工作中,分析人员具有相对较强的目的性,其会对目标数据进行收集、整理以及加工,再选定分析方法对数据展开多角度的分析工作,借此来将数据之间
3、存在的可靠联系与科学规律找出,辅助其他工作,在数据分析过程中,提炼出有价值的信息这个环节非常重要,在数据分析工作结束之后,工作人员还要对分析过程的各种工作情况进行整理,撰写出详细的数据分析报告 。在开展数据分析工作时,分析人员一般会从数据挖掘方法与统计分析方法两种方法之中选出合适的分析方法,数据分析结果与选定的分析方法存在极大的联系,甚至会给分析结果的精准度带去影响,因此可知选对分析方法的意义。2 数据挖掘方法分析分类分析:决策树。决策树是一种树形结构,通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。常用的决策树方法有c4.5、cart和assistant。决策树能
4、生成可理解的规则,计算量相对较小,能够清晰显示比较重要的字段,但当类别太多时,错误也可能增加较快,比较难预测连续性的字段,在一般算法分类时,只根据一个属性进行分类,这是其缺点。人工神经网络。人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型,它是数据挖掘中机器学习的典型代表。简言之,“神经网络”就是通过输入多个非线性模型及不同模型之间的加权互联,最终得到一个输出模型。贝叶斯分类方法。贝叶斯分类方法主要用于预测类成员间关系的可能性,它是统计学的一种分类方法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中。回归分析。数据挖掘中的
5、回归分析主要是指多元线性回归和逻辑斯蒂回归,后者多在数据化运营中使用。多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归方程是因变量与自变量关系的数据反映,最常用的是最小二乘法,即找出一组对应自变量的相应参数,使得因变量的实际观测值与回归方程的预测值之间的总方差减到最小。聚类分析。聚类分析是指当要分析的数据缺乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将组之间的差异识别出来,并对个别组内的相似样本进行挑选,实现同组数据相近,不同组数据相异。3 统计分析方法分析描述性统计分析。描述性统计分析是通过图标或数学方法,对数据资料进行整理、分析并对数据的分布状态、数字特征和
6、随机变量之间的关系进行估计和描述的方法。它分为集中趋势分析、离中趋势分析和相关分析三大部分。集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。离中趋势分析主要靠全距、四分差、方差、平均差、标准差等统计指标来研究数据的离中趋势。相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行其相关方向及相关程度的研究。这种关系既包括两个数据之间的单一相关关系,也包括多个数据之间的多重相关关系。回归分析。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。按照涉及的自变量的多少,分为回归和多重回归分析;按照因变量的多少,分为一元回归分析和多元回归分析;
7、按照自变量和因变量之间的关系类型,分为线性回归分析和非线性回归分析。这里讲的回归分析是指一元线性回归,区别于数据挖掘方法中的多元线性回归。关联分析。关联分析又称关联挖掘,通过分析由定性变量构成的交互汇总表从大量数据中发现项集之间有趣的关联和相关联系。其基本思想就是将一个联列表的行与列中各个元素的比例结构以点的形式在较低维的空间中表示出来。因子分析。因子分析是指研究从变量群中提取共性因子的统计技术,即从大量的数据中寻找内在的联系,减轻决策困难的分析方法。因子分析有重心法、最大似然揭发,最小平方法,拉奥典型抽因法等,都以相关系数矩阵为基础。方差分析。方差分析又称“变异数分析”或“f检验”,用于两个
8、及两个以上样本均数差别的显著性检验。研究所得的数据一般呈现波动状。造成波动的原因可分成两类,一类是不可控的随机因素,另一类是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。4 兩种分析方法对比分析前文详细地介绍了数据挖掘方法与统计分析方法,对两种类型的分析工作的实现途径进行了详细地解析,以下是对这两种分析方法的对比情况。从理论来源的角度来看,这两种分析方法理论基础都是统计基础理论,在统计方法中的随机事件与概率均来自于统计学,另外抽样分析也与该理论存在联系,而在数据挖掘系统之中应用的贝叶斯分类法也可以被看做是基础统计理
9、论的延伸,因此可以明确两种分析方法虽然具有存在差异的分析途径,但是却具有同样的理论研究基础。在分析实践工作之中,两种方法之间存在的差异就很明显了,应用统计分析方法时,工作人员需要先给出判断与假设,再应用其他的数据分析技术来对已有的判定以及假设进行验证,在分析中会形成很多函数关系式,而选用数据挖掘技术时,工作人员会直接通过算法找寻数据间的主要联系,并不需要应用大量的函数关系式,因此可知在处理数量较大的数据时可以有限选用数据挖掘技术。5 结束语本文重点介绍的两种分析方法是当前的数据统计工作中应用频次最高的分析方法。分析人员在不同的客观分析条件之下可以选择应用不同的方法,也可以按照分析工作的不同阶段来对不同的分析方法加以与应用,先借助统计分析工作对数据进行整体性地处理,再通过数据挖掘技术对数据进行深度分析,本文还简单地对两种数据分析方法进行了对比,数据分析人员在方法选择方面要保持一定的灵活性,规范地开展数据分析工作,切实将数据分析工作的作用在预测与方案制定等工作中发挥出来。参考文献:1赵禹.(2016). 计算机数据分析常用方法与比较. 数字技术与应用(3), 256-256.2梁萌, & 管阳. (2017). 基于并行数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北师大版一年级下册数学第五单元 加与减(二) 测试卷及参考答案(黄金题型)
- 煤炭开采引发地质灾害调查报告(6篇)
- 关于大学生暑假实习心得
- 湖南省常德市2023-2024学年五年级上学期语文期末试卷(含答案)
- 解除租房合同需要哪些条件
- 诚信代理服务合同机构
- 诚恳道歉自白书
- 语文大专班试题
- 语文要素教学的策略与实践
- 购房合同中的交房时间
- 学校防雷电安全应急预案(4篇)
- 辽宁省七校2024-2025学年高二上学期11月期中联考语文试题(含答案)
- 《出口退税培训》课件
- pcba外贸合同范例
- 2024年成都港汇人力资源管理限公司面向社会公开招聘国企业工作人员管理单位遴选500模拟题附带答案详解
- 家政保洁搬家合同范例
- 2024-2030年中国游梁式抽油机行业供需趋势及投资战略研究报告
- 山东省临沂市2024届高三第二次模拟考试语文试题(解析版)
- 2024国家开放大学电大专科《学前儿童健康教育》期末试题及答案
- 医疗器械产品推广策划书
- 信息安全测试员(高级)职业技能鉴定备考试题库-上(单选题)
评论
0/150
提交评论