数理统计与数据分析总结_第1页
数理统计与数据分析总结_第2页
数理统计与数据分析总结_第3页
数理统计与数据分析总结_第4页
数理统计与数据分析总结_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 数理统计与数据分析的总结数理统计的数据分析应用实际在于提高数理概念研究能力,通过数理统计内容的完善及统计的科学配置解决数据研究理论问题,为数理统计实践提供更多元的信息分析模块。本文将以数理统计的数据分析为基础,对数理统计的数据分析应用发展及内容等做逐一阐述,以此为数理统计的数理分析科学运用提供部分参考性研究建议。伴随着社会的不断进步和科学技术的飞速发展,数理统计也在完善和进步,并逐渐应用于众多不同的领域。作为统计工作中一项非常重要的内容,数理统计的方法和研究数理统计问题的理念在社会企业发展过程中发挥着巨大的作用,这些都可以通过数理统计工作体现出来。本文通过对数理统计内容、统计方法及数据分析发

2、展的历程等不同方面,对数理统计进行研究,阐述了现在统计学的发展和统计学对于社会政治经济生活中各个领域的重要性。数理统计的发展背景及现状:数理统计有着非常悠久的历史,最开始以“统而计之”这个简单的理念出现,经过几千年的积累和发展,加上科技的进步和社会生产力以及经济的不断进步,当代数理统计分析的应用范围也逐渐扩大,不单单局限于“统而计之”的方面,其在人文科学、社会科学和自然科学等众多领域均有涉及。在统计内容、统计方法及数据统计的思想发展中,数理统计占据着非常重要的地位,其作用不可小觑。在进行科学研究的过程中,经常会遇到描述两个或多个随机变量的关系、描述随机变量的分布特征、离散性质或变量的大小等类似

3、的问题,而数理统计这一数学工具的出现,能够特定的描述随机变量间的关系和随机变量,成功的解决了这些问题,促进科学领域的进步。因此,如何将数理统计方法更好地应用于科学研究工作,有效的利用运用数理统计分析解决具体的科学研究问题,成为数据分析过程中非常关键的部分,也是研究现代数理统计过程中迫切需要解决的问题。数理统计的研究内容:基于数据分析及数理统计的基本定义和概念,以数据分析中数理统计的广泛应用为重点,对数据统计的相关理论进行论述,总结出数据统计的特点,突出体现了数据统计在统计学中发挥着不可替代的作用。此外,还将数据统计同现代企业进行综合考虑,研究数据统计的应用对企业发展的价值和意义。数理统计和数据

4、分析的概念及特点:对数理统计内容的定义及概念的理解程度是学习数据分析知识的关键性问题,直接关系着能否学好这门学科,如果不能做到很好的理解数理统计的概念,就更不用谈如何有效的运用数理统计方法。统计方法及统计思想这两个方面是数据统计学中的主要内容,而对基本概念和相关定义的理解和认识,则是掌握和运用统计方法和统计思想的基础。总体是全部研究对象的统称,利用样本中包含的信息,进而统计推断总体的信息是数理统计的基本思想,所以,数理统计中样本和总体的概念也是最根本和最重要的。然而,人们在解决实际问题的过程中,由于忽视总体的重要性,不能很好的对总体进行深入了解,从而造成盲目性统计分析的后果。利用研究对象中的一

5、个或若干个数量指标形成的随机变量,对总体进行描述是数理统计的常用方法,其中由于总体的特性而制定了统计模型及统计问题这两个概念。推断总体的统计处理过程中可以体现出统计思想,推断总体的具体操作中运用了统计方法,因此,根据以上理论,可以将数理统计的概念定义为:在有限次的试验和观察随机现象后,总结归纳随机现象中出现的数据,根据这些有限数据推断出其中的规律,并由总结的成果判定和推断整体的数量规律性和相应现象的学科。将概率论作为基础理论,根据试验和观察随机现象得到的数据资料,对随机现象进行研究,这个过程即为数理统计的特点。具体表现为:参考数据资料将合适的数学模型应用到随机现象中,并通过资料来检验数学模型的

6、合理性,确认合理的基础上进行对数学模型规律性、性质及特点等内容的研究。在现实生活中的应用,可以通过测试灯泡生产企业检测灯泡使用时间的例子来证明,首先在不清楚该灯泡厂的灯泡使用时间的情况下,随机抽取某天该厂生产的几个灯泡作为样本,然后进行寿命检测的实验,最后统计这几个灯泡的平均使用时间。根据这几个灯泡使用时间的数学资料,来对生产的所有灯泡的合格率及寿命等指标进行推算。在概率论的支撑下,通过创建数学模型的方式对灯泡使用时间的分步进行计算,然后,根据数学资料建立分布图,在之后的一段时间内反复抽取几个样本进行测试,从而观察指数的分布是否合理。作为应用数学中最活跃的一个学科,数理统计学的特征使其具有非常

7、高的应用价值,与其他学科不同的是,数理统计学在研究数学方法及理论之外,还注重的是实际应用,其他学科侧重的是数学的演绎法,而数理统计这一学科则强调归纳法的应用。因此,站在学科划分的角度来看,数理统计可以作为数学学科的内容。参考统计学多年的发展历史,可以看出,人们认识社会的初期主要是通过数据分析实现的,随着不断发展,现代社会除了地质学、工农业生产、气象与灾害预报及医学等领域应用到了数据分析,人工智能、信息论、金融数学及医药统计等新兴学科也普遍涉及到数理统计知识。数据分析和数理统计二者之间有很大的联系,如果仅仅通过简单、固定的统计来应对不同学科领域的实际问题是不可能完成的,因为各个学科都有各自的特征

8、,利用全面调查的方式研究多样化的学科,必定会存在局限性。所以,因数据分析的需要而逐渐产生了数理统计方法,为实现通过部分样本来推测整体的数理统计作铺垫,其统计思想也为现代统计学发展做出了巨大贡献,应用于许多实际问题的处理。数理统计方法的出现顺应了社会发展的需要,可以帮助我们了解不同学科间的数据规律及联系,使我们更好地对每个学科的概况进行全面而细致的分析。数理统计在数据分析中的应用:在对某个学科领域研究的过程中会应用到许多数据分析方法,通过多种不同的数据分析方法,我们才能更好的掌握该学科的特点,对研究社会活动领域和不同学科研究有非常大的帮助。正因为数理统计具有解决实际问题的功能,所以,其在数据分析

9、中占据着非常重要的地位,随着不断发展,也就逐渐形成了数理统计方法,应用于数据分析。数理统计和数据分析之间主要是通过大数定律而产生紧密的联系,总体的相对数及平均数等相关指标在数据分析中之所以能发挥作用,体现其价值,都是建立在大量观察的基础上实现的。大量观察法是大数定律形成的根基,大数定律在数据分析过程中主要运用到了大量观察这个基本方法。数理统计在数据分析过程中发挥着非常重要的作用,同时,数理统计也会对数据分析产生一些影响。一方面,数理统计会对总体分布形态、方差分析和正交设计、相关与回归分析、一个或两个总体参数的假设检验及参数或非参数估计等方面产生显著的影响;另一方面,还可以影响相对数及平均数等统

10、计学中计算原理的基本描述指标。数理统计对企业发展的影响:前期进行资料的搜集,然后加工处理相关数据,最后进行分析预测是统计工作的基本流程,在应用数理统计理论解决实际问题的过程中,需要不同部门和方面的共同努力。在社会及自然等学科领域中均涉及到了数理统计方法,其应用十分广泛。但作为一种辅助工具,要想合理的运用数理统计方法来解决实际上的问题,就要求我们对所研究的内容践行充分的了解,根据相关专业的知识和多年积累的经验,或是有效的工作组织来科学的规划,由实际情况来决定数理统计方法,将数理统计方法视为一种辅助工具,这样才能发挥统计处理应有的作用。生产型企业在应用数理统计学方法对数据进行分析时,主要可以体现在

11、以下两个方面:(1)统计质量管理法的应用。在生产过程中,面对分析大批生产元件的可靠性、控制工序、检测系统(含有多种元件)可靠性及抽样检测成批产品的方案等,在生产企业中连续制造和大批量生产等实际问题,可以采取不同形式的可靠性统计分析、抽样检验统计分析和质量控制图统计分析等方法来解决。(2)在处理产品工艺流程的改革、研究影响产品质量的次要因素和关键因素、对旧产品进行改进、选取恰当的配方、最优生产条件的组合、新产品的试制和替代材料的应用等问题的过程中,可以利用多元统计分析、正交设计、方差分析及回归分析等统计方法。数据分析不仅在企业生产过程中发挥着巨大的作用,还有助于企业的管理,凡是涉及到数据的方面都

12、能通过数据分析来解决,在企业的生产、加工和销售等多个环节中都可以看到数据分析的存在。企业内部数据分析方法的应用得到完善和发展后,在产品质量管理和控制、开发新产品及开拓市场等企业经营管理方面都涉及到数据分析。其中在开拓市场方面,通过数据分析的方法可以掌握更多关于竞争对手和产品的信息及数据,将准确的数据分析说明提供给企业,有利于企业对市场的研究和行情的判定,提高企业的竞争力,为企业构建合理的发展目标奠定基础,推动企业发展壮大。综上所述,基于数理统计理论形成的数据统计分析方法和理论,随着科学技术的不断进步和社会经济的发展也得到了完善和充实,在数据分析中的应用中发挥着非常重要的作用。在现代科技的帮助下

13、,数据统计分析方法也会不断地发展进步,应用于不同领域,为社会经济的发展做出巨大的贡献。大数据与数理统计之间的比较:大数据分析与数理统计都是围绕数据展开的,这是两者之间的一种内在的联系。“一切以数据说话”是其共同的本质,两者都是从数据分析中发现隐含的规律,以便透过事物表象的记录来认识其本质。作为发掘规律和认知世界的基本方法,两者有以下三个方面的共同点。数据科学是以数据解析的方法来进行研究的科学,可以简单概括为“用数据的方法来研究科学和用科学的方法来研究数据”。虽然数据科学因大数据才被人们所熟知,但其研究内容却涵盖了应用数学、数理统计、计算机等学科,被称为继实验科学、理论科学和计算科学之后又一新的

14、科学研究范式。数理统计被称为“收集和分析数据的科学与艺术”,是数据科学的理论基础。过去,由于受到技术条件的限制,一般只能获得有限的数据,即“样本”,为了根据有限的样本作出尽量科学的判断,就需要借助概率论,排除随机性对分析、推断的干扰,以正确揭示隐藏在数据背后的总体规律,这便是数理统计的主要任务。随着大数据时代的到来,在许多领域获得了全面、完整和系统的数据,而大数据分析作为数据科学的发展前沿,也成为了知识创新的重要方法。对于新时代的数据科学而言,虽然对数理统计提出了许多新的挑战,但大数据分析与数理统计仍然具有共同的出发点和最终目标,并在应用实践中不断为数据科学提供新的思想、方法和技术。两者都是定

15、量研究的具体方法定量研究是科学研究的基本方法之一,其实质就是按照一定的标准对研究对象的特征进行量化比较,从而推定其性质或某些因素间的变化规律。在常规数据条件下,数理统计一直是定量研究的主要方法。大数据的出现,不仅是量的增长,更是质的变化,而大数据分析则为定量研究提供了全新的思路和方法。量化是大数据分析和数理统计的基础,在具体的应用中,两者都形成了一整套指导数据量化处理的科学系统的理论。在数理统计中,按照量化水平的高低,分为名义数据、顺序数据、等距数据和比率数据,不同的数据类型适用不同的统计分析方法。而对于大数据来说,其包含的数据类型更为复杂,不仅有结构化数据,更多的则是文字、网页、图像、视频等

16、半结构化、非结构化数据,后两类数据必须按照数据模型的要求,经过量化转换才能进入数据分析的环节。大数据分析和数理统计都围绕着量化后的数据展开,按照相应的分布规律或数据模型,以数为据,由量定性,力图精确展现研究对象的内在特征与发展规律,以优化和改进决策,这也是两者之间的一种内在联系。两者均与计算机技术紧密结合大数据因计算机和网络的普及而产生,并伴随着云计算、物联网的发展日渐成熟。要实现对大数据的分析,不仅需要支撑海量数据处理的计算平台,还要有专业的程序和算法,可以说大数据分析既要依靠计算机技术来实现,同时,又给计算机技术带来了许多新的挑战。近年来,围绕着大数据分析问题,在计算机领域形成了分布式存储

17、、并行计算、数据挖掘算法和数据可视化等研究热点,并产生了若干大数据计算平台和分析工具,其中以Hadoop和Hive的应用最为广泛。数理统计虽然先于计算机而产生,但早已走出了依靠手工计算进行分析的时代,并随着计算机技术的发展而发展。一方面,由于统计数据和统计方法具有很强的规范性,非常适合用计算机来进行快速处理和计算;另一方面,计算机技术能够通过严格的程序确保数据处理的准确性。因此,当计算机产生以后,就被迅速应用于数理统计之中,并实现了日趋紧密的结合。当前,以SAS、SPSS等为代表的数据管理软件,提供了丰富、完善的分析算法和交互式的操作过程,极大地提高了统计的效率。大数据分析与数理统计的主要区别

18、:从数理统计到大数据分析,不是一种简单的技术演进,大数据已超出了现有数理统计的处理能力,而大数据分析则颠覆了传统的数据处理模式,使数据思维和分析方法等都发生了革命性的变化。两者所依据的原理不同对于任意一种随机现象,如果能够进行充分的观察或实验,积累足够多的数据,那么一定可以清楚地发现和掌握其中的规律。但在过去很长的一段时间内,数据的稀缺性比较突出,数理统计只能依据随机变量的概率分布理论,特别是其中的大数定律、中心极限定理和抽样分布定理等,通过模型和假设来科学合理地推断总体。而在大数据时代,数据的获取能力大大提升,对于某些研究对象,可以进行详尽的观察和记录,从而获得海量的数据,甚至是全部数据,因

19、此,可以通过对数据的整合和理解,直接提炼其中所蕴含的规律。大数据分析不再需要作任何假设或判断,而是利用挖掘算法去自动寻找数据中隐藏的关系或规律,其原理就包含在所使用的算法之中。以对流感疫情的预测为例,在互联网普及之前,要根据数理统计的要求,通过对人群和医院的抽样调查来获得数据,然后根据其抽样分布和经验模型来进行预测。而谷歌公司则另辟蹊径,运用大数据分析的方法来展开预测。谷歌公司每天会执行超过数十亿次的搜索,从累积的搜索记录中筛选出了5000万条频繁集,然后与美国疾控中心公布的流感数据相对比,挖掘出了高度相关的45种搜索词组合,从而构建了流感预测的挖掘算法,并在2007-2008年,根据网民的搜

20、索记录进行准确的预测。由此可见,与数理统计相比,大数据分析不需要具备概率分布的先验知识,其限制条件更少,更为灵活高效。两者所处理的对象不同首先,从数据本身的特点来看,数理统计所涉及的数据量一般较小,且数据类型相对单一,属于普通数据。大数据则是与普通数据相对应的概念,具有容量大、种类多、生成速度快和价值密度低的“4V”特征,这标志着大数据完全不同于普通的数据形态,与普通数据有着本质的差别。其次,从分析对象所占的比例来看,数理统计的主要对象是样本,是从总体中抽取的部分数据。样本容量、抽样方法和数据的精确性是影响其质量的重要因素。由于样本的容量不可能太大,因此,一般通过科学的抽样方法来确保样本的代表

21、性,以提高有限数据条件下统计推断的质量。舍恩伯格在大数据时代中指出:“大数据指不用随机分析(抽样调查)这样的捷径,而采用所有数据的方法。”虽然大家对“所有数据”的表述存在一定的争议,但这已足以表明大数据分析与数理统计的处理对象截然不同,由样本转向了总体。此外,两者对数据的精确性也有着不同的要求。因为样本中的错误很容易在计算过程中被放大,所以数理统计特别强调数据的精确性,而对于大数据来说,数据量的增加有助于消除少量错误的影响,因此,降低了对个体精确性的要求。以国家统计局的农民工市民化统计为例,调查范围是按照一定方法抽取的4万多户进城农民工样本,由调查员直接入户面访,这就属于典型的抽样统计。而国家

22、统计局开展的利用百度搜索数据预测房地产价格的研究,则是试图利用搜索大数据来获取真实的房地产走势信息,并在北京地区的二手房价格预测中取得了很好的效果。 两者所应用的平台不同现在,虽然传统的数理统计也是借助计算机和网络来实现,并且可以处理来自多个数据源的数据,但一般是基于集中式的系统环境,其数据存储、计算主要利用关系型数据库,仍然属于集中式的计算环境。而对于大数据来说,所需要的计算资源已远远超出了集中式系统的性能,主要是通过分布式的云计算来完成。云计算是大数据处理的基础性技术,大数据分析的平台就是云计算平台,只有在云平台之上,依托分布式数据库和并行计算等技术,才能对大数据进行整合、管理和分析。大数

23、据与云计算可以说是同一枚硬币的正反两面,在实际应用中两者是密不可分的。例如,广泛应用的大数据处理平台Hadoop,就实现了分布式文件系统、并行计算框架等云计算技术。很多传统的数据统计软件也在向大数据分析领域演进,如有着近60年发展历史的SAS,也增加了基于Hadoop平台的大数据分析功能。两者所采用的方法不同:数理统计主要通过对样本数据进行分析,并将分析结果延伸至整体,从而得出一般结论,是一种以小见大、以简驭繁的推理方法。其整个过程可以归结为“假设采样验证”,即提出假设、随机抽样、问卷调查或实验、验证假设等步骤。其中对数据分布和变量间的关系作出假设以及对参数进行显著性检验是最具技术含量的内容。

24、大数据分析一般不作预先假定、不抽取样本、不注重精确、不追寻因果关系,而是直接进行开放式分析,通过搜索、聚类和分类、神经网络等算法,提炼其中的知识,形成对数据的理解。其过程可以归纳为“整合分析发现”,这与数理统计的方法是完全不同的。例如,对于商品销售类的大数据,可以通过关联关系的自动挖掘,在购买行为中找出更多的相关性,众所周知的沃尔玛从超市的购物清单中发掘出啤酒与尿布之间的相关性,便是关联规则挖掘的典型事例。对海量、杂乱的数据而言,大数据分析具有明显的应用优势。以神经网络分析技术为例,其中的隐蔽层就是一个“黑箱”,用户不必理解其中实际的自变量组合过程,而直接接受其结果。正确把握两者之间的关系大数据分析与数理统计虽然在产生的时间上有先后,但它们既不是简单的继承关系,也不是包含关系,在今后的发展中,两者将形成相互渗透、相互促进的关系。大数据分析离不开数理统计的支持“在大数据时代,统计学依然是数据分析的灵魂。”首先,现实问题总是具有超越已有技术的复杂性,大数据并不完全等同于全部数据,还不能全面、准确、真实地反映所有的事物。其次,即使获得了某一事物的所有数据,要挖掘出其中的信息也还存在一定的难度,还取决于数据挖掘的方法和手段。因此,需要将大数据分析与数理统计学相结合,利用数理统计思想优化后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论