2022年中级经济师考试知识点大全(第23章)_第1页
2022年中级经济师考试知识点大全(第23章)_第2页
2022年中级经济师考试知识点大全(第23章)_第3页
2022年中级经济师考试知识点大全(第23章)_第4页
2022年中级经济师考试知识点大全(第23章)_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二十三章统计与数据科学1、统计学:就是一门关于数据的学科,它提供了一系列用于收集、处理、分析和解释数据的方法。例如,根据人口普查数据和现人口抽样调查数据推算我国总人口,根据电脑寿命的实验数据确定产品免费保修期的长短等,都是统计学的范畴。概括来讲,统计学是关于收集、整理、分析数据和从数据中得出结论的科学。2、统计学的两个分支:描述统计和推断统计。描述统计与推断统计可以一起发挥作用,具体使用哪种方法取决于要解决的问题。3、描述统计:是研究数据收集、整理和描述的统计学方法。4、描述统计的内容:(1)如何取得所需要的数据;(2)如何用图表或数学方法对数据进行整理和展示;(3)如何描述数据的一般性特征。例如,要了解一个班级统计学的考试情况:可以先收集本班每个学生的考试分数,然后分组整理、可以用图表展示,也可以用文字描述本班考试成绩优秀、良好、及格,不及格的情况。5、推断统计:是研究如何利用样本数据来推断总体特征的统计学方法。6、推断统计的内容:(1)参数估计—利用样本信息推断总体特征;比如,根据我国现人口抽样调查数据推算总人口规模。(2)假设检验——利用样本信息判断对总体的假设是否成立。例如,某公司要测评客户满意度,可以从本公司全部客户中随机抽取一部分客户作为样本进行调查,得到样本客户的满意度、忠诚度等信息数据资料,然后,对公司顾客的总体满意度情况进行估计,这需要用到参数估计的方法。然后,验证满意度高的客户更倾向于成为忠诚客户,这需要用到假设检验。7、变量:是研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,而变量可以有两个或更多个可能的取值。研究对象从不同的角度考察,可以有许多不同的属性或特征,也就有许多变量。比如,研究某个企业,可以研究其销售额、注册员工数量、员工受教育水平、所属行业等。8、变量的种类:(1)当变量的取值是数量时,该变量被称为定量变量或数量变量。例如,企业销售额、注册员工数量等。(2)当变量的取值表现为类别时,该变量被称为分类变量。例如,企业所属行业,性别等。(3)当变量的取值表现为类别且有一定顺序时被称为顺序变量。例如,员工受教育水平等。【特别注意】分类变量和顺序变量统称为定性变量。9、数据:是对变量进行测量、观测的结果。数据根据需要可以是数值、文字或者图像等形式。10、数据的种类:(1)数值型数据是对定量变量的观测结果,其取值表现为具体的表示大小或多少数值。数值型数据则可以进行数学运算,比如计算均值和方差等统计量。(2)分类数据是对分类变量的观测结果,表现为类别,一般用文字来表述,也可用数值代码表示。比如用1表示“男性”,用2表示“女性”.对分类数据可以计算出各类别的频数,但对其进行加、减、乘或除等数学运算是没有意义的。(3)顺序数据是对顺序变量的观测结果,也表现为类别,一般用文字表述,也可用数值代码表示。比如用1表示“硕士及以上”,用2表示“本科”,用3表示“大专及以下”。对不同类型的数据,可采用不同的统计方法来处理和分析。11、数据来源分类(按收集方法):可以分为观测数据和实验数据。(1)观测数据。通过直接调查或测量而收集到的数据,称为观测数据。观测数据是在没有对事物施加任何人为控制因素的条件下得到的,几乎所有与社会经济现象有关的统计数据都是观测数据,如GDP、CPI、房价等。(2)实验数据。通过在实验中控制实验对象以及其所处的实验环境收集到的数据,称为实验数据。自然科学领域的数据大多都是实验数据。如,一种新产品使用寿命的数据;一种新药疗效的数据。

12、数据来源分类(按使用者的角度看):(1)直接的调查和科学实验,对使用者来说,这是数据的直接来源,称为直接数据或一手数据;一手数据的来源主要有两个:①调查或观察;②实验。在社会经济领域,统计调查是获得数据的主要方法,也是获得一手数据的重要方式。(2)别人的调查或实验的数据,对使用者来说,这是数据的间接来源,称为间接数据或二手数据。13、统计调查:按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地搜集数据信息资料的过程。调查过程有两个重要特征:(1)调查是一种有计划、有方法、有程序的活动。(2)调查的结果表现为搜集到的数据。14、统计调查的分类(按调查对象的范围不同):分为全面调查和非全面调查。【特别注意】我国经济普查的对象是中华人民共和国境内从事第二、第三产业活动的全部法人单位、产业活动单位和个体经营户。全面调查由于调查的单位多、组织工作量大,往往需要耗费大量的人力和财力。因此,在不影响统计研究目的实现的条件下,常常采用非全面调查。(1)全面调查:对构成调查对象的所有单位进行逐一的、无一遗漏的调查。全面统计报表和普查。(2)非全面调查:对调查对象中的一部分单位进行调查。比如,抽一部分产品质量检查。非全面统计报表、抽样调查、重点调查和典型调查。15、统计调查的分类(按调查登记的时间是否连续):分为连续调查和不连续调查。(1)连续调查:是为了观察总体现象在一定眇期内(通常是一年内)的数量变化,目的是了解现象在一段时期的总量。如:工厂的产品生产,原材料的投入、能源的消耗、人口的出生、死亡等,必须在调查期内连续登记,然后再进行加总。连续调查的资料可以说明现象的发展过程。(2)不连续调查:是间隔一个相当长的时间(通常是一年以上)所作的调查,一般是为了对总体现象在一定时点上的状态进行研究。如:生产设备拥有量、耕地面积等,短期内变化不大,不需要连续登记,通常是隔一段时间登记其某时刻或某一天的数量。16、统计调查的方式:在我国,常用的统计调查方式有统计报表、督查、抽样调查、重点调查和典型调查。17、统计报表:是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。18、统计报表种类:(1)按调查对象范围的不同,分为全面统计报表和非全面统计报表。目前的大多数统计报表都是全面统计报表。(2)按报送周期长短不同,分为日报、月报、季报、年报等。(3)按报表内容和实施范围不同,分为国家的、部门的、地方的统计报表。19、普查:是为某一特定目的而专门组织的一次性全面调查。普查是适合特定目的、特定对象的一种调查方式,主要用于了解处于某一时点状态上的社会经济现象的基本全貌,为国家制定有关政策提供依据。世界各国一般都定期进行各种普查,以便掌握有关国情国力的基本统计数据。20、普查的特点:(1)普查通常是一次性的或周期性的。普查涉及面广、调查单位多,需要耗费大量的人力、物力和财力,通常需要间隔较长的时间。一般每隔10年或5年进行一次。①经济普查(标准时间第四次是1月1日0时),年份尾数逢38,每10年两次。②农业普查(标准时间1月1日0时),年份尾数逢6,每1。年一次。③人口普查(标准时间前4次是7月1日0时;第5、6、7次是11月1日0时),年份尾数逢0,每10年一次。(2)普查一般需要规定统一的标准调查时间(选择调查对象比较集中、相对变动较小的时间),以避免调查数据的重复或遗漏,保证普查结果的准确性。(3)普查的数据一般比较准确,规范化程度较氤可以为抽样调查或其他调查提供基本依据。(4)普查的使用范围比较窄。只能调查一些最基本及特定的

现象。21、抽样调查:是从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。抽样调查是应用最广泛的一种调查方式和方法。22、抽样调查的特点:(1)经济性。经济性是抽样调查的一个最显著优点。抽样调查的工作量小,可以节省大量的人力、物力、财力和时间。(2)时效性强。抽样调查可以迅速、及时的获得所需要的信息,可以频繁地进行,随着事物的发生和发展及时取得有关信息,以弥补普查等全面调查的不足。(3)适应面广。适用于对各个领域、各种问题的调查。可用于调查全面调查能够调查的现象,也能调查全面调查所不能调查的现象,特别适合对一些特殊现象的调查,如:产品质量检验、农产品试验、医药的临床实验等。从调查的项目和指标来看,抽样调查的内容和指标可以更详细、深入,能获得更全面、更广泛和更深入的数据。(4)准确性高。抽样调查的数据质量有时比全面调查(全面调查登记性误差往往很大)更高。23、重点调查:是在所要调查的总体中选择一部分重点单位进行的调查,是一种非全面调查。所选择的重点单位虽然只是全部单位中的一部分,但就调查的标志值来说在总体中占绝大比重,调查这一部分单位的情况,能够大致反映被调查对象的基本情况。24、重点调查的特点:(1)适用范围很广。当调查目的只要求了解基本状况和发展趋势,不要求掌握全面数据,而调查少数重点单位就能满足需要时,采用重点调查比较适宜。如:①为了及时了解全国城市零售物价的变动趋势,对全国的35个大中型城市的零售物价的变化进行调查就是重点调查。②要及时了解全国工业企业的增加值和资产总额情况,只需对全国大中型工业企业进行重点调查即可。(2)能以较少的投入、较快的速度取得某些现象主要标志的基本情况或变动趋势。我国有一些重点调查已列入定期报表制度,以便及时取得必要的资料。如,国家统计局的全国5000家工业企业联网直报制度。25、典型调查:是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查,是一种非全面调查。(1)作用:①弥补全面调查的不足。②在一定条件下可以验证全面调查数据的真实性。(2)优点:典型调查与其他调查方法比较,具有灵活机动、通过少数典型单位即可取得深入翔实的统计资料的优点。(3)局限性:典型调查在很大程度上受到人们主观认识的影响。如果调查者对情况相当熟悉,研究问题的态度比较客观,深入调查研究的作风比较好,便可以使典型调查运用得当,取得好的效果;反之,可能会产生较大偏差。典型调查必须同其他调查结合起来使用,才能避免出现片面性。适用在统计活动中运用典型调查的方法,一般来说主要不在于反映现象的总体数量特征,而在于了解与统计数字有关的生动的具体情况,即与现象数量有关的社会条件及其相互联系,以便进行深入的统计分析,做到定性分析与定量分析相结合。26、数据科学:这个词已有60年历史,最早由丹麦的计算机科学领域先驱彼得•诺尔提出,但是这门学科是新兴的、亟待探索的学科。数据科学(datascience)是一门通过系统性研究获取与数据相关的知识体系的学科。数据科学一方面研究数据本身的特性和变化规律,另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而揭示自然界和人类行为的现象和规律。27、数据科学的研究对象、目标和范围:数据科学研究的是从“数据"整合成“信息”进而组织成“知识”的整个过程,包含对数据进行采集、存储、处理、分析、表现等一系列活动。(1)数据科学的研究对象是数据。(2)数据科学的研究目标是获得洞察力和理解力,通过对数据的分析,来解释、预测、洞见和决策,为现实世界服务。(3)数据科学涉及的范围非常广泛,例如统计学、机器学习、计算机科学、可视化、人工智能、领域知识等。28、大数据(bigdata):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要

新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。29、大数据具有“4V”特性:数据量大(Volume);数据多样性(Variety);价值密度低(Value);数据的产生和处理速度快(Velocity)。30、数据量大(Volume):大数据的起始计量单位是PB(1024TB)、EB(1024PB,约100万TB)或理(1024EB,约10亿TB),未来甚至会达到YB(1024ZB)或BB(1024YB)。31、数据多样性(Variety):大数据类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据。(1)结构化数据,是指存储在数据库里,可以用二维表结构实现表达的数据;⑵韭结构化数据二是指数据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、图片、报表、图像、音频、视频等;(3)半结构化数据,是介于完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性,例如员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、户籍、出入境情况等很多信息。32、价值密度低(Value):大数据价值密度的高低与数据总量的大小成反比。以视频为例,在连续不间断的监控中,有用数据可能仅有一两秒。原始零散、复杂多样,甚至可能有数据噪声和污染的数据需要经历价值“提纯”,才能得出信息、获取知识。33、数据的产生和处理速度快(Velocity):大数据的智能化和实时性要求越来越高,对处理速度也有极严格的要求,一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值,即大数据的处理要符合“1秒定律”。34、数据挖掘(datamining):就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。该定义包含以下几层含义:(1)数据源必须是真实的、大量的、有噪声的;(2)发现的是用户感兴趣的知识:(3)发现的知识是可接受、可理解、可运用的;(4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。35、数据挖掘的分类:数据挖掘以解决实际问题为出发点,核心任务是对数据关系和特征进行探索。一般而言,数据挖掘可以分为两类:一类是有指导学习或监督学习,另一类是无指导学习或非监督学习。(1)监督学习是对目标需求的概念进行学习和建模,通过探索数据和建立模型来实现从观察变量到目标需求的有效解释。⑵无监督学习没有明确的标识变量来表达目标概念,主要任务是探索数据之间的内在联系和结构。36、数据挖掘的算法:在大数据时代,要从海量、多样、价值密度低的大数据中快速发现隐含在其中的有价值的信息和知识,数据挖掘的算法研究至关重要。数据挖掘融合了多学科领域的知识,常用的算法有分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析等。37、分类:(1)分类就是确定目标对象属于哪个预定的类别,以实现对未来潜在的预测需求。例如,在邮件系统中区分出垃圾邮件,在贷款客户中判断出有风险客户等。(2)分类技术是一种监督学习,即使用已知类别的训练数据建立分类模型的方法。(3)常用的分类技术包括:决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等。38、聚类分析:(1)聚类分析就是把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽量大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低。(2)聚类分析常用于客户细分、文本归类、结构分组、行为跟踪等问题。与分类方法不同,聚类要划分的类是未知的,聚类分析是根据观察学习来确定数据之间的关系,因此是一种无监督学习。(3)常用的聚类方法包括:基于划分的方法(例如k均值聚类算法)、基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法。39、关联分析:发现哪些事情总是一起发生。(1)关联分析就是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现。(2)一个典型的例子就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论