版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 大数据背景下的抽样分析第二章 大数据背景下的抽样分析大数据时代是否需要抽样?数据越多信息越丰富,数据量尽多为好。大数据不是全样本,大数据也可能是有偏样本,怎么办?大数据分析和抽样并不矛盾。从效率和成本的角度考虑,适当和合理的抽样也是有必要的。就像两个极端,而我们总是要找到一个平衡点。“大样本=总体”的思想是错误的,理论上再大的局部抽样可能不如随机抽样有代表性。抽不抽样关键看你能不能实现全量运算或者接受实现它的代价。在分析阶段如果误差能够接受,占用空间小,速度快,完全可以抽样或近似。大数据时代是否需要抽样?数据越多信息越丰富,数据量尽多为好。本章的主要内容第1节 抽样调查的基础知识第2节
2、 数据集的相似性度量第3节 概率抽样第4节 非概率抽样第5节 大数据抽样第6节 抽样分析的综合应用本章的主要内容第1节 抽样调查的基础知识大数据抽样大数据抽样大数据时代是否需要抽样正方观点:大数据时代仍然需要抽样反方观点:大数据时代不需要抽样中立观点:大数据时代是否需要抽样应该达权通变大数据时代是否需要抽样正方观点:大数据时代仍然需要抽样本书观点由于受到计算资源和数据可获得性的限制,并非所有的研究都可以进行大数据分析,抽样调查仍是获取数据与分析数据的重要方式。使用大样本数据来代替总体还是使用抽样数据来推测总体特征取决于我们要解决的问题。以概括总体为目标,那么抽样往往是比较好的方式以每个个体特征
3、分析和应用为目的,这个时候使用大样本数据要好一些在计算资源允许的情况下,抽样算法可以节约成本本书观点由于受到计算资源和数据可获得性的限制,并非所有的研究第1节 抽样调查的基础知识第1节 抽样调查的基础知识抽样调查的分类概率抽样按一定的概率依据随机原则抽取样本每个单元被抽中的概率是已知的或是可以计算出来的利用样本对总体目标量进行估计时,要考虑到每个样本单元的入样概率非概率抽样抽取样本时不依据随机原则条件不允许进行严格的随机抽样或需要快速的获得调查结果时,往往采用非概率抽样存在选择偏差且没有抽样框, 样本信息一般无法直接用于估计总体的数量特征抽样调查的分类概率抽样按一定的概率依据随机原则抽取样本每
4、个单抽样调查的作用降低调查成本,节约调查费用。耗时较短,时效性强。可以承担全面调查无法胜任的调查项目。有助于提高调查数据的质量。抽样调查的作用降低调查成本,节约调查费用。第2节 数据集的相似性度量第2节 数据集的相似性度量相似性度量抽取的样本代表性越好,抽样数据与全部观测数据集的结构越相似,基于抽样数据分析的结果也越接近于基于全部观测数据分析的结果。样本质量和样本容量是衡量抽样样本代表性的两个重要标准。相似性度量抽取的样本代表性越好,抽样数据与全部观测数据集的结样本质量样本质量样本质量设S为按照特定的抽样方法从D中抽取的样本数据,其频率分布表为样本质量设S为按照特定的抽样方法从D中抽取的样本数
5、据,其频率那么,我们定义样本质量那么,我们定义样本质量关于样本质量关于样本质量样本容量样本容量指样本数据中包含的观测值个数平均意义而言,样本容量越大,其包含的整体数据信息就越多,样本质量也越高在高位的样本容量上,其边际效用往往较低,当样本容量增加到一定程度时,其带来的样本质量的增长较为有限达到一定样本质量要求最小样本容量,我们称之为在该精度要求下的最优样本容量获得最优样本容量的近似值样本容量样本容量指样本数据中包含的观测值个数样本容量对平均样本质量曲线假设整体数据集 D包含N个观测:样本容量对平均样本质量曲线假设整体数据集 D包含N个观测:案例:简单随机抽样和分层抽样样本质量比较简单随机抽样分
6、层抽样哪幅图样本质量随样本容量上升更快?两幅图共性有哪些?案例:简单随机抽样和分层抽样样本质量比较简单随机抽样分层抽样第3节 概率抽样第3节 概率抽样概率抽样基本概述抽样的目的:通过对样本统计量的描述,推断总体的特征。概率抽样主要基于以下两点: -按一定概率以随机原则抽取样本,换言之,保证每一个总体中的个体是否入选样本是独立随机事件 -每个个体被抽中的概率是已知且可以被计算的常用概率抽样: 简单随机抽样分层抽样整群抽样系统抽样不等概抽样多阶段抽样二重抽样概率抽样基本概述抽样的目的:通过对样本统计量的描述,推断总体简单随机抽样简单随机抽样简单随机抽样简单随机抽样分层抽样分层抽样分层抽样分层抽样分
7、层抽样分层抽样整群抽样整群抽样整群抽样整群抽样系统抽样定义: 设总体中N个单元按某种顺序排列,编号为1,2,.,N。抽样时首先抽取一个或一组起始单元的编号,然后按照某种和起始编号有关的规则确定其余入样单元编号,直到抽满n个为止。 常见的为等距系统抽样,即按照简单随机抽样方式抽取一个起始编号,固定间隔k抽取其余编号,抽满n个为止。估计量对于等距系统抽样系统抽样定义:系统抽样系统抽样多阶段抽样多阶段抽样是指分多个阶段抽取到最终的样本。首先将总体分为若干个初级单元(PSU),再在抽取的初级单元中抽取若干个二级单元(SSU),以此类推。每一阶段都可以采用不同的抽样方法。整群抽样和系统抽样都可以看成多阶
8、段抽样的特例。估计量初级单元规模相等:总体均值的估计初级单元规模不等简单估计比率估计多阶段抽样多阶段抽样是指分多个阶段抽取到最终的样本。首先将总不等概率抽样当总体单元差异较大时,可以赋予每个单元与其规模或辅助变量成比例的入样概率,在估计时采用权数来进行弥补。这种抽样方法称为不等概率抽样。PPS抽样:放回的与规模大小成比例的概率抽样总体均值估计量:PS抽样:不放回的与规模大小成比例的概率抽样总体均值估计量不等概率抽样当总体单元差异较大时,可以赋予每个单元与其规模或二重抽样二重抽样二重抽样二重抽样案例分析R语言base包中自带的函数sample只能解决简单随机抽样的问题安装加载sampling包,
9、其中的函数可以解决绝大多数概率抽样的问题,包括不同抽样方法和估计量:help(package=sampling)案例分析R语言base包中自带的函数sample只能解决简单R语言与概率抽样sampling包的简单操作简单随机抽样 -srswor -srswrsrswor为不放回抽样,放回的简单随机抽样函数为srswr,但不加说明的情况下,简单随机抽样指不放回的抽样,例如:srsp=srswor(n,N) #简单随机抽样 srs=getdata(wind,srsp) #得到样本另外,srswor1是sampling包中提供的另外一种不放回抽样的方法,使用选择排除(selection-reject
10、ion)的算法实现不放回抽样,被一些学者认为是实现不放回抽样的最佳算法。二重抽样即把简单抽样运用两遍,以获取分层信息或比率信息,很容易理解注意:n指定样本容量,N指定总体getdata函数是一个索引的封装函数,可以直接得到样本,左边是wind数据集的样本R语言与概率抽样sampling包的简单操作简单随机抽样R语言与概率抽样sampling包的简单操作分层抽样 -stratasrp=strata(data=windo,stratanames=year,size=wh,method=srswor) #分层抽样以上代码是一个分层抽样的具体stratanames是用于分层的变量,为类别变量size是
11、每层的权重method是层内抽样的方法关键点:构建层的抽样框,即确定分层变量抽取的顺序,数据须以分层变量升序排列,保证,分层变量与每层的相应权重对应。上面的例子,层的抽样框构建如下:R语言与概率抽样sampling包的简单操作分层抽样分层抽样attach(wind)for(i in 1:N) if (windi,2201000 & windi,2201100 & windi,2201200 & windi,2201300 & windi,2201400 & windi,2201500 & windi,2eps,pik1-eps。i=rep(1,N)pik1=inclusionprobabili
12、ties(i,n) #采用等概率的系统抽样,共抽取n个样本点ssp=UPsystematic(pik1,eps=1e-6) #系统抽样的函数ss=getdata(wind,ssp) #入选样本R语言与概率抽样sampling包的简单操作系统抽样i=inclusion probability抽样问题关键inclusion probability抽样问题关键R语言与概率抽样sampling包的简单操作R语言与概率抽样sampling包的简单操作R语言与概率抽样sampling包的简单操作R语言与概率抽样sampling包的简单操作第4节 非概率抽样简单高效快捷的抽样方法,不需要完整的抽样框使用非概
13、率抽样从总体中抽选单元可能会导致较大的偏差在社会调查中经常使用以代替概率抽样,降低抽样的成本第4节 非概率抽样简单高效快捷的抽样方法,不需要完整的抽样框便利抽样优点是操作简单,可及时获得调查者所需要的信息,进而降低调查成本。最主要的局限性体现在样本信息无法说明总体的状况,无法通过获取的样本信息对总体进行数量特征的推断,因而便利抽样获得的样本不适合描述性研究和因果关系研究。“拦截式”滚雪球抽样即是在调查某一特定的总体时,先找到该总体的若干个体,再通过这些个体去识别其他的符合要求的个体,然后再请新找到的个体去识别更多的个体,以此类推,直至获得足够的样本量。针对特殊稀有总体调查的初期能帮助掌握稀有总
14、体信息,如果总体较小,则抽样易达到饱和。便利抽样优点是操作简单,可及时获得调查者所需要的信息,进而降判断抽样判断抽样是指在抽取样本时,调查者根据调查目的,以及对调查对象情况的了解,人为地确定样本单元。通常有以下三种情况:选择“平均型”的样本单元,即选出的样本可以代表要调查的变量的平均水平,因而有助于了解总体的平均水平所处的大致位置;选择“众数型”的样本单元,选定的样本单元能够代表大多数样本单元的情况;选择“特殊型”的样本单元,调查者根据主观判断选出具有某种特性的单元,如选择很好或者很差的典型单元作为样本,分析造成这种异常的原因。判断抽样简便易行,操作成本较低,方便快捷,但是该抽样方法受调查人员
15、的主观影响,一旦调查者主观判断产生偏差,极易引起抽样偏差,同时对利用判断抽样所的样本的调查结果不能直接用于总体推断。判断抽样判断抽样是指在抽取样本时,调查者根据调查目的,以及对配额抽样配额抽样又称定额抽样,是将总体中的各单元按照一定的标准划分为若干类型,将样本数额分配到各个类型中。从各类型抽取样本的方法没有严格的限制,一般采用便利抽样的方法在各个类型中抽取样本单元,最终得到所需样本。划分总体的类型所依据的属性、特征被称为“控制特征”独立配额抽样交叉控制配额抽样思考:配额抽样和分层抽样本质的区别是什么?分层抽样是根据概率知识,客观地,等概率地在各层进行抽样,其目的是提高同层之间的同质性,层间的异
16、质性;配额抽样是样本和总体表面上的结构比例一致,是按事先规定的条件,主管有目的地寻找样本配额抽样配额抽样又称定额抽样,是将总体中的各单元按照一定的标第5节 大数据抽样当你有足够的数据时,是不是就不需要抽样了呢?毕竟有抽样就意味着有抽样误差,若是没有了抽样,整个统计学的次序将被改写。第5节 大数据抽样当你有足够的数据时,是不是就不需要抽样大数据抽样大数据“是指利用常用软件工具捕获、管理和处理数据所耗费时间超过可容忍时间的数据集”4V特征数量(Volume)多样性(Variety)速度(Velocity)真实性(Veracity)大数据抽样大数据大数据时代是否需要抽样正方观点:大数据时代仍然需要抽
17、样反方观点:大数据时代不需要抽样中立观点:大数据时代是否需要抽样应该达权通变 所以,你的观点是?思考的方向:计算资源和数据可获得性的限制是否抽样取决于我们要解决的问题考虑处理数据的成本大数据时代是否需要抽样正方观点:大数据时代仍然需要抽样大数据抽样应用案例(一)流数据分析(二)网络流量测量(三)不均衡样本分类问题(四)基于抽样的海量数据挖掘大数据抽样应用案例(一)流数据分析大数据抽样应用举例流数据分析流数据特点数据实时到达数据到达次序独立,不受应用系统所控制数据规模巨大且不能预知其最大值数据一经处理后存储,一般不能修改,或者是数据修改再存储的代价巨大几种流数据抽样方法水库抽样精确抽样计数抽样大
18、数据抽样应用举例流数据分析网络流量测量抽样为了解决高速网络被动测量问题,将抽样技术应用于高速网络流量测量,可在满足问题统计精度的条件下,减少用于测量、存储和处理的数据量抽样采集使得系统的处理负荷大为减轻,具备较好的可扩展性,而且还能从样本特征参数反映出原始流量特征参数,具有一定的测量精度抽样技术除了可以对流量特征进行分析外,还在流量计费、性能特征测量、异常检测等领域广泛应用从分组和流的层次,抽样方法主要分为分组抽样和流抽样。网络流量测量抽样为了解决高速网络被动测量问题,将抽样技术应用网络流量测量抽样分组抽样是指对构成网络流量的分组进行抽样,每个分组都是独立的,不考虑分组之间的相关性。常用的分组
19、抽样方法包括系统抽样、简单随机抽样和分层随机抽样。流抽样是指在测量时间内对网络流进行抽样,构成网络流量的分组并不是孤立的,它们是为了完成具体的应用而产生的,它们之间存在着一定的关联,流是体现这种关联的一种方式。网络流量测量抽样分组抽样是指对构成网络流量的分组进行抽样,每抽样与分类器算法不均衡样本分类问题 分类问题是数据挖掘领域主要任务之一,也是机器学习领域重要的研究方向。分类算法从训练集中学习得到分类函数,利用该函数预测未知样本的类别。一般的分类算法都是以数据类分布大致平衡为前提的,但是在实际应用中有很多问题都是不平衡分类问题,采用传统的分类方法,难以得到满意的分类效果。从训练集入手or从算法
20、入手?训练集重抽样 重采样方法是通过增加稀有类训练样本数的上采样(up-sampling)和减少大类样本数的下采样(down-sampling)使不平衡的样本分布变得比较平衡 ,从而提高分类器对稀有类的识别率。 包括随机向上采样、随机向下采样、SMOTE、BalanceCascade 算法、基于聚合的采样方法等多种方法抽样与分类器算法不均衡样本分类问题基于抽样的海量数据挖掘困难与挑战大数据的背景分布缺乏先验信息就资料收集目的而言,大数据收集的目的也是不同的,其收集过程和目的并非统计分析的目的数据的“稀疏性”均匀抽样的思路 李 毅、米子川提出均匀抽样在大数据挖掘中应用的基本策略,即通过均匀设计的基本原理进行均匀
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年二手房交易中介委托合同书样本版
- 2024台州建设工程施工合同
- 2024年度医疗废物处理系统建设项目合同2篇
- 2024年工程国际贸易与出口协议
- 2024年度健身服务合同:健身俱乐部与会员2篇
- 2024医疗服务合同书范本
- 第五周国旗下讲话
- 2024年工程造价咨询标准化服务框架协议
- 2024年常用水暖配件销售协议样本版B版
- 2024年度人力资源服务合同:企业人才招聘与培训
- 中西文化差异与比较课件
- 国企职业调动申请书
- 蛋白琥珀酸铁口服溶液的执行标准
- 《燃气输配》课程标准
- 7.4.1 机器人喷涂工作站仿真(例7-4)
- 2.7思想道德与法治
- 《馆藏油画文物病害分类与图示》
- 脑瘫送教上门教案20次
- 医学三基考核-护理学(人卫版)考试题库附答案
- 德育(第二版第一册)道德法律与人生中职PPT完整全套教学课件
- 04.第四讲 坚持以人民为中心
评论
0/150
提交评论