版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
马昕经济学教研室电话:Email:应用统计学教学目的:信息时代是数据时代。决策已从过去以经验为主转变到科学决策。如何从大量数据中发现尽可能多的有用信息,从而把握事物特征,为科学决策提供依据,这是本课程要解决的问题。本课程是在学生掌握统计分析的基本知识和技能之后,以进一步深化学生的量化分析能力为宗旨、以多元统计为中心的一门应用性课程。课程内容:第一章绪论第二章向量、矩阵与多维正态分布第三章方差分析第四章回归分析第五章聚类分析第六章判别分析第七章主成分分析第八章因子分析第九章对应分析第十章结构方程模型教材:Jams
M
Lattin等著,《多元数据分析》(英文版),机械工业出版社参考书何晓群《多元统计分析》,中国人民大学出版社,2004王学民《应用多元分析》,上海财经大学出版社理查德·约翰逊《实用多元统计分析》,清华大学出版社,2008(英文版)考核方法:作业:30分期末考试(开卷):70分教学资源位于:(key:ncepuedu2013)课件课件例题数据2套模拟题第一章 绪论多元数据分析的必要性多元数据分析方法概论多元数据的描述统计基本知识回顾一、多元数据分析的必要性数据分析从大量数据中发现尽可能多的有用信息,从而把握事物特征的过程事物特征的描述:变量/指标每个变量/指标数据:反映事物某一方面的特征一般来说事物通常具有多面性,即有多方面特征例:学生的能力、物种、国家经济实力、企业竞争力仅从一个方面往往不足以反映事物特性或个体之间的差异必须全面考虑事物的各个方面,才能对其正确认识。统计学:单变量/双变量分析描述统计集中趋势离散趋势变量分布异常点推断统计:从样本统计量推断总体参数参数估计:样本均值估计总体均值,假设检验:总体均值或方差的检验,两总体均值/方差相等的检验相关分析:两个随机变量间的(线性)相关程度回归分析:一个随机变量和一组随机变量间的依存关系Simpson’s
ParadoxExample:44%
of
maleapplicants
are
admittedby
auniversity,
butonly33%
of
female
applicantsDoes
this
mean
there
isunfairdiscrimination?University
investigatesand
breaks
down
figuresfor
EngineeringandEnglish
programmesMaleFemaleAccept3520Refuseentry4540Total8060为什么需要多元数据-续两变量分析有时会得到虚假结果Simpson’s
ParadoxNo
relationship
betweensex
and
acceptance
foreither
programmeSo
no
evidence
ofdiscriminationWhy?More
females
apply
for
theEnglish
programme,
but
itit
hard
to
get
intoMore
males
applied
toEngineering,
which
has
ahigher
acceptance
ratethan
EnglishMust
look
deeper
thansingle
cross-tab
to
findthis
outEngineeringMaleFemaleAccept3010Refuseentry3010Total6020EnglishMaleFemaleAccept510Refuseentry1530Total2040两变量分析有时会得到虚假结果Simpson’s
ParadoxIn
this
example,
the
bivariate
analysis(cross-tabulation
or
correlation)gavemisleading
resultsIntroducing
another
variable
gave
abetterunderstanding
of
the
dataIt
even
reversed
the
initialconclusions性别录取率专业?二、多元数据分析过程及方法反映对象行为的、可被观测的所有特征面精选特征面子集行为数据测量模型模式多元分析方法行为—数据—结构定比数据筛选变量/指标citycode
agri
mining
constru
manufdumanundur
transp
commAL
2016
1474
4144
10397
11734
2878
283AK
355
5424
983
277
884
2921
48AZ
1899
1480
6442
12844
3299
3177
242AR
2886
570
2240
7242
6656
2470
133CA
20564
5776
31656
86522
47657
25133
2450CO
2053
1936
6219
8939
5286
3796
659CT
893
52
4055
13616
7096
2193
282DE
290
6
970
1283
4710
462
37FL
6520
787
17031
16523
12763
11193
1093GA
3801
906
8356
15957
23123
8565
972HI
445
28
1753
273
851
1617
112u
eletr
wholesal3587
6259360
7103046
69972361
346917501
658572565
73552681
8229668
112410170
264175881
18940992
1446realestaservicegovern12694159961539525842871472821120225461450564538344666421843922274811090019815251611523135041270291112610026404226737869584406446963551538919270197768807777520000200051r0
t0
e00
l1
e000500
0
00
00
00
55
200057rudfunam6912
1
5
4
9
30
4
retail9781
157611743
5729
85443112749211169840362193334192
MANUFDURSERVICEELETRSome
Common
Patterns
in
Point
Cloudsplanesfilamentsclustersoutliers00MRUN21060
504.0
4.520304040R800M30
202.5
3.0
3.5R1500M102.00Data
Analysis:Finding
andInterpreting
such
Patterns多元数据分析方法概述多元分析的目的:探索数据的模式(结构)多元数据分析的难点:维度太多使我们难以发现规律、把握重点多元分析方法的核心:概要和简化工具:矩阵代数、统计软件(SAS,SPSS,Stata等)具体方法聚类分析:按距离远近分类判别分析:给定样本定类——亲疏判别主成分分析、因子分析、对应分析:找出主要因素,化简数据方差分析多元回归分析结构方程模型GroupingDiscriminatingPrinciple
Component,Factoring,CorrespondenceInferring推断exploring探索数据模式Structural
Equation
Model课程重点强调方法的应用而非理论推导强调方法的内涵与几何解释强调SPSS软件的应用和结果的解释牢记:–从数据中获取信息没有确定的方法–具体问题具体分析:把握机理三、多元数据的描述数据的计量尺度(measurement
scale):告诉我们从数据中可获得哪些信息。品质数据:计算无意义某种特征归类定类尺度:按穷尽和互斥原则将对象通常用虚拟变量表示:定序尺度别的测度男性0,女性性别:x
=1,、四季度季度变量:变量名一、二、三D1
D2
D3一季度100二季度010三季度001四季度000对象特征等级或顺序差偏好程度
x非常喜欢
5很喜欢
4一般
3不喜欢
2很不喜欢
1三、多元数据的描述数值数据定距尺度:测度对象特征的间距,不能做绝对比较。定比尺度:即可测度间距,又可做绝对比较。数值数据的矩阵表示:样本数n,变量数pxnpxn1
xn2
xn3123n1
2
3
px11
x12
x13
x1
px21
x22
x23
x2
px31
x32
x33
x3
p数据的矩阵描述xnpxx
x
x=
Xn·
pxn1
xn
2
xn3123n1
2
3
px11
x12
x13
x1
px21
x22
x23
x2
p31
32
33
3
p
(n)
(2)(1)
n·pX'X'X'X
=
(X1
,
X2
,,
Xp
)
=注:若无特别说明,向量均指列向量四、统计基本知识回顾:单变量分析描述统计参数估计假设检验1.
描述统计描述数据的集中趋势均值中位数众数描述数据的离散趋势极差方差、标准差变异系数异常点均值的代表性目的:描述数据分布与正态分布的可能偏离正态分布具有许多有利于统计的特性一般独立随机事件的分布都服从正态分布
人的身高,产品质量偏度:用来度量对称性的指标峰度:刻画一个分布陡峭或平缓程度的指标正态右偏左偏正态比正态更陡比正态平缓分布的偏度与峰度标准化变量对于任意变量x,将观测值转换成相应Z值的过程称为将该变量标准化,所得到的变量Z称为标准化变量。Z
=
x
-
xs相对度量例:地区供电局数据x
-x
:中心化变量2、参数估计基本概念总体样本变量观测值华北电大的所有学生华北电大的所有学生中所有抽取的100名学生基本概念(续)参数统计量精确度准确度偏误标准差:小标准误:小标准差:大标准误:小标准误差standarderror标准差standarddeviation抽样推断:从样本统计量推断总体参数参数估计:在未知总体参数的情况下,利用样本统计量来估计总体参数的方法。参数点估计参数区间估计假设检验:先对总体参数作一个假设,然后通过搜集样本数据,用样本统计量判断对总体参数的假设是否成立参数估计:总体参数的点估计入将某次抽样的样本观测值,代即得该估计量的一个点估计值。qˆ
=
qˆ(x1
,
x2
,,
xn
)假设在总体X中,
θ为未知参数(均值、方差、成数等)。由样本(x1、x2…xn
)构造统计量
qˆ
=qˆ(
X1,
X
2
,,
Xn
)来估计未知参数θ,称
qˆ
为θ的点估计量。方法矩估计法极大似然估计法最小二乘法X
x,
s
s,
P
p为,设q
待估计的总体参数qˆ为样本统计量,则qˆ的优良标准为:点估计量的优良性标准指样本统计量抽样分布的平均值等于被估计的总体指标无偏性1E(qˆ
)
=
qˆE(q2
)
„
qˆq12qˆq即E(qˆ)=q,则称qˆ为q的无偏估计量偏估计量,有效性若为比更有效的估计量2q1ˆ
ˆq21ˆ
,则称ˆqqs
<
s1
2设
qˆ
和
qˆ
是总体指标q的两个无1qˆ2qˆ如果随着样本容量n的增大,样本估计量在概率意义下越来越接近于一致性一致性是对一个估计量的最起码要求。“如果你在n趋于无穷大时还不能正确地得到它,那你就不应该做这件事”——葛兰杰qqˆ总体真实值,则称该估计量是待估参数的一致估计量。n3n1n2n1<n2<n3置信度(1-a)反映了估计的可靠程度。根据样本指标和抽样极限误差可以得到满足一定置信度的总体指标的可能范围定义设总体参数为q,qL、qU为由样本确定的两个统计量,对于给定的a(0<a<1),有
P(qL≤q≤qU)=1-a,则称(qL,qU)为参数q的置信度为1-a的置信区间参数估计:参数的区间估计可靠度精确度为什么要做区间估计?例:20个妇女的体重资料如表,平均体重:123.6pound,标准差:15.5任意抽出一个妇女,试猜测其体重,猜对赢50元,猜错输50元如何猜?输赢概率如何?猜均值上下一个标准差:赢的概率?输的概率猜均值上下两个标准差:输赢概率?nsa
2x
–
znsa
2x
–
ta
2S(或s
)nx
–
z目的
前提条件1-a
置信度的置信区间估计总体均值正态总体方差已知估计总体均值正态总体方差未知(小样本)估计总体均值置信区间估计方法一览表总体分布知,正态总体方差未知(大样本)区间估计原理区间估计原理••••0.6827为68.27%范围内的概率xX
落在x
–mX样本抽样分布曲线原总体分布曲线置信度1-a=0.6827mx:样本均值分布的标准误差区间估计原理区间估计原理•••范围内的概率为95.45%xX
落在x
–2mX•样本抽样分布曲线原总体分布曲线置信度1-a=0.9545
0.9545例某保险公司从投保人中随机抽取36人,计算出此36人平均年龄为39.5岁,已知投保人年龄近似正态分布,标准差7.2岁,试以99%的可靠度求所有投保人平均年龄的置信区间。如果将可靠度降低到95%的水平呢?解:求所有投保人平均年龄的置信区间。现有一个点估计量x
=
39.5在点估计量基础上,构造投保人平均年龄的置信区间x
-
Dx<
X
<
x
+
Dx关键是置信区间的宽度是多少。置信区间宽度取决于置信度和抽样平均误差:x=
s
=
7.2
=1.2n
36抽样平均误差mDx
=
Za
mx2据置信度
Za
=
2.58查表得到
2mx
=
2.58·1.2
=
3.1D
x
=
Za2∴在99%的置信度下,投保人年龄总体均值的置信区间为:(39.5-3.1,
39.5+3.1)→36.4<m<42.6置信度95%,Za/2=1.96,根D=1.96*1.2=2.35,置信区间(37.2,41.9)3、假设检验采用逻辑上的反证法——先认为假设为真,观察在此前提下所抽到样本的出现是否合理。若合理则判断假设可接受,反之拒绝假设。判断是否合理的依据统计上的小概率原理(即这里的反证法是基于一定概率的反证法)。假设检验的步骤提出原假设和备择假设:收集样本数据,确定适当的检验统计量及t
=
x
-
m
~
t(n
-1)s
n其分布
x-
mt
=
~
t(n
-1)s
n规定显著性水平a,确定拒绝域和接受域计算检验统计量的值作出统计决策H0
:
X
=
mH1
:
X
„
m假设的三种形式:1
0左单侧检验(3)H
0
:q
=q0
或H
0
:q
£
q0H1
:q
>
q
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 热水器工程项目合同
- 经济实惠大理石采购安装合同
- 附属协议样本
- 计件工劳动合同的违约后果
- 【项目管理】邵洪芳 教材精讲班教案 25-第3章-3.1.2-合同计价方式
- 2024商标许可使用合同商标许可使用合同参考范本
- 2024电梯采购注意事项电梯采购安装合同范本
- 城市轨道交通的设施运维与应急救护能力提升考核试卷
- 卫生材料的材质与构造优化设计考核试卷
- 森林改培的文化保护与文旅融合考核试卷
- 第三章+相互作用-力+大单元教学设计 高一上学期物理人教版(2019)必修第一册
- 中国航空协会:2024低空经济场景白皮书
- 体育赛事组织服务协议
- 适合全院护士讲课
- 2024年医学高级职称-全科医学(医学高级)考试近5年真题集锦(频考类试题)带答案
- 2024年全国半导体行业职业技能竞赛(智能硬件装调员赛项)理论考试题库(含答案)
- 自然科学基金项目申报书(模板)
- 2024年木屑购销合同范本
- 部编版二年级上册-课文一-快乐读书吧:读读童话故事-孤独的小螃蟹(课件)(共26张课件)
- 第二章 旅游线路类型及设计原则
- 批判与创意思考学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论