版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务与经济统计
Statisticsfor
BussinessandEconomics一、商务统计课程的性质1、商务统计是全面系统论述商务与经济统计活动全过程中所用统计理论与方法的综合性课程,在调查分析师证书系列课程中是具有提纲挈领作用的一门课程。2、商务统计课程的内容都是硕士研究生入学考试必考的内容,是任何一个统计人员和调查分析人员都必须掌握的统计学的核心知识。二、商务统计学习的方法1、商务统计是一门应用性统计学课程,在学习过程中应注重各种基本概念的含义和各种方法的基本原理与应用,要掌握每种方法的使用条件、计算步骤、以及结果的意义与解释。2、要在理解和领会中记忆和掌握课程的内容。如对于各种统计分布的复杂的密度函数公式就不需记忆,但却需要熟练掌握其概念定义以及分布函数表的使用方法。第一章绪论
一、统计学的性质二、统计学的作用三、统计学的基本概念四、统计指标体系的设计一、统计学的性质(一)统计活动的内容与阶段对各种数据资料的搜集、整理、分析和推断的活动过程称为统计活动,一项完整的统计活动过程可分为统计资料的搜集整理和统计资料的分析推断两大阶段。(二)统计学的定义与分科统计学就是关于数据资料的搜集、整理、分析和推断的科学。关于统计资料的搜集整理和分析推断的理论与方法构成了统计学的全部内容。(1)理论统计学与应用统计学(2)描述统计学与推断统计学二、统计学的作用(一)统计学在科学研究中的作用——提出假说并判定假说的正确与否(二)统计学在生产中的作用——通过试验分析找出最佳工艺,并对生产过程进行统计质量控制。(三)统计学在管理中的作用——抽样调查了解社会与市场,为决策提供依据;并可建立各种社会与经济发展模型,定量地模拟社会与经济的运行,既可分析社会与经济的发展及其结构变化,又可进行政策效果的评价。三、统计学的基本概念(一)总体和个体
组成统计活动研究对象的全部事物的全体集合,就称为统计总体,简称总体或母体;而总体中的各个事物则称为个体,总体中个体的数量称为总体容量。
1、自然物体总体与人为划定个体的总体;
2、有限总体与无限总体;
3、具体总体与设想总体(抽象总体)。三、统计学的基本概念(二)统计指标及其测度
用来测度统计活动研究对象某种特征数量的概念称为统计指标,简称指标。其中,测度总体特征数量的概念称为总体指标,而测度个体特征数量的概念则称为个体指标。
指标的测度计量尺度有(1)定类尺度,(2)定序尺度,(3)定距尺度,(4)定比尺度。三、统计学的基本概念(三)样本和统计推断
1、样本——从总体中随机抽出的部分个体所组成的集合称为样本或子样,样本中所含个体的数目称为样本容量。
2、统计推断——根据样本观测资料来对总体的分布状况和分布特征进行推断。
3、样本数据的分类——(1)横截面数据,(2)时间序列数据。
四、统计指标体系及其设计(一)统计指标体系的定义
反映总体及其所含个体的各个方面特征数量的一系列相互联系、相互补充的统计指标所形成的体系,称为统计指标体系。(二)构建统计指标体系的意义CONTENTS
目录Unit1第一单元IntroductiontoProbability概率论介绍学时10SamplingandSamplingDistrbuions抽样和抽样分布学时4DescriptiveStatitics描述性统计学学时6
IntroductiontoProbability概率介绍2学时4.1Experiments实验练习4.14.2EventsandTheirProbabilitys事件和概率4.3SomeBasicRelationshipsofProbability
一些基本的概率关系练习4.2-4.34.4ConditionalProbabilitys条件概率练习4.4作业要求与示范DiscreteRandomVariables
离散型概率2学时5.1DiscreteRandomVariables离散型随机变量5.2DiscreteProbabilityDistributions
离散型概率分布5.4BinomialProbabilityDistributions
二项概率分布练习5.2和5.45.3ExpectedValueandVariances2学时期望和方差练习5.3
ContinuousRandomVariables连续型随机变量2学时6.1UniformProbabilityDistributions均匀分布6.2NormalProbabilityDistributions正态分布练习6.2SamplingandSamplingDistributions抽样和抽样分布7.2SimpleRandomSampling简单随机抽样2学时7.4IntroductiontoSamplingDistrbuions抽样分布介绍7.5SamplingDistrbuionsof样本均值的抽样分布-2学时练习7.57.6SamplingDistrbuionsof样本比例的抽样分布练习7.6DescriptiveStatitics1TabularandGraphicalMethods
描述性统计学1—表格和图形方法3学时SAS软件的数据输入SAS输出结果转化成Excel表或进行修改的方法2.1SummarizingQualitativeData定性数据汇总2.2SummarizingQuantitativeData定量数据汇总2.4ScatterDiagrams散点图DescriptiveStatitics1TabularandGraphicalMethods
描述性统计学1—表格和图形方法3学时2.1SummarizingQualitativeData定性数据汇总2.2SummarizingQuantitativeData定量数据汇总2.4ScatterDiagrams散点图DescriptiveStatitics2NumericalMethods描述性统计学2
数值方法3学时3.1MeasuresofLocation位置的度量3.2MeasuresofVariability离散性的度量练习3.1-3.23.3Z-scores,MeasureofRelativeLocationz值,相对位置
练习3.33.4ExploratoryDataAnalysis探索性数据分析3.5MeasuresofAssociationBerweenTwoVariables两个变量之间联系的度量练习3.53.6TheWeightedMeanandWorkingwithGroupedData加权均值和分组数据的处理Unit2第二单元
Estimation:PopulationMean,ProportionandVariance总体均值,总体比例和总体方差的参数估计学时4
8.1IntervalEstimationofaPopulationMean:Large-SampleCase总体均值的区间估计:大样本--2学时练习8.18.2IntervalEstimationofaPopulationMean:Small-SampleCase总体均值的区间估计:小样本练习8.28.3DeterminingtheSampleSize样本数量的确定2学时练习8.38.4IntervalEstimationofaPopulationProportion总体比例的区间估计练习8.4Unit3第三单元
HypothesisTesting:MeanandVariance
假设检验:均值和方差学时109.1DevelopingNullandAlternativeHypothesis提出零假设和备择假设2学时9.2TypeⅠandTypeⅡErrors
两类错误9.3One-TailedTestsaboutaPopulationMean:Large-SampleCase2学时总体均值的单侧检验:大样本的情况9.4Two-TailedTestsaboutaPopulationMean:Large-SampleCase总体均值的双侧检验:大样本的情况9.5TestsaboutaPopulationMean:Small-SampleCase总体均值检验:小样本的情况2学时练习9.1-9.59.6TestsaboutaPopulationProportion总体比例的检验练习9.610.2HypothesisTestsaboutthedifferencebetweentheMeansofTwoPopulations:IndependentSamples
练习10.2两个总体均值差的检验:独立样本2学时10.3InferencesaboutthedifferencebetweentheMeansofTwoPopulations:MatchedSamples
两个总体均值差的推论:配对样本练习10.311.1InferenceAbouttheDifferenceBetweenTheProportionsofTwoPopulations两总体比例差的推论—2学时练习11.1Unit4第四单元
AnalysisofVariance方差分析学时4
10.4IntroductiontoAnalysisofVariance方差分析介绍2学时10.5AnalysisofVariance:TestingfortheEqualityofkPopulationMeans---2学时方差分析:k个总体均值相等的检验练习10.4-10.5Unit5第五单元
Regression回归分析学时612.1SimpleLinearRegressionMethod简单线性回归模型2学时12.2LeastSquaresMethod最小二乘法12.3CoefficientofDetermination系数的确定12.4ModelAssumption模型假设2学时12.5TestingforSignificance显著性检验练习12.4-12.512.6UsingtheEstimatedRegressionEquationforEstimationandPredition用估计的回归方程进行估计和预测2学时12.9MultipleRegression多元回归练习12.911.3选讲内容
TestofIndependence:ContingencyTables
独立性检验:列联表总复习Ex4.1-4.3Ex5.2-5.4Ex6.2Ex7.5-7.6Ex3.1-3.5Ex8.1-8.4Ex9.1-9.6Ex10.3-10.5、11.1Ex12.4-12.9附录1:SAS的数据输出附录2用SAS作直方图的过程模拟试卷参考书1:电子版概率论与数理统计参考书2:电子版SAS操作入门课程44学时+总复习8学时+考试2学时=54学时课程成绩作业:占总成绩20%1.每周交一次作业,交给约定的班长或课代表,然后交给老师,作业内容为PPT上全部练习(不发回)2.每周作业班长或课代表负责记录按时上交与否同学名单,以”O”表示上交,以”×”表示未交3.整个课程上交8次作业,交满7次及以上者得总分的20分平时成绩,不足7次,少1次扣2分,少4次及以上平时成绩记0分出勤:占总成绩5%
缺课1次扣总成绩0.5分,迟到1次扣0.25分,按莱姆顿学院规定缺课1/3取消考试资格即缺课8次及以上不给考试期中考:占总成绩30%期末考:占总成绩45%课程简介
统计是处理数据的科学,是从数据中提取信息、对经济和商务活动进行科学管理的重要手段。统计学是研究不确定数量规律性的学科,概率论是统计学的理论基础,而统计是概率论在处理数据时的实际应用。本课程首先介绍了概率论基础知识。统计学部分介绍了定性数据和定量数据的描述性统计学,然后介绍了统计推断的参数估计和假设检验以及方差分析和回归分析。为了提高分析处理的实际能力,本课程在统计部分采用Excel和SAS等统计软件处理分析数据。下表是快餐店在3年中三类业务的销量百分数据(数据名Q203)
本例中我们采用统计中图表法来对数据中的某些特征进行对比分析。譬如借助Excel采用作带状图进行分类对比
以上数据做图如下一个数据分析的例下面带状图是业务类别为组,比较每个业务类别内三个年度销量百分数下面带状图是以年份为组比较同一年三个业务类别的销量百分数
这样处理方法是描述性统计学常用的手段,给我们的感觉是不是简洁又一目了然呢。常用的简单图表还有散点图,折线图、直方图、环形图、雷达图、甘特图等等IntroductiontoProbability概率介绍
4.1Experiments实验
Experiments试验是可以产生明确定义的一些结果的过程,试验可以重复进行,在一次试验中有且仅有一个结果发生.Exmple:ExperimentExperimentalOutcomes抛一个硬币正面,反面检查一个部件有缺陷,无缺陷接到一个销售电话购买,未购买抛一个骰子1,2,3,4,5,6打一场足球赛胜,负,平随机试验的SampleSpace
一个随机试验的样本空间是这个试验全体(基本)试验结果(又称样本点)的集合ExperimentSampleSpace抛一个硬币{正面,反面}检查一个部件{有缺陷,无缺陷}接到一个销售电话{购买,未购买}抛一个骰子{1,2,3,4,5,6}打一场足球赛{胜,负,平}一批同类灯泡的寿命{t│0≤t<∞}MultipleStepExeriments实验样本空间依次抛二个硬币{(正,正),(正,反),(反,正),(反,反)}依次抛一个硬币和一个骰子S=S1×S2={(正,1),(正,2),…,(正,6),(反,1),(反,2),…,(反,6)}│S│=│S1│×│S2│一般,如果一个试验过程需依次进行k步试验,每步试验分别有n1,n2,…nk个结果,则过程的样本空间包含n1×n2×…×nk个样本点,每个样本点是有序的k元组第一类作业示范:做在作业本上Ex5.2-5.4(抄题并在每题后解答)第二类作业:利用SAS或Excel,要求打印出输出结果并作必要解释具体操作参见SAS输出结果转化成Excel表或进行修改的方法,每份作业上标明班级学号姓名,示范如下:Exercises4.1写出下列随机试验的样本空间:将一枚均匀硬币掷3次,观察正、反面出现的情况;同时掷三颗骰子,记录三颗骰子点数之和;向一个目标进行射击,直到击中三次为止,记录所需要的射击次数;5件产品中有2件次品,每次从中任取一件(取后不放回),直到将两件次品全部取出,记录抽取次数;Answer(1)Ω={HHH,HHT,HTH,THH,HTT,THT,TTH,TTT};(2)Ω={3,4,5,…,18};(3)Ω={3,4,5,…};(4)Ω={2,3,4,5}.4.2EventsandtheirProbablities事件和概率
Event一个事件是样本空间样本点的一个集合
讨论事件A:“抛一个骰子出现奇数点”,则事件A是由三个样本点“点数1”、“点数3”、“点数5”组成的集合,即A={1,3,5}讨论事件B:“灯泡的寿命不低于600小时”,则事件B是由不小于600的实数组成的集合,即
B={t│t≥600}Probablities样本点(或事件)的概率是在一次试验中样本点(或事件)发生可能性大小的度量若样本空间包含n个样本点{E1,E2,…,En},则样本点的概率P(Ei)必须满足的二个基本要求为:1.0≤P(Ei)≤1,foralli2.P(E1)+P(E2)+…+P(En)=1ExperimentSampleSpaceProbability抛一个硬币{正面,反面}P(正)=P(反)=1/2抛一个骰子{1,2,3,4,5,6}P({出现点数i})=1/6,(i=1,2,…,6)从内有3个红球2个白球的袋中摸出1个球
{红,白}P({摸出红球})=3/5;P({白球})=2/5;ProbabilityofanEvent
任一事件的概率等于事件内样本点的概率的和Exmple抛一个骰子:样本空间{1,2,3,4,5,6}样本点概率P({出现点数i})=1/6,(i=1,2,…,6)事件A:出现奇数点,则事件A的概率P(A)=P({出现点数1})+P({出现点数3})+P({出现点数5})=3/6先后抛二个骰子:样本空间{(1,1),(1,2),…,(6,6)}(36个样本点)样本点概率P({出现点数(i,j)})=1/36,(i,j=1,2,…,6)事件C:两个骰子点数和为4,则事件C的概率P(C)=P({出现(1,3)})+P({出现(2,2)})+P({出现(3,1)})=3/36NotesandComments1.一次试验中称一个事件发生当且仅当事件包含的某个样本点发生。例抛一个骰子出现点数3就可以称为事件”出现奇数点”发生;2.把样本空间S本身视为一个包含所有样本点的事件,因此在每次试验中事件S必然发生,故把事件S称为必然事件且有P(S)=1;3.把样本空间的空集(不包括任何样本点)φ也看成事件,称为不可能事件且有P(φ)=0;4.若样本空间只包含有限个样本点且每个样本点发生的概率相等则称这样的样本空间为古典概型。此时有计算公式P(事件A)=4.3SomeBasicRelationshipsofProbabilityComplementofEventA事件A的补AcP(A)=1-P(Ac)当且仅当事件A或事件B发生时称事件A与事件B的并发生;当且仅当事件A和事件B同时发生时称事件A与事件B的交发生;当事件A与事件B的交为φ时称事件A与事件B相互排斥(分离)抛一个骰子,事件A:”1<点数≤3”={2,3},事件B:”点数>2”={3,4,5,6},事件C:”点数>5”={6},则事件A∪B表示”点数≥2”={2,3,4,5,6},事件A∩B={3},可以验证P(A∪B)=P(A)+P(B)-P(A∩B)事件A与事件C是相互排斥的,即A∩C=φ,此时P(A∪C)=P(A)+P(C)Exercises4.2~4.3
1.设A、B、C是三个随机事件,试用A、B、C表示下列各事件。(1)恰有A发生;(2)A、C发生而B不发生;(3)A、B、C都发生;(4)A、B、C都不发生;(5)A、B、C中至少有一个发生;(6)A、B、C中至少有二个发生;(7)A、B、C中至多有一个发生;(8)A、B、C中至多有二个发生;(9)A、B、C中恰有一个发生;(10)A、B、C中恰有二个发生;2.袋中装有5个白球,3个黑球,4个红球,从中一次取出三个球,求三个球是同色球的概率。3.某城市发行二种报纸A、B经调查,订阅A报的有30%,订阅B报的有50%,同时订阅A及B报的有15%,试求下列事件的概率:(1)至少订阅一种报纸的;(2)不订阅任何报纸的;(3)只订阅A报的;(4)只订阅一种报纸的;(5)至多订阅一种报纸的;Exercises4.2~4.3
1.设A、B、C是三个随机事件,试用A、B、C表示下列各事件。(1)恰有A发生;(2)A、C发生而B不发生;(3)A、B、C都发生;(4)A、B、C都不发生;(5)A、B、C中至少有一个发生;(6)A、B、C中至少有二个发生;(7)A、B、C中至多有一个发生;(8)A、B、C中至多有二个发生;(9)A、B、C中恰有一个发生;(10)A、B、C中恰有二个发生;2.袋中装有5个白球,3个黑球,4个红球,从中一次取出三个球,求三个球是同色球的概率。3.某城市发行二种报纸A、B经调查,订阅A报的有30%,订阅B报的有50%,同时订阅A及B报的有15%,试求下列事件的概率:(1)至少订阅一种报纸的;(2)不订阅任何报纸的;(3)只订阅A报的;(4)只订阅一种报纸的;(5)至多订阅一种报纸的;Answer4.4ConditionalProbability条件概率Exmple口袋里有5个红球3个白球,先后无放回地随机各摸出一球,记事件B:”第一次摸出红球”,
事件A:”第二次”摸出红球”条件概率P(A│B)可(直接)计算如下,当事件B发生时,即第一次摸出红球发生了,第二次摸球时口袋中有4个红球3个白球,所以Exmple警力部门有1200个官员,在过去二年里提升情况如表事件M:”官员是男性”事件W”官员是女性”事件A”官员得到提升”则有P(M∩A)=288/1200P(M∩Ac)=672/1200P(W∩A)=36/1200P(W∩Ac)=204/1200右上角表的联合概率见右下表在本例中P(A│W)=一般情况下P(A│W)≠P(A)男性女性合计提升未提升28867236204324876合计9602401200男性女性合计提升未提升0.240.560.030.170.270.73合计0.80.21.00MultiplicationLaw乘法法则P(A∩B)=P(A)P(B│A)或P(A∩B)=P(B)P(A│B)
实际计算时条件概率往往由题意直接求出IndependentEvent
P(A│B)=P(A)或P(B│A)=P(B)时称事件A与事件B相互独立或称A与B是独立事件。
事件的独立性往往可以从事件的描述中直接判断。譬如先后抛一颗骰子,前后出现的点数是相互独立的MultiplicationLawforIndependentEventP(A∩B)=P(A)P(B)Exercises4.4Answer5.DiscreteRandomVariables
离散型概率
5.1DiscreteRandomVariablesRandomVariable随机试验的结果用数值(这样的数值称为随机变量)来描述,每一可能结果结合一个数值,在试验中随机变量的实际取值依赖于试验的结果。随机变量又可分类成离散型Discrete或连续型Continuous。ExperimentSampleSpaceNumericalDescription抛一个硬币{正面,反面}{0,1}离散型检查一个部件{有缺陷,无缺陷}{1,0}离散型接到一个销售电话{购买,未购买}{1,0}离散型抛一个骰子{1,2,3,4,5,6}{1,2,3,4,5,6}离散型打一场足球赛{胜,负,平}{1,0,-1}离散型一批同类灯泡的寿命{t│0≤t<∞}{t│0≤t<∞}连续型建造新图书馆六个月内完成项目百分进度0≤x≤100连续型5.2DiscreteProbabilityDistributions
离散型概率分布
5.4BinomialProbabilityDistributions
二项概率分布
ABinomialExperiment具有以下四个性质:1.ABinomialExperiment包含n个相同试验序列2.在每次试验中只有二个可能结果我们称其中之一(通常是我们感兴趣的结果)为成功success(S),另一个(感兴趣结果的反面)称为失败failure(F)(或用A与Ac表示)3.在每次试验中,P(S)=p,P(F)=q=1-p4.所有n次试验都是相互独立的具有以上四个性质的试验过程称为n重伯努利试验,简称伯努利试验,这时讨论的问题称为伯努利概型。例如,连续地n次射击,连续地抛掷n次硬币,连续取球n次作有放回抽样等都属于伯努利概型。以上四点简洁地归纳为:进行n次独立重复试验;每次正(A)、反(Ac)两个结果。设Xi为第i次试验A发生的次数,则Xi~0-1分布,分布律为此时,X=X1+X2+…+Xn=为n重贝努利试验中事件A发生的次数Xi01P1-ppBinomialProbabilityFunction二项分布称n=1时的二项分布为0-1分布Exmple:口袋中有3个红球2个白球,有放回的连续4次随机摸出一球,事件A:每次摸出红球。问题1:设X为以上过程中摸出红球的次数,求X的分布律问题2:求一共摸出3次红球的概率问题3:求过程中摸到红球的概率。Answer:
Exercises5.2and5.4Answer5.3ExpectedValueandVariances
期望和方差
(数学)期望ExpectedValue又称为均值Mean是随机变量中心位置的一种度量Variance方差变异或离散性的一种度量VarianceofaDiscreteRandomVariablesExpectedValueandVariancefortheBinomialProbabilityDistributions二项分布的期望与方差
5.4中Exmple的二项分布X~B(20,0.01),即n=20,p=0.01,所以期望E(x)=np=20×0.01=0.2,方差Var(X)=np(1-p)=20×0.01×0.99=0.1980-1分布及其期望与方差
在随机试验中把某个结果发生视为事件A发生,这个结果不发生视为A不发生,譬如一批零部件质量检查中检查有无次品、随机调查一个人是否烟民、抛一个骰子是否出现点数”6”等等。设一次试验中事件A发生的概率为p,则以上试验就可以认为服从0-1分布。记X为事件A在一次试验中发生的次数0-1分布是二项分布n=1时的特殊情况,0-1分布的期望与方差计算如下表则E(X)=E(X2)=0×(1-p)+1×p=p,所以Var(V)=E(X2)-(E(X))2=p-p2=p×(1-p)X01X201概率1-ppExercises5.3Answer6.ContinuousProbabilityDistributions
若随机变量X的取值为区间,其取值某个区间的概率用所谓密度函数曲线下的面积给出时,称X为连续型随机变量6.1UniformProbabilityDistributions均匀分布
6.2NormalProbabilityDistributions正态分布StandardNormalProbabilityDistributions
标准正态分布设Z~N(0,1)
问题1:给定Z的一个区间,如何求标准正态取值该区间的概率
问题2:对于一个含有未知端点的区间和给定的一个概率值,确定这个未知端点,使标准正态取值该区间的概率等于上面概率
可以使用Table6.1解决上述二个问题ComputingProbabilityforAny
NormalProbabilityDistributions
计算任意正态分布的概率
利用以下转换公式可以将任意正态分布的概率计算问题转换为标准正态的概率计算问题
若X~N(μ,σ2),则Z=~N(0,1),这个变换称为随机变量的
标准化,因此有概率计算公式
P(a≤X≤b)=P(≤≤)=P(≤标准正态Z≤)问题:设X~N(10,22),求P(10<X<14)解:P(10<X<14)=P(<<)=P(0<标准正态变量<2)查表=0.4772以上结论推导过程(以推第二个等式为例)X~N(μ,σ2),则P(μ-2σ≤X≤μ+2σ)例设我国17岁男少年身高h~N(165,32),由以上结论知P(165-2×3≤h≤165+2×3)=P(159≤h≤171)=95.44%,即我国17岁男少年中身高介于159至171人的比例为95.44%概念:重要变换:任一分布X,其期望为E(X),标准差为则Y=
期望E(Y)=0,方差Var(Y)=1,称Y为标准化随机变量这个变换称为随机变量的标准化过程特别X~N(μ,σ2),则Y=~标准正态N(0,1)Exercises6.2Answer7.SamplingandSamplingDistributions抽样和抽样分布
前面介绍了概率论的基本内容,以后将讲述数理统计.数理统计以概率论为理论基础,通过提取分析试验或观测数据中反映的随机现象的信息,来估计和推断研究对象的客观统计规律.已经知道随机现象可以用随机变量来描述.对于随机变量,最好知道它的分布函数(则讲已经完全掌握了它的变化规律),或者至少能知道它的某些数字特征.但是对于刻划一个具体随机现象的随机变量,它的分布函数或它的某些数字特征往往是未知的,如何确定它的分布函数或数字特征是数理统计要解决的问题.对被研究的对象全体进行全面观测或试验是解决此类问题获得最准确结果的方法,但这样实施往往有很大的困难或不可行.例如,要了解全国人口的某些情况,虽然可以进行全国人口普查,但由于工作量惊人而不可能轻易采用这种方法;又如要了解某厂家生产的一批灯管的质量,由于试验带有破坏性不可能通过点坏所有灯管来确定寿命分布.在长期的实践研究中,人们总结出解决上述问题的合适而有效的方法:从研究对象中随机抽取一小部分进行试验或观测,对所得资料加以整理和分析,根据这些资料所显示的统计规律性,应用概率论原理,对研究对象的分布或它的某些数字特征作出推断.依据概率论原理由局部推断整体是数理统计学科的的研究方法.数理统计方法往往涉及大量计算,随着计算机科学技术的迅速普及,借助于计算机和计算软件,数理统计在科学研究和国民经济的众多领域已得到了广泛的应用.数理统计的内容很丰富,本课程只介绍描述性统计方法、参数估计、假设检验、方差分析和回归分析的部分内容,并介绍了用Excel或软件SAS进行计算的办法.
总体和个体通常把把研究对象的全体称为总体.把构成总体的每一个对象称为个体.比如研究一批同类灯泡的使用寿命,寿命X是随机变量,全部产品的使用寿命即X的全部取值的集合构成总体(称为总体X),而每个产品的寿命即X的每个可能取值x即为个体.7.2SimpleRandomSampling简单随机抽样SimpleRandomSample(Finite0rInfininePopulation)从大小为N的总体X中随机地抽取n个个体,并用X1,X2,…,Xn表示,这n个个体称为取自总体X的容量为n的样本(sample).这样一个过程称为抽样,当抽样X1,X2,…,Xn彼此独立并且与总体X分布相同时称为简单随机抽样.对于个体总数为无限的总体的随机抽样或有限总体的有放回抽样可以认为是简单随机抽样,个体总数N与样本容量n之比≥10的无放回抽样也可近似当作简单随机抽样处理.简单随机抽样而得的样本称为简单随机样本.对于简单随机抽样总体X与样本Xi有相同的分布7.4IntroductiontoSamplingDistrbuions抽样分布介绍
根据具体情况常常构造样本的函数,来提取所需的样本中包含的总体的信息.称样本的不含未知参数的函数为统计量(提示:如果含了未知参数就不可能由样本观测值算出样本函数值).对于随机样本X1,X2,…,Xn,,相应统计量也是随机变量,统计量服从的分布称为抽样分布.由样本任一组样本观测值可得到相应样本统计量的观测值.总体的参数样本对应统计量(如总体均值λ、总体方差σ2、(如样本均值、样本标准差s2、总体具有某个特征的比例p)样本比例)特点1)是固定的数特点1)可求
2)往往未知2)波动(也是随机变量)从总体中抽样x1,x2,…,xn,7.5SamplingDistrbuionsof样本均值
的抽样分布
样本均值的期望E()=μ,
这儿μ是总体的均值
样本均值的标准差
有限总体无限总体(或样本容
量n≥30的有限总体)
这儿N是有限总体大小,n是样本容量
CentralLimitTheorem中心极限定理对于从均值为μ方差为σ2的任一总体中抽样X1,X2,…,Xn,当样本容量n充分大(实际应用中n≥30)时,近似有或者近似有Exercises7.5P269第19题Exmple计算机在进行加法运算时,设所有的取整误差是相互独立的且它们都在区间(-0.5,0.5)上服从均匀分布。(提示:区间(-0.5,0.5)的均匀分布数学期望与方差分别为E(xk)=0,Var(xk)=1/12)
(1)若将1500个数相加,问误差总和的绝对值超过15的概率是多少?(2)问最多可将多少个数加在一起,使得误差总和的绝对值小于10的概率不小于90%。Answer解设对第k个数取整,其误差为随机变量,它在区间(-0.5,0.5)上服从均匀分布,其数学期望与方差分别为E(xk)=0,Var(xk)=1/12,(1)若将1500个数相加,则误差总和为,由中心极限定理有即将1500个数相加,则误差总和的绝对值超过15的概率大概为P{││>15}=P{││>=1.34}(查表6.1)=(0.5-0.4099)×2=0.182.(2)P{││<10}=P{││<}=0.9(查表6.1)概率面积(1/2)×0.9对应统计量值1.645=进一取整解得n=443,即最多可将443个数加在以一起,才能使得误差总和的绝对值小于10的概率不小于90%.7.6SamplingDistrbuionsof样本比例的抽样分布
从总体中抽样调查样本具有某性质的比例p,抽到一个样品具有该性质称为抽这个样品时事件A发生,否则称为A没有发生,因此可认为总体服从0-1分布0-1分布的方差Var(X)=p×(1-p),由7.5节样本均值的标准差公式,的标准差为
有限总体(n/N≤0.5)无限总体(或样本容
量n/N>0.5的有限总体)
这儿N是有限总体大小,n是样本容量Exercises7.61.某批产品的次品率为0.005,试求任意抽取10000件产品中,次品数不多于70件的概率。(答案:0.9981)2.一保险公司有10000人投保,每人每年付12元保险费。已知一年内投保人死亡率为0.006,如死亡公司付给家属1000元,求:保险公司年利润不少于70000元的概率;(答案:0.0985)Exercises7.6Answer1.某批产品的次品率为0.005,试求任意抽取10000件产品中,次品数不多于70件的概率。Answer:p=0.005,n=10000,
查表6.1,标准正态变量0≤z≤2.84的概率面积为0.4977,本题为标准正态变量z≤2.84的概率面积为0.4977+0.5=0.99772.一保险公司有10000人投保,每人每年付12元保险费。已知一年内投保人死亡率为0.006,如死亡公司付给家属1000元,求:保险公司年利润不少于70000元的概率;Answer:n=10000,p=0.006,投保收入120000,利润不少于70000即赔付不大于50000,查表6.1,标准正态变量0≤z≤1.29的概率面积为0.4015,本题为标准正态变量z≤-1.29的概率面积为0.5-0.4015=0.09851.2数据数据=事实数据是统计分析的基础,数据可以通过安排试验采集或通过观察收集。数据分为定性数据(QualitativeData)和定量数据(QuantitiveData),以下数据表中的变量city列是定性数据,而变量x1,x2,x3所在列是定量变量如果是同一时间点(段)采集的数据表称为(同一时间)横断面数据(Cross-SectionalData),如前表数据;如果是一个变量在不同时间的取值数据表称为时间序列数据(TimeSeriesData),如下某快餐店的外卖数统计表:2.DescriptiveStatitics1TabularandGraphicalMethods描述性统计学1—表格和图形方法
统计分析方法近年来在科研与生产实践包括商务领域中获得了广泛的应用,其原因一是它在高效率获取信息与充分利用信息方面的重要作用;其二是计算机技术的普及,统计软件譬如象SAS等的推广应用,为数据处理方法的广泛应用提供了便捷有力的计算手段。上述两个原因使本课程具有强烈的应用背景和旺盛的生命力。本课程介绍了软件SAS(SAS数据输出或调用Excel数据方法参见附录1)和Excel在数理统计各部分的实际应用。2.1SummarizingQualitativeData
定性数据汇总SAS数据操作步骤第一步:(启动SAS)点击SAS图标第二步:(编写或调用SAS程序)(在ProgramEdito窗口编写SAS程序)或调用sas的V8文档一个已有程序:点击(ProgramEdito)→file→Open…(打开V8)→选中并打开所需数据名第三步:(执行以上SAS程序)点击SAS上方工具栏”Submit”更详细的操作请参阅word文件”SAS操作步骤”SAS软件的详细功能和操作可参阅电子版参考书”SAS操作入门”利用SAS软件作BarGraphs(数据名p25)
适用对定性变量进行频率分布讨论以下是频数图、百分频数图、累计频数图
用Excel作PieGraphs(Excel数据名Q202)选中饼图(单变量,以数据点序为横坐标)选中子图表左上角类型饼图点右下角”下一步”选择Excel中数据为行或列,点”下一步”可进行各选项(本例对”数据标志”分别选择了””值”和”百分数”)点”下一步”点”完成”利用Excel可以作各种统计图如折线图、圆饼图、散点图、环形图、直方图、条形图、柏拉图等等,具体作法请参见word文件”利用Excel作统计图”Exercises2.11.将教材p56第44题数据录成SAS数据(起名p56e44),并输出成Excel数据文件(操作参见”SAS操作步骤”)2.将教材p54第38题数据录成Excel数据(起名p54e38),并作圆饼图2.2SummarizingQuantitativeData定量数据汇总Excel作直方图以下数据为××食品公司的包子馅料机的采样数据,据此数据作直方图Excel原始文件名为…包子馅重量,样本量n=154步骤1.对数据由小到大排序(为了便于对数据还原可先排序前在原始数据左侧增加一序号列如下图),数据由小到大排序完成后求出极差Range=最大数max-最小数min=27.9-23.1=4.8DotPlot点图每个观测点(x,n)出现在点图上,x代表观测值,n代表相同观测值出现的次序,以下为用Excel对数据文件p32作的点图用刚才作图(BarChart)的方式在选项NumberofBars选中Barforeachdiscretelevel选项
BarValues选中Frequnce
则可以作与DotPlot效果一致的直方图,以下为p32的直方图CumulativeDistribution累计分布的图称为Ogive,以下用SAS软件对84名学生的身高数据(p35)作图操作如下84名学生体重的频数、百分频数累计图(p35)Exercises2.21.利用Excel对Excel数据文件”包子馅重量和频数”求频率分布包括频数直方图、百分频数直方图、累计频数直方图、累计百分频数直方图、比例直方图2.利用SAS数据文件p30中的学生身高数据h求频率分布包括频数直方图、百分频数直方图、累计频数直方图、累计百分频数直方图、比例直方图3.录入教材p57第46题变量Ratio数据,用Excel作DotPlot图,用SAS作等效的直方图2.4ScatterDiagrams散点图
如果采集了定量变量X与Y的数据(xi,yi)(i=1,2,…,n),散点图可以直观地看到二个变量的某些联系。操作步骤如下:数据文件p47的散点图反映出变量x(气温)与y(蒸汽量)是负相关的NegativeRelationship以下是Excel数据P48中变量x分别与变量y、z、u、v的散点图由上面图可以直观地看出大致的相关性类型和相关程度。以后还要对线性相关性进一步进行定量讨论(第3章第5节)Exercises2.4将教材p512题44中二个数值变量录成数据文件(起名p512e44),并分别用SAS和Excel作散点图3.DescriptiveStatitics2NumericalMethods
描述性统计学2数值方法
对被研究的对象全体进行全面观测或试验是研究一个总体获得最准确结果的方法,但这样实施往往有很大的困难或不可行.例如,要了解全国人口的某些情况,虽然可以进行全国人口普查,但由于工作量惊人而不可能轻易采用这种方法;又如要了解某厂家生产的一批灯管的质量,由于试验带有破坏性不可能通过点坏所有灯管来确定寿命分布.在长期的实践研究中,人们总结出解决上述问题的合适而有效的方法:从研究对象中随机抽取一小部分进行试验或观测,对所得资料加以整理和分析,根据这些资料所显示的统计规律性,应用概率论原理,对研究对象的分布或它的某些数字特征作出推断.3.1MeasuresofLocation位置的度量
总体X,从中抽得样本X1,X2,…,Xn
总体X的均值特点:μ是一个确定的数,但往往未知样本均值Mean
特点:通过抽样可求得样本均值,但是随机变量有波动。公式
对样本X1,X2,…,Xn进行由小到大的排序
记为X1*≤X2*≤...≤Xn*
Median中位数
位于X1*,X2*,...,Xn*中间位置的数,具体当n=2m+1为奇数时中位数即Median=Xm+1,当n=2m为偶数时Median=(Xm+Xm+1)/2Mode众数出现频率最大的数Exmple设数据由小到大排序后为①3.2②4.2③4.2④4.2⑤7.2⑥7.2⑦7.8⑧9.9⑨11.4⑩11.4⑾12.1⑿12.1则均值mean=中位数4.2出现频次最高为3,所以众数mode=4.2ThepthPercentlep百分位数排在第p百分位的数,公式thepthPercentle的计算步骤:1.排序X1*≤X2*≤...≤Xn*
2.计算下标i,3.如果i不是整数则最终i取整后+1;如果i已是整数则取Xi*与Xi+1*的平均作为thepthPercentleExmple设数据由小到大排序后为
①3.2②4.2③4.2④4.2⑤7.2⑥7.2⑦7.8⑧9.9⑨11.4⑩11.4⑾12.1⑿12.1对数据文件p25中地板磨损数据利用SAS求位置参数操作如下数据文件p25输出各个位置参数结果如下3.2MeasuresofVariability离散性的度量Exercises3.1—3.2教材p77第8题P84第15题P85第21题将教材p76第5题录成SAS数据文件(起名p76e5),并对数据作描述性分析,求出样本均值、最大值、最小值、中位数、Q1、Q3、众数、方差、标准差、极差、四分位极差、变异系数3.3Z-score标准化和数据的相对位置对应于6.2节中随机变量的标准化,样本数据x1,x2,…xn也可以进行z-score标准化处理:如果某个zi=-0.5,说明对应样本第i个数据比标本均值小0.5个标准差s,这样经z-score标准化处理后,每个数据在样本中的相对位置就确定了。例样本数据xi
均值离差xi-(=44)z-score标准化数据
(s=8)4620.2554101.2542-2-0.254620.2532-12-1.50契比雪夫定理契比雪夫不等式:设Z是z-score化随机变量,则对于任意z>1,成立不等式即对任意z>1,数据中至少有(1-1/z2)比例部分数据在离均值z个标准差以内。譬如分别取z=2,3,4则有至少有75%数据值在离均值2个标准差以内;
至少有89%数据值在离均值3个标准差以内;
至少有94%数据值在离均值4个标准差以内;当样本Xi服从或近似服从正态总体时,则Z-score随机变量z~标准正态N(0,1),此时由6.2节内容有经验规则(EmpiricalRule)近似有68.26%比例部分的数据值在离均值1个标准差以内近似有95.44%比例部分的数据值在离均值2个标准差以内近似有99.73%比例部分的数据值在离均值3个标准差以内(第三个近似称为3σ准则)Exmple利用SAS求数据文件p35中84名学生身高的均值和标准差(操作方法见3.2节)得平均身高为169.8,标准差为5.3由契比雪夫定理至少有84×75%=63名学生身高在169.8±2×5.3以内;至少有84×89%≈75名学生身高在169.8±3×5.3以内更精确地,由经验规则近似有84×68.26%≈57名身高在169.8±1×5.3以内近似有84×95.44%≈80名身高在169.8±2×5.3以内近似有84×99.73%≈84即几乎所有学生身高在169.8±3×5.3以内Exercises3.3P93第36题利用SAS求数据文件p35中84名学生体重的均值和标准差(操作方法见3.2节),并用契比雪夫定理和经验规则给予相应解释Answer:3.4ExploratoryDataAnalysis探索性数据分析BoxPlot盒形图给出Min、Q1、Median(Q2)、Q3、Max这5个数的位置。利用SAS作图操作过程如下运行后结果图如下Exercises3.4求数据文件p30中学生身高的BoxPlot并给予解释3.5MeasuresofAssociationBerweenTwoVariables两个变量之间联系的度量
以下是Excel数据P48中变量x分别与变量y、z、u、v的散点图由上面图可以直观地看出大致的相关性类型和相关程度。
Exercises3.5将教材p103第45题录成SAS数据文件(起名p103e45),完成以下五项要求1.以GPA为横坐标作散点图2.由图解释GPA和SAT的关系3.计算和解释样本协方差4.计算和解释样本相关系数5.进行相关显著性检验并解释3.6TheWeightedMeanandWorkingwithGroupedData加权均值和分组数据的处理
以下分别讨论数据的加权平均和分组数据的处理TheWeightedMean加权均值某厂加工三种类型的80个部件,其中甲种部件10个每加工一个需要工时3小时,乙种部件30个每加工一个需要工时4小时,丙种部件40个每加工一个需要工时2小时,问80个部件平均每个消耗多少工时?作为每个部件的平均工时显然不对,因为不同部件加工量不同,在本问题中我们称每种部件的加工量(10,30,40)为这种部件加工工时的权向量,实际应用需要采用均一化的权向量(10/80,30/80,40/80)TheWeightedMean这儿xi是第i个观测值,ωi是第i个观测值的权.前例观测值为x1=3,x2=4,x3=2相应的归一化权为ω1=10/80,ω2=30/80,ω3=40/80所以平均工时应为加权平均WorkingwithGroupedData分组数据的处理Exmple某校教师情况如下表:把不同职称看成不同组,每一种职称人数为组频数fi(未经均一化的权),每种职称平均工资即组平均,应用公式fi为第i组频数,Mi为第i组组均值,由此公式该校平均工资为Exercises3.6完成P109第50题、第51题Unit2第二单元
8Estimation:PopulationMean,ProportionandVariance
总体均值,总体比例和总体方差的参数估计在数理统计中通常把刻划总体X的某些数字特征称为参数.某些分布比如正态分布X~N(μ,σ2),如果数学期望μ和方差σ2一经确定则分布随之确定;在另外一些场合尽管不能知道它的分布,但人们着重要知道它的某些数字特征特别是数学期望和方差.而在实际问题中,总体的这些参数往往是未知的,因此要通过样本X1,X2,…,Xn构造统计量来估计未知参数.这样的问题称为参数估计问题.参数估计问题有二种情况:点估计和区间估计.要直接由样本估计未知分布形式的问题称为非参数估计问题.参数估计与假设检验合称统计推断,是利用抽样样本对总体未知参数的信息推断总体X(随机变量),X的二个重要参数1.均值μ2.方差σ2(反映波动)3.总体中具有某特征的比例p(porpulation)特点:1)确定的数2)往往未知.处理方法:抽样X1,X2,…Xn,利用参数估计和假设检验的方法进行统计推断.1.样本均值2.样本方差s23.样本比例特点:1)可求2)波动(也是随机变量)由问题的提法区分参数估计与假设检验:问题提法中不带具体数字的为参数估计,带具体数字的为假设检验。自动灌装机的灌装量的均值是多少?(双侧区间估计)钢筋的强度至少是多少?(下方有界的单侧区间估计)自动灌装机的灌装量的均值是0.5公斤吗?(双侧的假设检验问题)两种测试方法有系统偏差吗?(即两个总体均值差为0吗?双侧的假设检验问题)新工艺的指标值明显优于老工艺吗(指标的优化值超过k个单位吗)?(二个总体均值差的单侧假设检验问题)由以下不同提法和回答看参数估计分类例.对某校男生的身高h进行调查随机抽取84名男生进行测量(数据名p35),回答以下问题:1.该校男生平均身高为多少?(=?)2.该校男生平均身高不超过多少?(≤?)3.该校男生平均身高超过多少?(≥?)对应答案1.该校男生平均身高为169.78cm(用样本均值取值推断总体均值点估计回答形式)1.置信度95%的置信区间为[168.64170.92](用双侧区间估计形式回答)2.置信度95%的上方有界的单侧置信区间(-∞170.74]3.置信度95%的下方有界单侧置信区间[168.83+∞)8.1IntervalEstimationofaPopulationMean:Large-SampleCase总体均值μ的区间估计:大样本问题:总体均值μ未知,抽样X1,X2,…,Xn,现在要用样本均值来估计总体均值μ。首先引入定义样本误SamplingError=│-μ│即样本均值和总体均值之差绝对值的大小,由于μ未知所以SamplingError也不确定,但我们用SamplingError来刻划置信区间的概念IntervalEstimationofaPopulationMean:Large-SampleCasewithσKnown总体均值的区间估计:任意总体,均值μ大样本(n≥30)且总体标准差σ已知(或者正态总体,标准差σ已知,样本量不限)推出置信区间公式的具体步骤未知参数总体期望μ的区间估计公式适用以下两种情况:1.正态总体X~N(μ,σ2),方差σ2已知(样本量不限)2.任意总体X,方差σ2已知,大样本(n≥30)另外在以下情况下有近似公式:3.任意总体X,方差σ2未知,大样本(n≥30),用样本标准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建省莆田市2023-2024学年高二下学期7月期末考试历史
- 湖北科技出版社三上生命安全教育教案
- 学校安全教育教案
- JGJ18-2012钢筋焊接及验收规程
- 专利技术转让私人居间合同
- KTV木工修缮合同范本
- 4S店涂装油漆施工合同
- O2O建材家居平台建设运营商业计划书
- 2024年软件公司竞业禁止
- 2024年重庆货运资格证模拟考试题
- 校园反诈骗课件
- 2024-2030年中国工业脱水机行业发展状况及投资方向分析报告
- 网络传播法导论(第2版)课件 第五章 侵害名誉权
- 环评手续转让协议(2篇)
- 上海市高行中学2024-2025学年高二上学期9月质量检测数学试卷
- 医院污水处理运维服务投标方案(技术方案)
- 2024年高考最后一套压轴卷-文综试题(全国甲卷)含解析
- 苏教版数学长方体与正方体表面积解析
- 2024年国家开放大学形考作业答案
- 2024年湖南长沙环境保护职业技术学院招聘专任教师历年(高频重点复习提升训练)共500题附带答案详解
- 中考数学专题训练一元二次方程(50道计算题)(无答案)
评论
0/150
提交评论