版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章1.什么是统计学?统计学是一门收集、整理和分析统计数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。2.数据分为哪几种类型?各自的用途是什么?根据计量方法的不同,可将数据分为分类数据、顺序数据和数值型数据三种。分类数据用来研究事物的构成状况。顺序数据既可用来研究事物的构成状况,也可用来研究事物构成的等级顺序特点。根据数据的收集方法的不同将数据分为观测数据和试验数据两种。社会经济现象的统计数据几乎都是观测数据。自然科学领域的数据大多数都为试验数据。根据时间状况的不同可将数据分为截面数据、时间序列数据和面板数据。截面数据往往用来描述某一时刻不同单位、不同地区等的差异情况。时间序列数据往往用来描述现象随时间变化的趋势和规律特点。3.举例说明总体和个体、标志和变量等概念。总体是同类事物的集合。如人口普查中的全国人口就是一个统计总体。总体中的个别事物为个体或称为总体单位。如人口总体中的每一个人就是一个个体。标志是说明个体某种特征的概念。某个个体在某特征上的具体表现称为标志表现。例如对于人口总体,性别、年龄、职业、文化程度等都是标志。变量可以看作是取不同数值的量。比如年龄、性别、产值等都可看作是变量。4.描述统计和推断统计的区别和联系描述统计学研究如何取得反映客观现象的数据,并通过图表的形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。其内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据的分布特征与分析方法等。推断统计学则是研究如何根据样本数据去推断总体数量特征的方法,他是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。描述统计是整个统计学的基础,推断统计学则是描述统计的进一步深入。5.某研究部门准备在某市300万个家庭中抽取1000个家庭,推断该城市所有的职工家庭的人均居住面积,这项研究的总体是(
B
),样本是(A
)。A.1000个家庭B.300万个家庭C.1000个家庭的人均居住面积D.300万个家庭的人均居住面积6.指出下面的变量哪一个属于分类变量(D
)A.年龄B.工资C.汽车产量D.购买商品时的支付方式(现金.信用卡.支付宝)7.某公司从某大学抽取200个大学生推断该校大学生的月平均消费水平。回答以下问题:指出并描述总体和样本。总体是该校全部大学生,样本是200个大学生这里涉及到的统计指标是什么?200名大学生的月平均消费水平8.某研究机构从某单位随机抽取了50名员工作为样本进行调查,其中60%的员工对自己的办公环境表示满意,70%的员工回答他们的月收入在5000元左右,生活压力大。回答以下问题:(1)这一研究的总体是什么?总体是该单位的所有员工月收入是分类变量、顺序变量还是数值型变量?月收入是数值型变量对办公环境的满意程度是什么变量?对办公环境的满意程度是顺序型变量第二章1、什么是统计分组,其作用如何?形式有哪些?统计分组是根据统计分析的目的和要求,按一定的标志将总体划分为若干个不同的组成部分。通过统计分组可揭示事物的内在规律,其作用有二:(1)区分社会经济现象的类型。(2)反映和研究总体的内部构成。(3)分析研究现象之间的依存关系。有单项式分组和组距式分组两种形式。2、统计分组过程中应注意哪些问题?离散型变量与连续性变量的分组有无区别?在分组时,为遵循统计分组的完备性和互斥性原则,应注意以下几点:(1)第一组的下限应不高于最小的变量值,最后一组的上限应不低于最大的变量值。(2)若分组变量为连续性变量,相邻两个组的组限应采用重叠的变量值,同时为遵循互斥性原则,在按组归类整理时,遵循“上限不在内原则”。(3)若分组变量为离散型变量,相邻两组的组限可以重合也可以不重合,若重合仍然采用“上限不在内”的原则进行归类整理。3、统计调查有哪些方式?其特点和适用范围如何?统计调查的方式主要包括普查、统计报表、抽样调查、重点调查和典型调查。(1)普查是一种专门组织的一次性全面调查。重点了解重要的国情国力的一种调查方式。(2)统计报表是按照国家有关的规定,自上而下同一布置,自下而上逐级提供统计资料的调查组织方式。(3)抽样调查是取得数据资料的最主要的一种方式,它是按照随机原则从总体中抽取部分单位组成样本,对样本指标进行测定,根据样本指标推断总体指标的一种非全面调查。抽样调查有三个特点:第一,从总体中随机抽取样本。提高了样本的代表性。第二、利用样本指标可推断总体指标的数值。第三、抽样误差可以准确计算并事先加以控制。抽样调查有简单随机抽样、分层抽样、等距抽样和整群抽样四种组织形式。(4)重点调查是为了了解总体的基本情况,在总体中选择个别重点单位进行调查。重点单位是指其标志总量占全部单位标志总量的绝大比重的单位。(5)典型调查是对总体单位有初步了解的基础上,有意识的选择部分有代表性的单位进行调查。代表性单位是指那些最充分、最集中地体现总体某些共性的单位。4、什么是分布数列?如何编制分布数列?把总体中的各个组与其对应的个体数目一一对应排列,形成反映全部数据按其分组标志在各组内的分布状况的数列称为频数分布或次数分布数列,简称分布数列。编制分布数列的步骤:(1)按斯特格斯(H.A.Sturges)提出的经验公式确定组数K:。(2)确定各组的组距。(3)组限的确定。(4)各组次数或频率的计算。5、在某份问卷中,设置了如下问题:请问您的年龄是:(1)18岁以下,(2)18~25岁,(3)26~35岁,(4)35岁以上现获得了100名被调查者的回答数据。在以下统计图.统计表中,最不适宜描述这组数据的是(D)A.频数分布表
B.柱形图C.饼图D.箱线图6、在抽样之前先将总体的元素划分为若干类,然后从各个类中随机的抽取一定量的元素组成一个样本,这样的抽样方式称为(
B)A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样7、某公司48名工人某年月平均生活费支出(元)如下,试根据此资料编制组距式分布数列。并绘制直方图。352、312、336、257、408、321、234、268、204、358、270、466、328、347、369、349、397、386、318、382、430、300、484、289、523、476、315、377、294、458、326、365、492、209、446、446、302、277、548、334、400、424、282、308、371、363、337、302解:统计分组(1)组数(2)(3)确定组限dK−R=350−344=6最小组的下限从最小值204向下延伸4个单位确定为200,最高组的上限从最大值548向上延伸2个单位确定为550.(4)计算各组次数或频率形成分布数列组别次数200—2503250—3007300—35015350—40010400—4506450—5005500—5502直方图略8、试根据如下资料绘制茎叶图。72、75、60、52、65、90、95、85、76、8692、63、75、53、87、77、69、85、86、6463、66、71、78、84、98、79、62、57、76茎叶523760233456971255667898455667902589、某生产车间50名工人加工零件个数117、122、124、129、139、107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121对数据进行排序107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139计算全距R=139-107=32确定组数K=1+确定各组组距d=(5)根据分组整理成频数表加工零件个数工人数比重(%)105~11036110~115510115~120816120~1251428125~1301020130~135612135~14048合计5010010、公司内A、B两部门各有40名员工,年终考核的等级分布如下,考核等级人数A部门B部门优36良615中189及格98不及格42根据上面的数据,画出两个班考试成绩的直方图和环形图比较两个班考试成绩分布的特点。根据直方图和环形图可以看出,A部门的成绩分布为正态型,居于“中”等级的人数最多。B部门的成绩分布有偏左的趋势,居于“良”等级的人数最多(3)画出雷达图,比较两个班考试成绩的分布是否相似。根据雷达图可以看出两个部门的成绩分布并不相似,A部门成绩更多分布在“中”等级,B部门成绩更多分布在“量”等级,“优”和“不及格”两个等级分布人数均较少。11、某行业所属40个企业的年销售收入数据如下:9785121115119138112150113126106119114113881031181421351231561241291161021009295124104119108105110107137117136117108根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。K=1+R=156-85=71d=RK收入企业数频率(%)累计频数累计频率(%)向上向下向上向下85~9537.53407.5100961593722.592.5101127.520315077.5115~12123032208050122534885201341038695151412.539297.55112.54011002.5合计40100按规定,销售收入在125万元以上为优秀企业,115万元~125万元为良好企业,105万元~115万元为普通企业,105万元以下为落后企业,按优秀企业、良好企业、普通企业、落后企业进行分组。企业等级数量比重(%)优秀企业922.5良好企业1230普通企业1025落后企业922.5合计40100第三章1、简述算术平均数、中位数和众数的特点及其应用场合。算术平均数是描述集中趋势最常用的指标,等于总体总量除以总体单位数。易受极端数值的影响。它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,三个均值相等或接近相等,这时应选择均值作为集中趋势的代表值。但均值的主要缺点是易受数据极端值的影响,对于偏态分布的数据,均值的代表性较差。中位数是将变量值按大小顺序排列,处于中点位置的变量值。主要适合于作为定序数据、数值型数据的集中趋势测度值,不受数据极端值的影响,对数据中的误差不敏感,当调查数均众存在个别极端数值时,用中位数代表其一般水平比算术平均数好。众数是变量数列中出现次数最多或密度最大的变量值,从分布的角度看,它能够鲜明地反映随机变量分布的集中趋势,因此,众数也是分布密度曲线的高峰位置对应的变量值,是反映分布中心的指标。众数可用于定类数据、数值型数据的集中趋势测度值,其特点是不受数据极端值的影响2、为什么要计算离散系数?极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,都具有一定的量纲,其数值的大小除了与变量的离散程度有关外,还受两个方面的影响:(1)与原变量值本身水平高低有关,也就是说各变异指标与变量的均值大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的,离散程度的测度值自然也就小;(2)它们与原变量值的计量单位有关,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的变量数列,是不能用上述测定离散程度的指标直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散绝对指标的影响,需要计算具有可比性相对变异指标。3、什么是偏度和峰度,如何测定?偏斜程度是指分布密度曲线的非对称性的大小,通常用偏态系数绝对值的大小来衡量。偏斜状态的则定方法有经验则定法、矩法则定两种。峰度是随机变量分布密度曲线的峰尖程度。通常与正态分布相比较,若分布的形状比正态分布更瘦更高,则为尖峰分布;若比正态分布更矮更胖,则为平峰分布。4、算术平均数、中位数和众数三者之间有何关系?(1)如果数据的分布是对称的,则众数、中位数、和均值完全相等(2)如果数据是左偏分布(3)如果数据是右偏分布(4)当数据分布的偏斜程度不是很大时,算术平均数到众数的距离是算术平均数到中位数距离的3倍。即:5、选择题(1)不同数列的标准差不能简单进行对比,这是因为不同数列的(A,D)A平均数不同B标准差不同C个体数不同D计量单位不同(2)某居民区家庭人口数的分布资料如下:家庭人口数(人)1234567户数(户)10508060302010该居民区家庭人口数的中位数是:(C)A130户B130.5户C3人D4人(3)变量数列中出现次数最多的值是(D)A算术平均数B调和平均数C中位数D众数(4)对于左偏分布,平均数、中位数和众数之间的关系为(A)A.平均数<中位数<众数B.中位数<众数<平均数C.众数<中位数<平均数
D.众数<平均数<中位数
(5)在常用的集中趋势测量指标中,不易受极端值影响的(A)A.众数和中位数B.算术平均数
C.加权平均数D.算术平均数和加权平均数(6)两组数据的平均数不等,但标准差相等,则(A)A.平均数小的,离散程度大B.平均数大的,离散程度大C.平均数小的,离散程度小D.两组数据的离散程度相同(7)测度数据离散程度的相对统计量是(D)A.极差B.平均差C.标准差D.离散系数6、为了了解大学生每月生活费用支出情况,某省在全省高校中随机抽取了250名学生进行调查,调查得样本资料如下:试计算:(1)250名学生的平均生活费用月支出额;(2)月生活费用的中位数和众数;(3)月生活费用的标准差。按月生活费支出分组(元)人数(人)xXf150以下150—200200—250250—300300—350350以上10201109015512517522527532537512503500247502475048751875合计25061000解:(1)x=244(2)中位数所在组200—250(3)7、某信息传呼台两名接线员5天中每天接呼次数资料如下:A接线员12010876184165B接线员94681135599从日均次数的代表性和接线次数和日分布的均衡性角度作简要评价和分析。解:x1=130.6σx2=85.8σB接线员日均次数的代表性较好8、某投资银行的年利率按复利计算,10年的年利率分别是有一年为7%,有3年为8%,有四年为10%,有两年为11%,试求平均年利率。解:平均年利率为9.29%9、某系200名学生统计学考试成绩分组资料如下表所示:按考试成绩分组(分)人数(人)各组人数占总人数比重(%)50以下6350-6012660-70502570-80804080-90402090-100126合计200100试计算:(1)200名学生考试成绩的平均分数,中位数、众数、标准差。(2)对其分布状态作简要评述。10、对某校10名考研同学的数学和英语成绩进行调查,结果如下:数学13612912213710011010214498103英语68696870717372737475求:(1)如果比较数学成绩和英语成绩的差异,你会采取什么样的统计量、为什么?(2)比较分析哪一门课的分数差异大?解:我会采用离散系数统计量进行分析,因为离散系数是用于平均水平不同或计量单位不同的数列之间离散程度的比较,且离散系数越小,差异越小。XσVXσVV数>V英因此,数学课的分数差异大第四章1、选择题(1)要求估计量的数学期望等于被估计的总体指标的真值,称为(C)A一致性B有效性C无偏性D充分性(2)在不放回抽样下,样本均值得方差等于(c)ABS2CD(3)置信区间的长度越短,估计的精度则(a)。A.越高B.越低C.与长短无关D.无法判定(4)若和均为总体指标的无偏估计量,下列哪种情况表示比更有效(c)ABVar()>Var()CVar()<Var()DMSE()<MSE()(5)为了研究城市居民家庭的构成和生活情况,现从某市抽取了一个人36户家庭的简单随机样本,调查得样本资料如下:家庭人口数(人) 1 2 3 4 5 6 7户数(户) 1 5 14 10 4 1 1试估计该市平均每户家庭的人口数,并在95%的置信概率下计算该市平均每户人口数的置信区间(A)(注:总体方差未知)A.(3.1,3.9)B.(2.1,2.9)C.(3.1,4.9)D.(2.1,3.9)2、影响样本容量的因素有哪些?(1)总体中个体之间的差异程度。即总体方差。总体方差越大,所需的样本容量越大;反之,总体方差越小,所需的样本容量越小。(2)允许误差的大小。允许误差越小,估计的精确度越高,则所需的样本容量越大;反之,允许误差越大,估计的精确度越低,则所需的样本容量越小。(3)估计的可靠性高低。估计的可靠性越高,所需的样本容量越大;反之,估计的可靠性越低,所需的样本容量越小。(4)抽样方式。在其他条件相同的情况下,采用重置抽样方式比采用不重置抽样方式所需的样本容。3、如果总体方差未知,在确定样本容量时,应如何?在实践中,估计样本量时若未知,可根据以下方法来确定:第一,根据历史资料已有的方差代替;第二,在正式抽样调查之前,开展一次试验性调查,根据试验性调查所得资料加以估计;第三,如果有多次实验结果或多个历史方差,则根据最大的方差来代替总体方差计算样本量。4、解:s2=1.4575、解:=2.12S==0.2239 =t因此总体均值95%的置信区间为(1.96,2.28)6、某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,样本人均产量为35件,产量的样本标准差为4.5件,试以95.45%的置信度估计平均产量的抽样极限误差和置信区间。s=4.5 =z×(1−nN)=总体均值95%的置信区间为(34.146,35.854)7、(1)解:测试成绩(分)60以下60~7070~8080~9090以上X5565758595学生数(人)F102022408XF5501300165034007607660xS=11.3772 =z=76.62×11.377210该校学生英语测试的平均成绩的置信区间为(73.32,78.87)(2)p=48%大样本情形下总体比例的置信区间为:(0.48−2×0.48×0.52平均成绩在80分以上的学生所占的比重为(0.38,0.58)8、一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差10g。试估计该批产品平均重量的置信区间,置信水平为95%。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3解:已知总体服从正态分布,且标准差为σ=10,n=25,置信水平为1-α=95%,查标准正态分布表得:Zα/2=1.96根据样本计算均值,得x=105.36g于是有:x±Zα/2σn=105.36±3.92=(101.44,109.28)即该批食品平均重量95%的置信区间为101.44—109.28g9、某地区教育管理部门想估计两所中学的学生高考时的英语平均分数,为此在两所中学独立抽取两个随机样本,有关数据如下表。是分别估计两所中学高考英语平均分95%的置信区间。中学1中学2解:中学1:x±Zα2Sn中学2:x±Zα2S中学1高考英语平均分95%的置信区间为(84.3239,87.6761)中学2高考英语平均分95%的置信区间为(75.5434,80.4566)10、根据以往的生产统计,某种产品的合格率约为90%,现要求估计误差为5%,再求95%的置信区间时,应抽取多少个产品作为样本?已知P=90%,α=0.05,Zα/2=1.96,d=5%应抽取的样本容量为n应该抽取139个产品作为样本第五章1.简述假设检验的基本思想和程序。假设检验的基本思想是小概率原理。小概率原理是指小概率事件在一次试验中几乎不可能发生。一般来说,假设检验过程通常包含以下几个步骤:(1)提出原假设和备择假设(2)构造检验统计量(3)确定拒绝域(4)计算检验统计量的值,做出判断2.均值比较的T检验分几种类型?独立样本均值的T检验和配对样本均值的T检验3.选择题(1)单个正态总体均值的检验时若总体方差已知,(C)A.设计的检验统计量服从F分布B.设计的检验统计量服从卡方分布C.设计的检验统计量服从标准正态分布D.设计的检验统计量服从t分布(2)列联分析是利用列联表来研究(A)A.两个分类变量的关系B.两个数值型变量的关系C.一个分类变量和一个数值型变量的关系D.两个数值型变量的分布(3)设R为列联表的行数,C为列联表的列数,则分布的自由度为(D)A.RB.CC.R*CD.(R-1)*(C-1)4.解:H0:p=50%,H1:p≠50%样本比例p=检验统计量Z=Z<Z0.0255.略6.解:从两种工艺条件下生产的产品中各抽取100个样本属于独立样本。H0:1=2,H1:1≠2Z<Z0.0257.解已知:小样本,正态分布,方差相等,1=20.12=19.812=0.1722=0.14。,n1=8,n2=6H0:1=2,H1:1≠2=0.4282对于给定的显著性水平=0.05,查分布表可得0.025(12)=2.1788,由于||=1.2973<2.1788=0.025(12),所以应接受原假设。认为甲、乙两台机器加工的产品平均直径无显著差异。8.某企业生产三种不同口味的点心,为了分析不同性别的消费者的口味偏好,随机抽取了110名消费者进行调查,在品尝三种不同口味的点心后陈述其偏好,结果如下表所示:偏好水果味巧克力味肉味合计性别男15153565女2515545合计403040110在显著性水平0.05下,检验性别是对口味的偏好是否有显著差异?解:根据公式可计算得在原假设成立的条件下的期望分布表如下:偏好水果味巧克力味肉味合计性别男23.617.723.665女16.412.316.445合计403040110当显著性水平为0.05时,,检验结果表明性别与口味相关,性别是对口味的偏好是有显著影响。9.某切割机在正常工作时,切割每段金属棒的平均长度为10.5cm,标准差为0.15cm,今从一批产品中随机抽取15段进行测量,其结果如下:10.410.610.110.410.510.310.310.210.910.610.810.510.710.210.7假定切割长度x服从正态分布,且标准差没有变化,试问该机器工作是否正常?(α=0.1)解:检验假设H0:μ=10.5,H1:μ≠10.5,n=15,x=10.48,α=0.1则x−μ0σ/查表得Z0.05=1.645,于是x−μ0σ/故接受H0,认为该机器工作正常。10.一项统计结果声称某市老年人口(年龄在65岁以上)的比重为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比重为14.7%的看法?(显著性水平为0.05)解:H0:P=14.7%,H1:P≠14.7%α=0.05,n=400,x=10.48,检验统计量:Z=0.1425−0.1470.147∗Za/2=1.96决策:在α=0.05的水平上没理由拒绝H0结论:该市老年人口比重为14.7%。11.据以往的调查,某产品的消费者50%是中学生,为了了解这一比例是否发生了变化,该企业从众多的消费者中随机抽取了400名进行调查,结果有210名消费者为中学生,在0.05显著性水平下检验“50%的消费者是中学生”这一假设。有理由拒绝原假设吗?解:p=210/400=0.525n=400设:H0:P=50%H1:P≠50%Z=p−PP∗(1−P)n=α=0.05Za/2=1.96∵Z<Za/2=1.96∴没理由原假设H0,购买该产品的顾客中50%的消费者是中学生。第六章1.方差分析的基本原理是什么?总偏差平方和可分解为组间方差与组内方差。组间方差即水平间的方差,该方差既有由于水平均值不同而引起的系统性误差,又有随机误差存在。如果H0成立,水平间的方差就只包含随机误差,没有由于均值的不同而导致的系统性差异,此时,组间方差与组内方差均是随机误差,他们的取值就应该接近,比值应该接近于1;相反若H0不成立,水平间的方差既包含随机误差,又有系统性误差,组间方差大于组内方差,二者的比值也显著的大于1,当大到超过某一临界值时,就可认为水平均值之间存在差异。2.说明单因素方差分析中SST、SSE、SSA的含义及三者之间的关系。SST总离差平方和,是全部试验的每一观察值Xij对其总平均数的离差平方总和。SST=,为各行观察值对各该行平均数(组平均数)的离差平方和的总和,反映的是水平内部,或组内观察值的离散状况,称其为组内平方和或组内方差,反映了由于随机误差的作用而在数据Xij中引起的波动。为组平均数对总平均数的离差平方和,反映的是组间差异,其中既包括随机因素,也包括系统因素,称其为组间平方和或水平项离差平方和。3.单选题(1)单因素方差分析是指只涉及(A)A.一个分类型自变量B.一个数值型自变量C.两个分类型自变量D.两个数值型因变量(2)在方差分析中,检验统计量F是(B).A.组间平方和除以组内平方和B.组间均方除以组内均方C.组间平方除以总平方和D.组间均方除以总均方(3)在方差分析中,所提出的原假设是H0:μA.H1:μ1≠μC.H1D.H1:(4)单因子方差分析中,若SST=312.8,n-1=19;SSA=212.8,r-1=4,则F值为(C).A.0.125B.2.128C.7.98D.0.474.设μH0:μ1=方差分析表为方差来源平方和自由度均方F显著性SSA610.9503203.6508.114.002SSE401.6001625.100SST1012.55019P=0.002<0.05,拒绝原假设,所以不同方式推销商品的效果有显著差异5设μH0:μ1=方差分析表为方差来源平方和自由度均方F显著性SSA175420.222287710.11113.391.000SSE216149.667336549.990SST391569.88935所以不同销售渠道对销售额有显著差异6设μ1、H0:μ1=方差分析表为方差来源平方和自由度均方F显著性SSA516.0002258.0009.000.003SSE430.0001528.667SST946.00017所以不同培训材料的培训效果存在显著差异7设μ1、H0:μ1=方差分析表为方差来源平方和自由度均方F显著性SSA1582.3783527.4594.869.014SSE1733.28016108.330SST3315.65819所以不同操作方法对优等品率有影响8设μ1、H0:μ1=设a1、H0:a1=方差分析表为方差来源平方和自由度均方F显著性SSA3.48421.74297.682.000SSB1.54940.38721.720.000SSE0.14380.018SST5.17614温度和产地均对水果保鲜程度有显著影响9设μ1、H0:μ1=设a1、H0:a1=方差分析表为方差来源平方和自由度均方F显著性SSA92.450192.45023.405.000SSB174.0501174.05044.063.000SSAB0.05010.0500.0130.912SSE63.200163.950SST329.75019所以路段、时段对行车时间有显著影响,路段和时段的交互作用不显著10(1)方差分析表SSdfMSF组间6.2223.112.22组内9.8371.40——总计16.059————(2)设μ1、H0:μ1=因为临界值4.74>2.22,所以三总体之间没有显著性差异第七章1.什么是相关关系?当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定范围内变化,变量间的这种具有不确定性的相互关系,称为相关关系。2.相关分析与回归分析有何联系与区别?相关分析与回归分析有着密切的联系。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度,只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。可以这样说,相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。区别:(1)相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化(2)相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量(3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。3.什么是总体回归函数?什么是样本回归函数?它们之间有什么联系和区别?若用Y表示因变量,其主要受自变量X的影响,则Y和X之间的总体回归函数可表示为:和为未知参数,也叫回归系数,为随机误差项。在实际应用中,由于无法取得Y和X的全部数值,一般需要用样本资料来估计两变量数量关系,根据样本资料拟合的回归模型称为样本回归模型,一元线性样本回归模型可表示为:和分别是总体回归系数和的估计值,为参差,是随机误差的估计值,是实际值与估计值之间的差额。4.如何识别多重共线性?在遇到下列情况之一时往往表明多重共线性存在。(1)回归模型的F检验通过,而有的回归系数的t检验未通过。(2)模型中增加或删除一个自变量,回归系数的估计值有较大的变化。(3)回归系数估计值的符号与实际经济判断的相反。(4)简单相关系数矩阵中,两个自变量之间的相关系数值较大。通常,简单相关系数r>0.7时,应考虑有多重共线性存在。5.选择题(1)在回归分析中,被预测或被解释的变量称为(B).A.自变量B.因变量C.随机变量D.非随机变量(2)在回归模型中,反映的是(C).A.由于x的变化引起的y的线性变化的部分B.由于y的变化引起的x的线性变化的部分C.除x和y的线性关系之外的随机因素对y的影响D.x和y的线性关系对y的影响(3)对于有线性关系的两变量建立的直线回归方程y=α+βx中,回归系数A.可能为0B.可能小于0C.只能是正数D.只能是负数(4)由最小二乘法得到的回归直线,要求满足因变量的(D).A.平均值与其估计值的离差平方和最小B.实际值与其平均值的离差平方和最小C.实际值与其估计值的离差和为0D.实际值与其估计值的离差平方和最小6.设销售收入X为自变量,销售成本Y为因变量。现已根据某百货公司12个月的有关资料计算出以下数据:(单位:万元)解(1)y销售收入每增加1元,销售成本即增加0.79元。(2)R回归估计的标准误σ=S(3)H0:β=0H1:β≠0st=拒绝原假设(4)假定明年1月销售收入为800万元,利用拟合的回归方程预测相应的销售成本,并给出置信度为95%的预测区间。Y因此95%的置信区间为627.37±5.457.根据表7-7的数据建立回归方程,计算残差、判定系数、估计标准误差,并分析回归方程的拟合程度。表7-7x15819125y4736564421y残差:
SSE估计标准误差se:
s判定R^2:
SST=SSR=R本题判定系数R^2=0.937348,可以看出拟合程度好。8.为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据见表7-8。绘制散点图描述销售收入与广告费用之间的关系,并构建回归模型。表7-8企业编号销售收入广告费用企业编号销售收入广告费用1618451153140231954301216911753167524013258051047531601493105194239015192506101980161339340790650173627580867313018902809239541019190736010126720020967160销售收入与广告费用呈正相关分析由表(1)可得模型检验F值为116.3958,P值非常小,即模型是显著的;由表(2)可得模型的决定系数R2=0.866067,接近于1,说明模型拟合效果较好由表(3)可得回归方程的系数β0=274.5502,β1=5.1308,且参数β1检验的P值较小,则回归方程为y=274.5502+5.1308x根据得到的回归方程可进行因变量y的估计和预测。9.略10.根据软件输出的回归结果(见表7-10,7-11,7-12),说明模型中涉及多少个自变量、多少个观察值?写出回归方程,并根据F,R2及调整的R2表7-10回归统计值RR调整的R标准误差观测值0.8424070.7096500.630463109.42959615表7-11方差分析表自由度平方和均方F回归3321946.8018107315.6006残差11131723.198211974.848.9618总计14453670表7-12回归分析表系数标准误差t截距XXX657.055.7103−0.4169−3.4715167.45951.79180.32221.44293.92363.1868−1.2940−2.4058由表可知,该模型有3个自变量x1、x回归方程为:y=657.05+5.7103xF值为8.9618,比F的临界值F(3,11)=3.59大,所以回归模型整体显著,R为0.842407,R^2为0.709650,可以看出拟合程度较好,调整的R^2为0.630463,消除自变量的个数的影响之后,拟合程度一般。11.某汽车生产厂商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到了表7-13、表7-14的有关结果:表7-13变差来源dfSSMSFSignificanceF回归2.17E-09残差40158.07——总计111642866.67———表7-14参数估计表Coefficients标准误差tStatPvalueIntercept363.689162.455295.8231910.000168XVariable1.4202110.07109119.977492.17E-09要求:完成上面的方差分析表。变差来源dfSSMSFSignificanceF回归11422708.61422708.6354.2772.17E-09残差1040158.074015.807——总计111642866.67———汽车销售量的变差中有多少是由广告费用的变动引起的?R2=SSR销售量与广告费用之间的相关系数是多少?r=写出估计的回归方程并解释回归系数的实际意义。y=363.6891+142021x,回归系数为1420211,表示广告费用每变动一个单位,销售量平均变动(5)检验线性关系的显著性(α=0.05)。SignificanceF=2.17E-09<0.05,回归模型显著第八章1.什么是时间数列?其基本要素及作用是什么?时间数列,也称为时间序列或动态数列,是将社会经济指标的数值按照时间顺序加以排列而形成的数列。时间数列由两大要素所构成,一个是统计指示所属的时间,另一个是统计指标在不同时间上的观测值。进行时间数列分析的作用主要有:1.描述事物的发展现状和结果。2.研究事物的发展趋势和发展快慢的程度。3.探索事物发展变化的特点和规律性。4.对事物发展的未来状况进行科学的预测。2.环比发展速度和定基发展速度有何关系?环比发展速度是报告期水平与其前一期水平之比,定基发展速度是报告期水平与某一固定基期水平之比。各期环比发展速度的连乘积等于定基发展速度。3.平均发展速度的计算有哪两种方法?各有什么特点?如何正确使用?平均发展速度是时间数列中各期环比发展速度的平均数,表明事物在一定时期内逐期平均发展变化的程度。平均发展速度的计算方法有几何平均法和方程法两种。几何平均法又称为水平法。这是因为用这种方法计算平均发展速度的出发点是要求在期初水平()的基础上,按平均发展速度发展所达到的理论期末水平()与同期按各年实际发展速度发展所达到的实际期末水平()保持一致,即必须满足关系式:由此可见,几何平均法(即水平法)的特点是侧重于考察最末一期的发展水平,可以直接用期末水平比期初水平计算方程法又称为累计法。这是因为用方程法计算平均发展速度,侧重于考察时间数列各期发展水平的累计总量,用方程法平均发展速度推算出的各期理论水平之和等于各期的实际水平之和。因此,方程法适宜于基建投资总额、植树造林总面积等侧重于观察全期累计总量指标平均发展速度的计算4.什么是长期趋势?如何测定?长期趋势是指由于制约客观事物发展的各种持续增大或减少的因素作用,而使得所考察的指标所表现出的具有一定方向性的增长或减少趋势。测定长期趋势的方法很多,常用的方法由移动平均法和数学模型法两种。5.常用趋势模型有哪几种?如何正确选择使用?a直线趋势模型:b指数曲线趋势模型:c二次曲线趋势模型:d修正指数曲线趋势模型:e龚珀茨曲线趋势模型:f逻辑曲线趋势模型:首先,根据观察数据绘制散点图,从而发现其数量变化规律,根据图形的变化特点确定适当的趋势模型。其次,可根据时间数列本身的变动特点,通过计算相应的指标来确定趋势模型。对于时间数列,若其观测值的逐期增长量大致相同,可采用直线趋势模型;若其二级增长量即逐期增长量的逐期增长量大致相同,可采用二次曲线趋势模型;若其环比发展速度大致相同,可采用指数曲线趋势模型;若其对数的逐期增长量的环比发展速度大致相同,可采用龚珀茨曲线模型;若其倒数的逐期增长量的环比发展速度大致相同,可采用逻辑曲线模型。6.什么是季节变动?如何测定?季节变动是客观事物随着天气的变化和四季的更替而表现出的一种规律性的变动。有同期直接平均法和长期趋势剔除法两种测定方法7.时间数列的构成因素有哪些?长期趋势、季节变动、循环变动和不规则变动8.某企业9月份职工人数资料如下:日期1日9日16日25日30日职工人数(人)220250260274268试求该企业9月份的平均职工人数。9.解:时间4月5月6月7月商品销售额(万元)160210240月初库存额(万元)55655560平均商品库存额606057.5商品流转次数2.673.54.17第二季度平均商品库存额第二季度商品流转次数=160+210+24010.解:年份200620072008200920102011职工平均工资(元)250027002950310033003500逐期增长量200250150200200累积增长量2004506008001000环比发展速度%108109.26105.08106.45106.06环比增长速度89.265.086.456.06定基发展速度108118124132140平均增长量=1000/5=200平均发展速度=5平均增长速度=6.96%11.y=215.28+153.83t(2001年为原点2012年t=11,代入方程得2012年产值=215.28+153.83×11=1907.4112.某地1996-2000年的粮食产量资料如下:年份199619971998199920002001粮食产量(万吨)320332340356380400试用最小二乘法拟合直线趋势方程,并据以预测2002、2003、2004年的粮食产量。解:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿童枪械课件
- 《通货膨胀对A股的》课件
- 大班数学《9以内的加减法》课件
- 区经信委经济发展工作总结
- 医疗器械监督管理条例680号
- 钢铁冶金净化施工协议
- 气体行业产品经理招聘协议
- 艺术品租赁与展览协议
- 影视作品授权使用合同
- 员工节能减排协议
- 2024年医疗器械经营质量管理规范培训课件
- 景区旅游安全风险评估报告
- GB/T 36187-2024冷冻鱼糜
- 22G101三维彩色立体图集
- 建筑施工安全生产治本攻坚三年行动方案(2024-2026年)
- DL-T 1476-2023 电力安全工器具预防性试验规程
- 国家开放大学《心理健康教育》形考任务1-9参考答案
- MOOC 法理学-西南政法大学 中国大学慕课答案
- (高清版)DZT 0399-2022 矿山资源储量管理规范
- 中心静脉导管堵塞原因及对策
- 二年级语文上册 课文7 21《狐假虎威》练习 新人教版-新人教版小学二年级上册语文试题
评论
0/150
提交评论