统计分析方法——描述性统计_第1页
统计分析方法——描述性统计_第2页
统计分析方法——描述性统计_第3页
统计分析方法——描述性统计_第4页
统计分析方法——描述性统计_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、03.01.2021,1,市场调研 Marketing Research 主讲人:蔡清毅 厦门理工学院文化传播系 2007年5月,03.01.2021,厦门理工学院文化传播系 蔡清毅,2,市场调研,描述性统计 频数分布:列联表和假设检验,03.01.2021,厦门理工学院文化传播系 蔡清毅,3,1.数据的表现统计数字和统计图表,假如你已经获得了所要的全部数据; 认识数据的第一步:你得到的是什么类型的数据? 利用图和表来展示数据中的信息; 运用指标刻画数据的某些特征和程度; 使用EXCEL来完成对数据的描述,03.01.2021,厦门理工学院文化传播系 蔡清毅,4,数据变量的分类,按照取值类型:

2、品质数据和数量数据; 按照测量水平:定类(Nominal)、定序(Ordinal)、定距(Interval)、定比(Ratio)等四类; 按照获取时间:截面数据、时间序列; 不同类型的数据应使用不同的统计方法; 问题:刚才的数据表中分别是什么类型,03.01.2021,厦门理工学院文化传播系 蔡清毅,5,区分不同的测量水平,区分原则:定类数据没有大小之分;定序数据有大小之分,差值有意义;定距数据有大小之分,差值有意义,但其比值无意义;定比数据比值有意义。 定比定距数据可以向前化成定序或者定类数据,但是将损失一定信息;反之,不能将定序定类数据化成定距定比数据,03.01.2021,厦门理工学院文

3、化传播系 蔡清毅,6,品质标志的描述方法(1,频数分布、相对分布、百分比频数分布,某校学生对体育锻炼的态度,03.01.2021,厦门理工学院文化传播系 蔡清毅,7,品质标志描述方法(2) 条形图、柱形图,某校学生对体育锻炼态度调查结果,03.01.2021,厦门理工学院文化传播系 蔡清毅,8,品质标志的描述方法(3) 饼图,某校学生对体育锻炼态度调查结果,03.01.2021,厦门理工学院文化传播系 蔡清毅,9,对矿泉水市场的调查,北京市居民矿泉水最喜欢品牌,03.01.2021,厦门理工学院文化传播系 蔡清毅,10,数量标志的描述方法(1,频数分布 单项式分布 组距式分布:等组距、不等组距

4、 有关概念:组数、 组限(上限、下限)、 开口组、闭口组、组距、 组中值,03.01.2021,厦门理工学院文化传播系 蔡清毅,11,如何按品质标志分类 如何按标志标志分类,假设某年某月某工地100名工人所得工资资料如下: (单位:元,450 520 540 580 650 720 580 780 650 620 首先:编制一个序列 其次:编制变量数列,数量标志的描述方法(1,案例,03.01.2021,厦门理工学院文化传播系 蔡清毅,12,1)单项变量数列,数量标志的描述方法(1,03.01.2021,厦门理工学院文化传播系 蔡清毅,13,2)等组距变量数列,数量标志的描述方法(1,03.0

5、1.2021,厦门理工学院文化传播系 蔡清毅,14,数量标志的描述方法(1,03.01.2021,厦门理工学院文化传播系 蔡清毅,15,注意几个问题: 第一 工资水平是连续变量 要用重叠组限 第二 组限的确定,即分组界限的确定 第三 组距大小的确定 第四 组数的确定,组数,数量标志的描述方法(1,03.01.2021,厦门理工学院文化传播系 蔡清毅,16,3)不等组距变量数列 如在生命统计中,人口死亡率将人口按年龄分组,1岁以下 11.9岁 22.9岁 33.9岁 44.9岁,组距为1,59.9岁 1014.9岁 1519.9岁,组距为5,2029.9岁 3039.9岁 4049.9岁 505

6、9.9岁,组距为10,6064.9岁,组距为5,数量标志的描述方法(1,03.01.2021,厦门理工学院文化传播系 蔡清毅,17,数量标志的描述方法(2,某校20名学生的身高分布表,03.01.2021,厦门理工学院文化传播系 蔡清毅,18,数量标志的描述方法(3)直方图,03.01.2021,厦门理工学院文化传播系 蔡清毅,19,数量标志的描述方法(4,对数据进行探索性分析:J.W.Tukey; 茎叶图(Stem-leaf,03.01.2021,厦门理工学院文化传播系 蔡清毅,20,描述两个变量的关系,研究两个变量之间的关系:两个变量的类型分别是什么? 两个品质变量之间的关系; 一个品质变

7、量和一个数量变量的关系; 两个数量变量之间的关系,03.01.2021,厦门理工学院文化传播系 蔡清毅,21,交叉分组列表(列联表,表1 学生性别对体育锻炼的态度调查结果比较,03.01.2021,厦门理工学院文化传播系 蔡清毅,22,表2 年龄和性别对出国旅行的愿望的影响,交叉分组列表(列联表,03.01.2021,厦门理工学院文化传播系 蔡清毅,23,图形展示两个变量的关系,03.01.2021,厦门理工学院文化传播系 蔡清毅,24,描述两个数量型的变量 散点图,通过这个图,你觉得身高和体重是什么关系,03.01.2021,厦门理工学院文化传播系 蔡清毅,25,数据描述的数值方法,通过数据

8、指标来概括数据中的信息; 如何刻画数据的集中程度,或集中位置; 如何刻画数据的变异程度; 如何刻画检验异常值; 如何刻画两个变量之间的关系; 探索性分析,03.01.2021,厦门理工学院文化传播系 蔡清毅,26,数据集中位置的度量,平均数(Mean) 中位数(Median) 众数(Mode) 四分位数(Quartiles) 百分位数(Percentiles) 调整(或截尾)平均数(Trimmed Mean,03.01.2021,厦门理工学院文化传播系 蔡清毅,27,一个例子,某城市一居室月租金(美元)的70个数据,03.01.2021,厦门理工学院文化传播系 蔡清毅,28,平均月租金,03.

9、01.2021,厦门理工学院文化传播系 蔡清毅,29,月租金的中位数,中位数=(475+475)/2=475美元,03.01.2021,厦门理工学院文化传播系 蔡清毅,30,月租金的众数,众数是450,450出现的最多,频数是7,03.01.2021,厦门理工学院文化传播系 蔡清毅,31,理解百分数,P百分数是这样一个数,它使得至多有p%的数据项小于这个数,而且至多有(100-p)%的数据的数据大于这个数。 中位数和上下四分位数都是特殊的百分位数,03.01.2021,厦门理工学院文化传播系 蔡清毅,32,计算第P百分位数的步骤,以递增顺序排列原始数据(由小到大); 计算 I=(p/100)

10、n; 如果I不是整数,将I向上取整。大于I的毗邻整数指示第p百分位数的位置;如果I是整数,则第p百分位数是第I项与第I+1项的平均值,03.01.2021,厦门理工学院文化传播系 蔡清毅,33,月租金的第90百分位数,计算I=(90/100) 70=63。所以第90百分位数是 第63和64个数的平均值,03.01.2021,厦门理工学院文化传播系 蔡清毅,34,四分位数,第一个四分位数 =第25百分位数 第三个四分位数 =第75百分位数,03.01.2021,厦门理工学院文化传播系 蔡清毅,35,截尾均值,去除 %的最大和最小值,计算剩余数的平均值。 月租金的5%的截尾值=487.19,03.

11、01.2021,厦门理工学院文化传播系 蔡清毅,36,考虑数据的类型,不同类型的数据应该采用不同类型的指标来刻画他们的集中位置。 对于定类数据你能够做什么? 对于定序数据你能够做什么? 对于定距数据和定比数据你能够做什么,03.01.2021,厦门理工学院文化传播系 蔡清毅,37,数据变异程度的度量,全距(Range) 四分位间距(IQR) 方差(Variance) 标准差(Standard Deviation) 变异系数(Coefficient of Variance, CV,03.01.2021,厦门理工学院文化传播系 蔡清毅,38,月租金的全距和四分位间距,03.01.2021,厦门理工

12、学院文化传播系 蔡清毅,39,关于方差和标准差,总体方差 样本方差 总体标准差,样本标准差s。 样本的标准差系数,03.01.2021,厦门理工学院文化传播系 蔡清毅,40,月租金的标准差,方差 标准差 标准差系数,03.01.2021,厦门理工学院文化传播系 蔡清毅,41,探索性的数据分析,五数概括 最小值(Min), 第一个四分位数( ), 中位数( ), 第三个四分位数( ), 最大值(Max,03.01.2021,厦门理工学院文化传播系 蔡清毅,42,用EXCEL对数据进行描述分析,数据录入 制作图表 数据分析 计算描述统计量 相关系数,03.01.2021,厦门理工学院文化传播系 蔡

13、清毅,43,3.假设检验,假设检验问题的提出 假设检验是首先对总体提出假设,从而抽取一个随机样本,然后以样本的统计值来验证这个假设是否成立,可以说假设检验是统计推论的反证法,03.01.2021,厦门理工学院文化传播系 蔡清毅,44,3.假设检验,假设检验的一般步骤 1)建立零假设 和备择假设 ; 2) 选择适当的用来决定是否拒绝零假设的统计方法和相应的检验统计量; 3)选择显著水平的大小。在实践中,进行假设检验的人员确定允许拒绝第一类错误概率的最大值称为检验的显著性水平。显著性水平一般选择0.05和0.01,03.01.2021,厦门理工学院文化传播系 蔡清毅,45,3.假设检验,4)决定样

14、本规模并收集数据,计算检验统计值,如样本均值、样本比例、样本标准差等等; 5)用检验统计量的抽样分布来决定检验统计量在零假设条件下的概率,以及检验统计量的临界值(即指拒绝域的边界),以便将检验统计量的值与临界值比较,03.01.2021,厦门理工学院文化传播系 蔡清毅,46,3.假设检验,6)做出是否拒绝零假设的决定。有四种拒绝零假设的方式: 如果最终统计量落入拒绝域之内,则拒绝零假设H0 如果最终统计量(它的绝对值)大于临界值,则拒绝零假设H0 如果概率值小于显著性水平,则拒绝零假设H0 如果零假设的值落在置信区间之外,则拒绝零假设H0,03.01.2021,厦门理工学院文化传播系 蔡清毅,

15、47,3.假设检验,03.01.2021,厦门理工学院文化传播系 蔡清毅,48,3.假设检验,03.01.2021,厦门理工学院文化传播系 蔡清毅,49,课堂练习,03.01.2021,厦门理工学院文化传播系 蔡清毅,50,课堂练习,03.01.2021,厦门理工学院文化传播系 蔡清毅,51,课堂练习,03.01.2021,厦门理工学院文化传播系 蔡清毅,52,课堂练习,03.01.2021,厦门理工学院文化传播系 蔡清毅,53,课堂练习,03.01.2021,厦门理工学院文化传播系 蔡清毅,54,课堂练习,第一类错误是指样本结果拒绝了实际上正确的零假设。本例,如果通过样本数据得出,认为偏好新的服务的客户比例超过40名,而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论