(5.1.5)-1.3数据统计描述与分布

上传人：职*** IP属地：广东上传时间：2024-05-18 格式：DOC 页数：8 大小：25.81KB 积分：15 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

脚本——数据统计描述与分布(ppt1,2)同学，你好，这节课我们来学习数据统计描述与分布。(ppt3)我们先来了解一下数据统计分布的重要性以及他的分类情况。(ppt4)在我们的日常生活中，数据统计结果随处可见。（动画1）例如吸烟对健康是有害的，吸香烟的男性平均寿命减少寿命2250天；不结婚的男性会平均寿命减少寿命3500天；身体超重30％会使平均寿命寿命减少1300天；每天摄取500毫升维生素C平均寿命可延长6年；身材高的父亲，其子女的身材一般也较高；笫二个出生的子女一般没有笫一个聪明等。（动画2）那么我们如何利用统计的方法来描述这些数据的统计分布规律呢？(ppt5)下面我们将数据分类。（动画1）按照数据来源分类，（动画2）可以分为表格数据，图和网络以及多媒体数据。比如关系记录，数据矩阵，向量，事物数据这些都属于表格数据；万维网，社交网络，分子结构等属于图和网络。文本、图像，视频，音频等属于多媒体数据。（动画3）如果按照数值变量分类，可以分为连续型和离散型。连续性是指其特征可以在实数空间任意取值，如温度、身高、长度、价格等，通常由浮点型表示。离散型其值域为有限集或可列集，若一个集合与自然数集合之间存在一一对应关系，则这个集合称为可列集。如汽车品牌、NBA球队等布尔型、等级型、名义型。(ppt6)接下来我们来讲解第二部分，数据的概括性度量。(ppt7)（动画1）第一种就是数据的均值。（动画2）均值也称为平均数，是一组数据相加后除以数据个数得到的结果。（动画3）常见的有简单平均数和加权平均数。简单平均数是值根据未经分组数据计算的平均数。设一组样本数据为𝑥_1,𝑥_2,…,𝑥_𝑛，样本量（样本数据的个数）为𝑛。则简单样本平均数用𝑥

bar表示，计算公式为：xbar=1/n*sigemai从1到n(x_i)。(ppt8)（动画1）加权平均数是指根据分组数据计算的平均数。设原始数据被分为k组，各组的组中值分别用𝑀_1,𝑀_2,…,𝑀_𝑘表示，各组变量值出现的频数分布用𝑓_1,𝑓_2,…,𝑓_𝑘表示，则样本加权平均数的计算公式为：𝑥

bar=sigemai从1到k(M_i*f_i)除以𝑛，其中n=sigemai从1到k(f_i)。（动画2）平均数是统计中最常用的数据代表值，比较可靠和稳定，因为它与每一个数据都有关，反映出来的信息最充分。平均数既可以描述一组数据本身的整体平均情况，也可以用来作为不同组数据比较的一个标准。(ppt9)（动画1）第二种是中位数。（动画2）当特征值的项数𝑛为奇数时，处于中间位置的特征值即为中位数；当𝑛为偶数时，中位数则为处于中间位置的2个特征值的平均数。（动画3）中位数作为一组数据的代表，可靠性较差，因为它只利用了部分数据。但当一组数据的个别数据偏大或偏小时，用中位数来描述该组数据的集中趋势就比较合适。(ppt10)（动画1）第三种数据的概括性度量是众数。（动画2）众数是数据中出现频率最高的数据。一般情况下，只有在数据量较大的情况下，众数才有意义。（动画3）众数作为一组数据的代表，可靠性也较差，因为它只利用了部分数据。在一组数据中，若个别数据变动很大，且某个数据出现的次数最多，此时用该数据表示这组数据的“集中趋势”就比较适合。(ppt11)（动画1）第四种是方差。（动画2）方差是各个数据与平均数之差的平方的和的平均数，计算公式如下：𝜎方=1/(𝑛−1)*sigemai从1到n[(𝑥_𝑖−𝑥

bar)]的平方。其中，𝑥

bar表示样本的平均数，𝑛表示样本的数量。（动画3）方差是测算离散趋势最重要、最常用的指标之一。当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。(ppt12)（动画1）数据距离也是数据的一种概括性度量。（见背板）（动画2）先来看第一个数据距离，闵可夫斯基距离。定义为d(i,j)=(x_i1-x_j1)的绝对值的h次方+(x_i2-x_j2)的绝对值的h次方+……+(x_id-x_jd)的绝对值的h次方，再开h次根号。其中，i=(x_i1,x_i2,…,x_id)，j=(x_j1,x_j2,…,x_jd)，h为序，上述距离也被称为𝐿_ℎ范式。（动画3）曼哈顿距离。当h=1，𝐿_1范式𝑑(𝑖,𝑗)=|𝑥_𝑖1−𝑥_𝑗1|+|𝑥_𝑖2−𝑥_𝑗2|+…+|𝑥_𝑖𝑑−𝑥_𝑗𝑑|，定义为曼哈顿距离，其中，𝑖=(𝑥_𝑖1,𝑥_𝑖2,…,𝑥_𝑖𝑑)，𝑗=(𝑥_𝑗1,𝑥_𝑗2,…,𝑥_𝑗𝑑)。(ppt13)（动画1）（见背板）欧氏距离定义。ℎ=2，𝐿_2范式𝑑(𝑖,𝑗)=根号下(x_i1-x_j1)的绝对值的平方+(x_i2-x_j2)的绝对值的平方+……+(x_id-x_jd)的绝对值的平方，其中，𝑖=(𝑥_𝑖1,𝑥_𝑖2,…,𝑥_𝑖𝑑)，𝑗=(𝑥_𝑗1,𝑥_𝑗2,…,𝑥_𝑗𝑑)。（动画2）第四种距离是余弦相似度。假定𝑎=(𝑥_1,𝑥_2,…,𝑥_𝑛),𝑏=（𝑦_1，𝑦_2，…，𝑦_𝑛）是𝑛,则𝑎与𝑏夹角的余弦𝜃为cos(𝜃)=sigemak从1到n(𝑥_𝑖*y_𝑖)除以（根号下sigemal从1到n(𝑥_𝑖)的平方与根号下sigemal从1到n(y_𝑖)的平方的乘积）。(ppt14)下面我们来讲解分布函数。(ppt15)（动画1）先来看离散型的概率分布。第一种伯努利分布。（动画2）伯努利试验，即只有两种可能结果的单次随机试验。进行一次伯努利试验，成功(X=1)的概率为p，失败(X=0)的概率为1−p，则称随机变量X服从伯努利分布。其概率分布列为P(x)=p的x次方乘以(1-p)的(1-x)次方，即当x=1时，概率为p；当x=0时，概率为q。伯努利分布的期望和方差为μ=E(X)=p，σ^2=p(1−p)。（动画3）例如抛一次均匀硬币的结果只有正面和反面；特定机器生产的零件的是有缺陷的还是无缺陷的等，均属于伯努利分布。(ppt16)在python中用binomial=binom.pmf(k,n,p)计算概率分布律。(ppt17)（动画1）下面我们来看二项分布，也是一种离散型的概率分布。（动画2）二项分布是𝑛重独立伯努利试验成功次数的离散概率分布。如果试验𝐸是一个𝑛重伯努利试验，每次伯努利试验的成功概率为𝑝，𝑋代表成功的次数，则𝑋的概率分布是二项分布，记为𝑋服从𝐵(𝑛,𝑝)。（见背板）其概率分布列为:𝑃(𝑥)=𝐶,n,x乘以𝑝的𝑥次方乘以(1−𝑝)的(1−𝑥)次方。二项分布的期望和方差为𝜇=𝐸(𝑋)=𝑛𝑝，𝜎方=𝑛𝑝(1−𝑝)。（动画3）例如保险公司可以利用二项分布算出公司获利、亏本的各种情形，以保证公司业务量与利润达到一定要求；在生产活动中利用二项分布算出至少需配备多少工人，才能保证设备发生故障但不能及时维修的概率小于0.01等。(ppt18)用python拟合二项分布。n=10表示独立实验次数，p=0.3表示每次事件成功的概率。我们用binomial=binom.pmf(k,n,p)来计算概率分布律。(ppt19)（动画1）第三种离散型概率分布，泊松分布。（动画2）泊松分布的参数𝜆是单位时间(或单位面积)内随机事件的平均发生次数。用于描述“一定时间段或一定空间区域或其他特定单位内某一事件出现的次数”。对于这类只取非负整数的随机变量X服从的概率分布称为泊松分布。（动画3）当二项分布的𝑛很大而𝑝很小时，泊松分布可作为二项分布的近似，其中𝜆为𝑛𝑝。通常当𝑛≧20,𝑝≦0.05时，就可以用以下泊松公式近似计算。（见背板）𝑃(𝑋=𝑘)=𝜆的𝑘次方除以𝑘的阶乘再乘以𝑒的(−𝜆)次方，其中𝑘=0,1,…。（动画4）例如一定时间段内，某航空公司接到的订票电话数；一定时间内，到车站等候公共汽车的人数；一定路段内，路面出现损坏的次数；一匹布上发现的疵点个数；一定页数的书刊上出现的错别字个数等等，都属于泊松分布。(ppt20)用python拟合泊松分布，rate=5表示每分钟事件发生的次数为5（即𝜆=5）；n=np.arange(0,11)表示进行10次模拟；我们用y=stats.poisson.pmf(n,rate)来计算概率分布律。(ppt21)（动画1）来看下面一种离散型概率分布——超几何分布。（动画2）若采用不重复抽样（即从总体中抽出一个个体观测完后不放回总体，然后再继续抽下一个个体），各次试验并不独立，成功的概率也互不相等，而且总体元素的数目N很小或样本量n相对千N来说较大时，二项分布就不再适用。这时，样本中“成功”的次数则服从超几何概率分布，（见背板）记作𝑋~𝐻(𝑛,𝑁,𝑀)。对于𝑋=𝑥时有𝑃(𝑋=𝑥)=𝐶_𝑁^𝑛分之𝐶_𝑀^𝑥乘以𝐶_(𝑁−𝑀)^(𝑛−𝑥)，其中𝑥=0,1,⋯,𝑙，式中，𝑙=𝑚𝑖𝑛(𝑀,𝑛)，𝑛为试验次数，𝑁为总体中元素个数，𝑀为总体中代表成功的元素的个数。（动画3）例如在产品质量检验的不放回抽检中,若N件产品中有M件次品,抽检n件时所得次品数用超几何分布解决；在购买股票时有N只股票，其中有M只是获利的，若购买n只股票，其获利股的数量可用超几何分布解决。(ppt22)用python拟合超几何分布。N=10表示总体中元素个数为10；M=3表示总体中代表成功元素的个数为3；n=4表示试验4次；K=3表示试验成功了3次。我们用命令y=stats.hypergeom.pmf(K,M,n,N)来计算概率密度函数(ppt23)（动画1）接下来我们来学习几种连续型分布函数。第一种时正态分布。（动画2）若随机变量𝑋服从一个位置参数为𝜇、尺度参数为𝜎的概率分布，且其概率密度函数为（见背板）f(x)=根号2派𝜎分之1乘以e的[负(2𝜎方)分之(𝑥−𝑢)的平方]次方。则这个随机变量就称服从正态分布，记作𝑋服从𝑁(𝜇，𝜎方)。当𝜇=0,𝜎=1时的正态分布是标准正态分布。（动画3）正态分布可以应用在某些医学现象，如同质群体的身高、红细胞数、血红蛋白量、胆固醇等，以及实验中的随机误差，呈现为正态或近似正态分布。(ppt24)用python拟合正态分布，随机生成均值为0，标准差为1的1000个服从正态分布的数mu,sigma=0,1。我们用a=np.random.normal(mu,sigma，size=1000)来计算概率密度函数。(ppt25)（动画1）第二种连续型分布函数——均匀分布。（动画2）均匀分布是最简单的连续随机变量，它表示在区间[𝑎,𝑏]内任意等长度区间内事件出现的概率相同这样一种分布。（动画3）𝑋的概率密度函数如下:𝑓(𝑥)=1/(𝑏−𝑎)，当𝑥属于[𝑎,𝑏]时；f(x)=0，当𝑥不属于[𝑎,𝑏]时。（动画4）例如向区间（A,B）随机投点,落点坐标X服从均匀分布；时钟任意时针的角度值都是均匀分布。(ppt26)在python中用p=stats.uniform.pdf(x,0,1)来表示在0到1范围内生成其概率密度函数。图中紫色的线即表示其理论概率密度，在0到1的范围内，一直为1。(ppt27)（动画1）第三种连续型分布函数，指数分布。（动画2）设随机变量𝑋的概率密度函数如下式，（见背板）𝑓(𝑥,𝜆)=𝜆*𝑒的(−𝜆𝑥)次方，𝑥≥0；𝑓(𝑥,𝜆)=0，𝑥<0。其中𝜆是大于0的常数，则称𝑋为服从参数𝜆的指数分布。（动画3）指数分布与泊松过程有紧密的联系，它具有无记忆性，在泊松过程中两次相继发生的事件之间的间隔服从指数分布，如第𝑛个顾客与第𝑛+1个顾客的到达时间间隔。(ppt28)在python中我们用p=stats.expon.pdf(x,loc=0,scale=1)计算指数分布E(1)的概率密度函数pdf；用c=stats.expon.cdf(x,loc=0,scale=1)计算指数分布E(1)的累计分布函数cdf。如图所示，蓝色线表示概率密度函数，黄色线表示累积分布函数。(ppt29)接下来我们来介绍几种常见的重要分布。（动画1）第一种是t分布。（动画2）用𝑡样本表示样本样本均值经标准化后的新随机变量，因此称为𝑡分布。（动画3）当正态总体标准差未知时，在小样本条件下对总体均值的估计和检验要用到𝑡分布。𝑡分布的概率即为曲线下面积。(ppt30)用python拟合t分布。x=np.linspace(-3,3,100)，其中x表示生成数据集，-3为序列起始点，3为序列结束点，100为生成的样本数；df1=stats.t.pdf(x,1)表示自由度为1的t分布；df2=stats.t.pdf(x,20)表示自由度为20的t分布。图中蓝色线表示自由度为1的t分布，黄色线表示自由度为20的t分布。(ppt31)（动画1）下面我们来学习卡方分布。（动画2）若𝑛个相互独立的随机变量𝜉₁，𝜉₂，...,𝜉_𝑛，均服从标准正态分布（也称独立同分布于标准正态分布），则这𝑛个服从标准正态分布的随机变量的平方和Q构成一新的随机变量，其分布规律称为卡方分布,记为𝑄服从自由度为n的卡方分布。（动画3）卡方分布具有许多重要的性质。1.卡方分布的变量值始终为正；2.卡方分布的形状取决其自由度n的大小，通常为不对称的右偏分布，但随着n的增大逐渐趋于对称；3.卡方分布的期望值为𝑛，方差为2𝑛；4.卡方分布具有可加性。（动画4）总体方差的估计和非参数检验

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(5.1.5)-1.3数据统计描述与分布

文档简介

温馨提示

最新文档

评论

(5.1.5)-1.3数据统计描述与分布

文档简介

温馨提示

最新文档

评论

相关文档