统计分析基础知识

上传人：无*** IP属地：河北上传时间：2020-05-14 格式：DOC 页数：10 大小：605KB 积分：15 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一统计学中数据类型在统计学中，统计数据主要可分为四种类型，分别是定类数据，定序数据，定距数据，定比变量。1.定类数据（Nominal）：名义级数据，数据的最低级，表示个体在属性上的特征或类别上的不同变量，仅仅是一种标志，没有序次关系。例如，”性别“，”男“编码为1，”女“编码为2。2.定序数据（Ordinal）:数据的中间级，用数字表示个体在某个有序状态中所处的位置，不能做四则运算。例如，“受教育程度”，文盲半文盲=1，小学=2，初中=3，高中=4，大学=5，硕士研究生=6，博士及其以上=7。3.定距数据（Interval）:具有间距特征的变量，有单位，没有绝对零点，可以做加减运算，不能做乘除运算。例如，温度。4.定比变量（Ratio）:数据的最高级，既有测量单位，也有绝对零点，例如职工人数，身高。一般来说，数据的等级越高，应用范围越广泛，等级越低，应用范围越受限。不同测度级别的数据，应用范围不同。等级高的数据，可以兼有等级低的数据的功能，而等级低的数据，不能兼有等级高的数据的功能。二李克特量表李克特量表又称分项评分量表，时由美国社会心理学家Rensis A.Likert于1932年提出的。李克特量表的度量级别，通常是5级，在应用中7级，9级均可，但通常不少于5级，不高于9级。三归一化l 在统计学中，归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布，归一化在-1-+1之间是统计的坐标分布。即该函数在(-,+)的积分为1线性函数转换如下y=(x-MinValue)/(MaxValue-MinValue)说明：x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值。(x-min)/(max-min)这样所有的数据都归一化为0到1之间的数了l 归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。归一化是为了加快训练网络的收敛性，可以不进行归一化处理l 归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布，归一化在-1-+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的，归一化是同一在0-1之间的统计概率分布;SVM是以降维后线性划分距离来分类和仿真的，因此时空降维归一化是统一在-1-+1之间的统计坐标分布。l 归一化是因为sigmoid函数的取值是0到1之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。所以这样做分类的问题时用0.9 0.1 0.1就要比用要好。但是归一化处理并不总是合适的，根据输出值的分布情况，标准化等其它统计变换方法有时可能更好。主要是为了数据处理方便提出来的，把数据映射到01范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内。l 归一化方法（Normalization Method）l 1。把数变为（0，1）之间的小数主要是为了数据处理方便提出来的，把数据映射到01范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内。l 2 。把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。比如，复数阻抗可以归一化书写：Z = R + jL = R(1 + jL/R) ，复数部分变成了纯数量了，没有量纲。l 标准化方法（Normalization Method）l 数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的，为了能够将指标参与评价计算，需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间。l 关于神经网络（matlab）归一化的整理l 关于神经网络归一化方法的整理l 由于采集的各数据单位不一致，因而须对数据进行-1，1归一化处理，归一化方法主要有如下几种，供大家参考：（by james）l 1、线性函数转换，表达式如下：l y=(x-MinValue)/(MaxValue-MinValue)l 说明：x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值。l 2、对数函数转换，表达式如下：l y=log10(x)l 说明：以10为底的对数函数转换。l 3、反余切函数转换，表达式如下：y=atan(x)*2/PI归一化是为了加快训练网络的收敛性，可以不进行归一化处理归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布，归一化在-1+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统计分别几率来进行训练（概率计算）和预测的，归一化是统一在0-1之间的统计概率分布；当所有样本的输入信号都为正值时，与第一隐含层神经元相连的权值只能同时增加或减小，从而导致学习速度很慢。为了避免出现这种情况，加快网络学习速度，可以对输入信号进行归一化，使得所有样本的输入信号其均值接近于0或与其均方差相比很小。归一化是因为sigmoid函数的取值是0到1之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。所以这样做分类的问题时用0.9 0.1 0.1就要比用1 0 0要好。但是归一化处理并不总是合适的，根据输出值的分布情况，标准化等其它统计变换方法有时可能更好。l MATLAB归一化方法你在所有的数据中找出最大的那个数max可以用matlab的max函数在所有的数据中找出最小的那个数min可以用matlab的min函数l 如果是Origin，那么选中要归一化的数据列，点击右键，在弹出的对话框中选择Normalizel 在excel表格中如何对数据进行归一化处理比如对A1到A10中的是个数进行归一化处理，就是分别计算每个数占这是个数这和的百分比，可以用公式计算，不是很难，例如：在单元格B1中输入“=A1/sum($A$1:$A$10),点击B1右下角的黑十字下拉到B10放开鼠标，b列的结果就是你要的归一化结果。数据多的话只需改动公式中sum函数的引用位置，如A列有100个数，B1中改为”=A1/sum（$A$1：$A$100）“四利用SPSS检验是否符合正态分布正态分布也叫常态分布，在我们后面说的很多东西都需要数据呈正态分布。下面的图就是正态分布曲线，中间隆起，对称向两边下降。下面我们来看一组数据，并检验“期初平均分” 数据是否呈正态分布（此数据已在SPSS里输入好）在SPSS里执行“分析描述统计频数统计表”(菜单见下图，英文版的可以找到相应位置)，然后弹出左边的对话框，变量选择左边的“期初平均分”，再点下面的“图表”按钮，弹出图中右边的对话框，选择“直方图”，并选中“包括正态曲线”设置完后点“确定”，就后会出来一系列结果，包括2个表格和一个图，我们先来看看最下面的图，见下图，上图中横坐标为期初平均分，纵坐标为分数出现的频数。从图中可以看出根据直方图绘出的曲线是很像正态分布曲线。如何证明这些数据符合正态分布呢，光看曲线还不够，还需要检验：检验方法一：看偏度系数和峰度系数我们把SPSS结果最上面的一个表格拿出来看看(见下图)：偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886；两个系数都小于1，可认为近似于正态分布。检验方法二：单个样本K-S检验在SPSS里执行“分析非参数检验单个样本K-S检验，弹出对话框，检验变量选择“期初平均分”，检验分布选择“正态分布”，然后点“确定”。检验结果为：从结果可以看出，K-S检验中,Z值为0.493，P值(sig 2-tailed)=0.9680.05，因此数据呈近似正态分布检验方法三：Q-Q图检验在SPSS里执行“图表Q-Q图”，弹出对话框，见下图：变量选择“期初平均分”，检验分布选择“正态”，其他选择默认，然后点“确定”，最后可以得到Q-Q图检验结果，结果很多，我们只需要看最后一个图，见下图。QQ Plot 中，各点近似围绕着直线，说明数据呈近似正态分布。四显著性差异简介显著性差异(significance level)，是一个统计学名词。它是统计学（Statistics）上对数据差异性的评价。也可能来自于实验处理对实验对象造成了根本性状改变，因而前测后测的数据会有显著性差异。折叠编辑本段案例例如，记忆术研究发现，被试学习某记忆法前的成绩和学习记忆法后的记忆成绩会有显著性差异，这一差异很可能来自于学记忆法对被试记忆能力的改变。显著性差异是一种有量度的或然性评价。比如，我们说A、B两数据在0.05水平上具备显著性差异，这是说两组数据具备显著性差异的可能性为95%。两个数据所代表的样本还有5%的可能性是没有差异的。这5%的差异是由于随机误差造成的。折叠编辑本段技术标准通常情况下，实验结果达到0.05水平或0.01水平，才可以说数据之间具备了差异显著或是极显著。在作结论时，应确实描述方向性（例如显著大于或显著小于）。sig值通常用 P0.05 表示差异性不显著；0.01P0.05 表示差异性显著：P0.01表示差异性极显著。如果我们是检验某实验（Hypothesis Test）中测得的数据，那么当数据之间具备了显著性差异，实验的虚无假设（Null Hypothesis）就可被推翻，对立假设（Alternative Hypothesis）得到支持；反之若数据之间不具备显著性差异，则实验的备则假设可以被推翻，虚无假设得到支持。折叠编辑本段原理当数据之间具有了显著性差异，就说明参与比对的数据不是来自于同一总体（Population），而是来自于具有差异的两个不同总体，这种差异可能因参与比对的数据是来自不同实验对象的，比如一些一般能力测验中，大学学历被试组的成绩与小学学历被试组会有显著性差异。也可能来自于实验处理对实验对象造成了根本性状改变，因而前测后测的数据会有显著性差异。检验正态分布的办法： 1、在spss菜单中选择分析描述统计探索，将需要检验的变量

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计分析基础知识

文档简介

温馨提示

最新文档

评论

统计分析基础知识

文档简介

温馨提示

最新文档

评论

相关文档