数据处理方法_第1页
数据处理方法_第2页
数据处理方法_第3页
数据处理方法_第4页
数据处理方法_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-.z.回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进展中心化〔Zero-centered或者Mean-subtraction〕处理和标准化〔Standardization或Normalization〕处理。目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态布的数据。计算过程由下式表示:下面解释一下为什么需要使用这些数据预处理步骤。在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比方在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,则他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有一样的尺度〔Scale〕。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了。简言之,当原始数据不同维度上的特征的尺度〔单位〕不一致时,需要标准化步骤对数据进展预处理。以下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的〔红色线段的长度表示尺度〕。

其实,在不同的问题中,中心化和标准化有着不同的意义,比方在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。另外,对于主成分分析〔PCA〕问题,也需要对数据进展中心化和标准化等预处理步骤二、利用E*cel对数据进展标准化处理在使用各种方法进展综合评价时,首先要对原始数据进展标准化和无量纲化处理,本例分享利用office的E*cel对数据进展标准化处理,使用的是极值处理法。1.该种方法的算法即标准化公式如附图所示,注:对于指标值恒定的情况不适用。这里以我国2007年中部地区6省的税收数据为例进展计算。易知,附图中的税收指标为极大型数据。所以采用的公式为*=〔*-min〕/(Ma*-min),这样标准化后的数据最大值为1,最小值为0使用Ma*,Min函数分别求出数据矩阵中每列中的最大值和最小值。

Ma*

146.1136

184.2366

102.9228

30.2578

25.8857

42.8733

15.656

7.8004

18.2303

14.9975

1.9689

17.1054

35.0698

3.3696

Min

53.0534

95.0788

37.8106

14.8271

2.8286

17.0098

5.7824

3.1799

4.1246

1.1311

0.3081

1.7933

5.5753

0.0874再求出极值处理法的分母即最大值与最小值的差值

ma*-min

93.0602

89.1578

65.1122

15.4307

23.0571

25.8635

9.8736

4.6205

14.1057

13.8664

1.6608

15.3121

29.4945

3.2822使用每列中的数值与最小值的差比上分母即可求出标准化后的数据。公式举例:值=(B6-$B$13)/$B$14。如附图所示为使用极值处理法后的前后数据比照。一、熵shang权法介绍熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。熵权法的根本思路是根据指标变异性的大小来确定客观权重。一般来说,假设*个指标的信息熵越小,说明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,*个指标的信息熵越大,说明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。二、熵权法赋权步骤1.数据标准化将各个指标的数据进展标准化处理。假设给定了k个指标,其中。假设对各指标数据标准化后的值为,则。2.求各指标的信息熵根据信息论**息熵的定义,一组数据的信息熵。其中,如果,则定义。3.确定各指标权重根据信息熵的计算公式,计算出各个指标的信息熵为。通过信息熵计算各指标的权重:。三、熵权法赋权实例1.背景介绍*医院为了提高自身的护理水平,对拥有的11个科室进展了考核,考核标准包括9项整体护理,并对护理水平较好的科室进展奖励。下表是对各个科室指标考核后的评分结果。但是由于各项护理的难易程度不同,因此需要对9项护理进展赋权,以便能够更加合理的对各个科室的护理水平进展评价。2.熵权法进展赋权

1〕数据标准化根据原始评分表,对数据进展标准化后可以得到以下数据标准化表表2

11个科室9项整体护理评价指标得分表标准化表科室*1*2*3*4*5*6*7*8*9A1.000.001.000.000.501.001.001.001.00B1.001.000.001.000.501.001.001.001.00C0.001.000.331.000.501.001.001.001.00D1.001.000.001.000.501.000.871.001.00E1.000.001.001.001.000.001.001.000.00F1.001.001.001.000.501.001.000.001.00G1.001.000.001.000.501.000.001.001.00H0.501.000.331.001.001.001.001.001.00I1.001.000.671.000.001.001.001.001.00J1.000.001.001.001.001.001.001.001.00K1.001.000.671.000.501.001.001.001.00

2〕求各指标的信息熵根据信息熵的计算公式,可以计算出9项护理指标各自的信息熵如下:表3

9项指标信息熵表

*1*2*3*4*5*6*7*8*9信息熵0.950.870.840.960.940.960.960.960.96

3〕计算各指标的权重根据指标权重的计算公式,可以得到各个指标的权重如下表所示:表4

9项指标权重表

W1W2W3W4W5W6W7W8W9权重0.080.220.270.070.110.070.070.070.073.对各个科室进展评分根据计算出的指标权重,以及对11个科室9项护理水平的评分。设Zl为第l个科室的最终得分,则,各个科室最终得分如下表所示表5

11个科室最终得分表科室ABCDEFGHIJK得分95.7193.1493.1792.7795.8498.0190.2195.1795.9797.8197.02指标体系的类型及构建原则:

1.指标体系的类型

传媒竞争力的评价指标,是用来评价传媒在实现一定目标〔中长期或短期〕过程中拥有的竞争优势所采用的标准和尺度。指标体系是一系列指标的构成体,这些指标之间存在有机的联系并相互作用,指标体系通过提醒这种联系和相互作用的规律来反映传媒竞争力系统的构造状况,考察系统构造的稳定性和应变能力,辨明系统功能和效益的演变动向和开展趋势,最终到达对传媒竞争力系统进展有效控制的目的。

依据竞争力评价的目的以及指标选取的范围,可以将传媒竞争力的评价指标体系分为综合指标体系和单项指标体系。单项指标体系只针对研究对象的*一方面进展评价,所选择的指标也只限于与这一方面相关的因素。其功能是评价传媒的局部竞争力。综合指标体系针对研究对象的全部领域进展评价,所选择的指标涉及传媒的各个方面。其功能是评价传媒的整体竞争力。

依据指标体系的内在逻辑关系,又可将其分为描述性指标体系和分析性指标体系。描述性指标体系主要反映系统的实际状况或条件,如资源、环境条件等。它按照一定的体系聚集社会经济各项统计中能描述传媒竞争力状态的各项指标。描述性指标体系具有以下几个根本功能:①聚集描述传媒竞争力状况和趋势的根本数据,力图全面、翔实地反映传媒竞争力开展的根本状态;②它是搜集传媒竞争力数据的框架;③它是协调、统一各项统计的根底。分析性指标体系主要是分析计量评价对象各因子之间的内在联系和各因子的开展趋势,如有关资源效率、经济效率等方面的指标。分析性指标体系的指标具有高度综合性和创新性,可以到达综合评价的目的,洞察和把握传媒竞争力存在及开展的状态和趋势。但是,分析性指标体系在设置和应用中会碰到指标权重难以确定的问题。另外,传媒竞争力评价指标的标准〔标准值或基准值〕也并不是一个绝对概念,随着时间的变化和外在条件的变化,标准也应该做相应的变更。

依据竞争力评价的对象范围,可以将传媒竞争力的评价指标体系分为总体性评价指标体系和分类性评价指标体系。总体性评价指标体系是对所有传媒进展综合评价的系统,针对的是传媒竞争力的同一性问题;分类性指标体系是对不同类型的媒体进展评估的系统,它可以解决媒体的差异性问题。两者可以互相参照,但一般说来,总体评价方法可以为分类评价方法提供理论依据;而分类评价则可以通过对各种不同类型媒体的具体评价,积累大量的实际数据,为总体性评价提供实践根底。

本文的首要目标是构拟一个总体性的综合评价指标体系,在此根底上,以实际应用为主要目的可以再构建分类性的综合或单项指标体系。为了既能反映一个媒体竞争力的现实存在状态,又能表达这种竞争力的开展趋势,我们将试图使指标体系的描述性与分析性统一起来。但无论是哪一类的指标体系,都应具有实用性、定量化和综合性等几个一般性的特征。

2.构建指标体系的原则

根据传媒竞争力的性质、层次和存在形态,传媒竞争力的评价不可能基于单个指标数据用一种简单的方法就能完成,而必须考虑诸多方面的因素。与此相应,确立评价指标也应该遵循以下几个根本原则。五种赋权法及其比拟摘要:本文介绍了五种确定评估指标权重的方法及其比拟。权重是综合评价中的一个重要的指标体系,合理地分配权重是量化评估的关键,权重的构成是否合理,也直接影响到评估的科学性。为了更好地选择确定权重的方法,我们给出了几种方法的详细计算过程,以便进展准确比照。关键词:权重统计平均法变异系数法层次分析法德尔菲法排序法一、权重的概念权重是一个相对的概念,是针对*一指标而言。*一指标的权重是指该指标在整体评价中的相对重要程度。权重表示在评价过程中,是被评价对象的不同侧面的重要程度的定量分配,对各评价因子在总体评价中的作用进展区别对待。事实上,没有重点的评价就不算是客观的评价,每个人员的性质和所处的层次不同,其工作的重点也肯定是不能一样的。因此,相对工作所进展的业绩考评必须对不同内容对目标奉献的重要程度做出估计,即权重确实定。二、3种主要确实定权重的方法(一)统计平均法统计平均数法〔Statisticalaveragemethod〕是根据所选择的各位专家对各项评价指标所赋予的相对重要性系数分别求其算术平均值,计算出的平均数作为各项指标的权重。其根本步骤是:第一步,确定专家。一般选择本行业或本领域中既有实际工作经历、又有扎实的理论根底、并公平公正道德高尚的专家;第二步,专家初评。将待定权数的指标提交给各位专家,并请专家在不受外界干扰的前提下独立的给出各项指标的权数值;第三步,回收专家意见。将各位专家的数据收回,并计算各项指标的权数均值和标准差;第四步,分别计算各项指标权重的平均数。如果第一轮的专家意见比拟集中,并且均值的离差在控制的范围之内,即可以用均值确定指标权数。如果第一轮专家的意见比拟分散,可以把第一轮的计算结果反应给专家,并请他们重新给出自己的意见,直至各项指标的权重与其均值的离差不超过预先给定的标准为止,即到达各位专家的意见根本一致,才能将各项指标的权数的均值作为相应指标的权数。(二)变异系数法变异系数法(Coefficientofvariationmethod)是直接利用各项指标所包含的信息,通过计算得到指标的权重。是一种客观赋权的方法。此方法的根本做法是:在评价指标体系中,指标取值差异越大的指标,也就是越难以实现的指标,这样的指标更能反映被评价单位的差距。由于评价指标体系中的各项指标的量纲不同,不宜直接比拟其差异程度。为了消除各项评价指标的量纲不同的影响,需要用各项指标的变异系数来衡量各项指标取值的差异程度。各项指标的变异系数公式如下:iii*Vni,,2,1

〔14—1〕式中:iV是第i项指标的变异系数、也称为标准差系数;i是第i项指标的标准差;i*是第i项指标的平均数。各项指标的权重为:niiiiVVW1〔14—2〕例如,英国社会学家英克尔斯提出了在综合评价一个国家或地区的现代化程度时,其各项指标的权重确实定方法就是采用的变异系数法。【例】试利用变异系数法综合评价一个国家现代化程度时的指标体系中的各项指标的权重。数据资料是选取*一年的数据,包括中国在内的中等收入水平以上的近40个国家的10项指标作为评价现代化程度的指标体系,计算这些国家的变异系数,反映出各个国家在这些指标上的差距,并作为确定各项指标权重的依据。其标准差、平均数数据及其计算出的变异系数等见表14-3。表14-3现代化水平评价指标的权重指标人均GNP(美元)农业占GDP的比重(%)第三产业占GDP比重(%)非农业劳动力比重(%)城市人口比重(%)人口自然增长率(%)平均预期寿命(岁)成人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论