版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
科技产出能力影响因素分析与预测模型研究
在全球化经济和社会发展的时代,国家越来越重视科技进步对经济和社会全球发展的推动作用。在“五一”期间,国家科技研究和开发领域的投资呈现出指数级的速度,研发人员的总量也迅速增加。他们建立了一系列具有国际先进水平的重点实验室和技术中心。在经济持续繁荣和研发投入快速增长的作用下,我国发明专利授权量上升到世界第3位,国内发明专利申请量年均增长25.7%,授权量年均增长31%;国际科学论文总量由世界第5位上升到第2位,被引用次数由世界第13位上升到第8位。在“十二五”期间,国家科技发展的主要目标:“国际科学论文被引用次数进入世界前5位,每万人发明专利拥有量达到3.3件,研发人员发明专利申请量达到12件/百人”。为达到这个目标,政府在制定科技政策时,需要考虑到影响科技产出能力和水平的因素有哪些?这些因素在促进和提升科技产出能力和水平的重要程度即相关性如何?国家对这些影响因素的投入需要达到什么样的规模和水平才能使科技产出能力和水平达到预期目标。因此,非常有必要建立一个科学合理、可靠性高的定量化影响因素分析与预测模型,对科技产出能力和水平及其影响因素进行定量化分析和预测。近年来国内外学者在科技产出影响因素研究方面,主要集中于R&D经费投入与专利申请之间关系的实证研究。如中科院朱月仙和方曙从R&D经费支出类型的角度,分析了基础研究、应用研究和试验发展研究三种R&D经费支出类型对专利申请量的不同影响程度;淅大经济学院孙小蒂和王中兴研究了中国R&D存量与中国高技术产业各个产出指标之间的相关性;国外学者如Mueller、Hausman、Hall、Griliches和Tom等从科技主体R&D支出的角度考察了科技机构、高等院校和企业R&D支出与专利申请量之间的关系。笔者通过梳理分析相关研究文献,发现国内外学者在考察科技产出相关影响因素时只是单独从某个方面或角度进行,不够系统和全面,并且对科技产出能力预测领域的研究甚少。针对该问题,笔者融合定性和定量分析与预测方法对科技产出能力及其影响因素进行分析和预测研究,既能发挥定性分析方法的全面、细致、深入和主观能动性的优点,也能够发挥定量分析和预测方法的系统、客观、规范和科学的优点。1研究对象的选择专利和论文产出是反映科技产出能力的两种重要表现形式,其中PCT专利申请量和SCI论文数量更能够在一定程度上反映一个国家的科技创新能力和国际影响力。因此,笔者选择中国PCT专利申请量和SCI论文数量作为分析与预测的研究对象。目前能够影响所选对象的因素有很多,涉及到宏观经济运行情况、中国市场化程度、科技政策、研发经费、研发人员、研究机构、专利代理机构、专利代理人员、高技术企业、专业技术人员、期刊数量和质量等众多方面。1.1数据来源和量化通过文献研究[1,2,3,4,6,7,8,9,10,11]和网络调查[12,13,14,15,16,17,18,19]等定性分析方法,梳理出两个研究对象的所有可能的影响因素,然后以“九五”初期1996年至2008年为时间维,从中国科技统计资源中心,世界银行数据中心,美国科学引文索引(ScienceCitationIndex,SCI)数据库等中采集研究对象及其影响因素相关的数据。在数据收集过程中,笔者发现,有些影响因素难以量化和相关数据很少。如中国市场化程度肯定会对PCT专利申请量有重要影响;“理工科博士生发表SCI论文才能答辩”的政策规定可能是中国SCI论文猛增的头号因素,但关于它们的数据很难量化,对此,笔者采用中国农业银行、国家统计局、国家发展和改革委员会等单位作者合作研制的中国市场化指数作为反映中国市场化程度的指标,从教育部统计数据中心中整理出每年理工科博士生数量来量化“理工科博士生发表SCI论文才能答辩”的科技政策因素。专利代理机构和专利代理人也会对PCT专利申请量有重要影响,不过关于其的数据较少,且不完整,笔者主要通过参考、和三个数据源进行编译和推理完成相关数据的收集。由于2006年之前,专利代理人资格考试每两年一次,因此2006年之前专利代理人总量的数据每两年相同。由于不同研究对象,影响因素各不相同,因此笔者在展示数据时,将两个研究对象及其共同影响因素的数据放在表1中,两个研究对象的各自影响因素的数据放在表2中。1.2bp神经网络训练预测模型建立文章研究思路和方法主要包括:(1)在研究对象及其影响因素数据的支持下,首先基于1996-2008年的数据,对研究对象及其影响因素之间的相互关系做二元相关分析研究,然后将1996-2005年的数据作为训练样本,利用逐步回归的多元线性回归分析方法从中筛选出影响程度较高的因素,构建多元线性回归分析与预测模型,最后根据2006-2008年影响因素的值对此三年间研究对象的值进行预测,并与2006-2008年研究对象的实际值进行比较,计算出预测误差,考察模型的预测性能;(2)根据二元相关分析的结果,选择相关程度较高的影响因素,以1996-2005年的数据作为训练样本,利用目前预测能力较强、应用比较广泛的BP神经网络训练预测模型,并根据2006-2008年影响因素的值对研究对象在2006-2008年的值进行预测研究,分析预测性能;(3)比较分析多元线性回归预测模型与BP神经网络预测模型的性能。2多元线性回归和bp神经网络网络的基本理论2.1回归模型的建立多元线性回归分析是一种用于研究一个随机变量或因变量Y与一个或多个自变量(X1~Xn)之间的相互依存关系,并利用统计分析方法和函数对这种关系的实质、特点、变化规律等进行分析解读和形式化描述的方法。具有方法简单,对变量之间关系解释能力强的优点,在社会、经济、技术以及众多自然科学领域有着广泛的应用。多元线性回归分析模型的形式化描述如公式(1)所示:其中β0是常数项,表示当所有自变量为0时因变量Y的总体平均值的估计值;β1~βn表示回归系数,主要有两种:标准化回归系数和非标准化回归系数。标准化回归系数是消除了因变量和自变量所取单位的影响之后的回归系数,表示自变量对因变量的影响程度或重要程度,主要用于分析比较多个自变量对因变量的影响程度的大小,而非标准化回归系数表示自变量与因变量之间的相互作用,主要用于回归预测模型的构建。β1表示除X1之外的其它自变量固定不变的情况下,X1每改变一个测量单位时所引起的因变量Y的平均改变量,β2~βn表示意义与β1一样。ε是被称为误差项的随机变量,它说明了包含在Y里面但不能被n个自变量的线性关系所解释的变异性。多元线性回归分析模型的构建主要通过各种回归分析方式将一些有效的,对因变量影响显著的自变量加入到回归模型中。如“Enter”全回归方式通常使用全部的自变量构建回归方程,而“Stepwise”逐步回归方式,主要从所有自变量中逐步选择对因变量影响较大的变量,同时剔除影响较小的变量构建回归方程。多元线性回归分析模型建立后,需要对模型进行各种检验,主要包括判定系数检验(R检验)、回归系数显著性检验(T检验)、回归方程显著性检验(F检验)。若回归方程的显著性检验未通过,可能是选择自变量时漏掉了重要的影响因素,或是自变量与因变量间的关系是非线性的,应重新建立模型。2.2bp神经网络模型BP(BackPropagation)神经网络最早由美国Rumelhart和McCelland为代表的PDP(paralleldistributedprocessing)科学家研究小组提出,是一种基于误差反向传播算法训练的多层前馈网络,其具有独特的非线性适应性信息处理能力,优良的非线性逼近,较好的容错性,能够对大规模数据进行并行处理,自组织、自学习和自适应能力较强等优点,被广泛应用于分类、聚类、预测和模式识别等领域。BP神经网络在对目标对象进行预测时,首先通过模拟和仿真生物大脑的神经网络系统,利用非线性的Sigmoid型的作用函数,一般采用f(x)=1/(1+e-x),对输入的样本数据和输出的预测对象数据进行非线性处理,建立输入-输出模式的非线性映射关系网络,然后对建立的映射网络不断进行学习和训练,并判断输出结果与期望输出即研究对象实际值之间的最小均方误差是否附合预先设定的目标,如果不附合,则按照误差最速下降法或梯度下降法的学习规则,通过反向传播来不断调整网络的权值和阈值,直至使网络输出与期望输出的误差平方和最小,从而训练出最优神经网络模型。BP神经网络模型的拓扑结构如图1所示,包括输入层、隐含层和输出层。各层都有一定数量的神经元相互联结,输入层神经元个数主要由样本的个数决定,输出层神经元的个数主要由预测或研究对象的个数决定,而隐含层神经元的个数目前尚无有效的确定方法,一般根据经验或目前一些学者提出的经验公式反复进行实验确定。3预测变量标记笔者将PCT专利申请量和SCI论文数量作为因变量即分析与预测的目标变量,标记为Y1和Y2。将各影响因素作为自变量,具体标记情况见表3。标记之后,我们利用多元线性回归分析方法分别对两个因变量与其自变量的关系进行回归分析。3.1影响pct应用的因素分析与预测(1)影响pct专利申请量的关系利用SPSS软件中自带的二元变量相关分析法对PCT专利申请量与其影响因素之间的关系进行考察,发现各影响因素都与PCT专利申请量有很强的线性相关关系,用双尾显著性(Significanceof2-tailed)检验,显示它们之间不相关的概率都为0。当然不同影响因素与PCT专利申请量之间关系的密切程度也不相同,为此,我们在表4中列出了各影响因素与PCT专利申请量之间的关联程度及双尾显著性检验的结果,表中数据主要按影响因素关联程度的大小由大到小排列。从表4可以看出,与PCT专利申请量关联程度较高的影响因素有R&D经费(X2)、国家财政科技拨款(X3)、新产品开发经费(X15)和R&D人员(X5)。X9-中国市场化程度指数与PCT专利申请量的关联程度最小,说明中国市场化程度主要为PCT专利申请创造一个良好的环境,并不对PCT专利申请量的增长起主导作用。(2)回归模型的建立和显著性分析尽管表4研究结果表明,各影响因素都与PCT专利申请量有极强的线性相关关系,不过由于逐步回归方式能够从相关影响因素中选择对因变量解释能力更强,使回归方程达到最优的因素,因此我们在回归分析过程中,舍全回归方式而用逐步回归方式以便提高预测精度。具体做法:首先将F检验统计量的概率(UseprobabilityofF)的临界值设置为0.05(变量加入的概率)和0.10(变量剔除的概率),然后采用逐步回归(Stepwise)的方式从所有可供选择的自变量中逐步地将概率小于0.05的显著性自变量加入到回归方程,并从回归方程中将概率大于0.10的显著性较弱的自变量剔除,直至形成最优回归方程为止。回归分析的结果如表5、表6和表7所示。表5表示回归模型的统计量,其中R的平方称为判定系数,主要用于衡量回归模型的拟合优度或用来说明自变量解释因变量变异的程度。R方越大越好,一般地,大于0.8,说明方程对样本点的拟合效果很好。本次回归共分两步完成,形成模型1和模型2,每种模型选择的因素不同。模型1选择了因素X8,此时模型R2为0.986;模型2同时选择了因素X8和X5,此时模型R2为0.995,说明模型的拟合效果极好。由于模型2的相关系数R和判定系数R2都较大,因此选择模型2作为回归分析预测模型。表6表示回归模型的方差分析结果,其中F是检验方程显著性的统计量,是回归均方与剩余均方之比,越大越好。Sig表示显著性水平,其值要求小于0.05或0.01的显著性水平,小于0.01表示回归差异极显著,处于0.01和0.05之间表示回归差异显著。本次回归的显著性水平为0.000,小于0.001的显著性水平,表明回归极显著。表7表示回归分析的各项系数,其中模型2的回归分析结果显示,所有因素中,只有X8(高技术产业总产值)和X5(R&D人员)两个因素被选入到回归模型中。在多元回归分析中,能够选入回归模型的自变量都是对因变量即研究对象影响程度较大的变量,影响程度的大小可以通过标准化回归系数Beta列来表示。从模型2的Beta列数据可以看出,高技术产业总产值(X8)是对PCT专利申请量影响最大的因素,影响程度达到0.61,高于X5-R&D人员(0.394)。其在一定程度上弥补了二元相关分析只能考察研究对象与其影响因素之间的相关程度,不能考察各因素对研究对象的影响程度之缺陷。表4和表7分析结果表明,为提高PCT专利申请量,增强国家科技创新实力,政府除了投入充足的科技经费和培养大量研发人员外,还需加大对新产品的研发力度和高技术产业的投入力度,需要把建设高水平的,知识和技术密集型的高新技术产业园区放在突出重要的位置。通过将B列模型2的非标准化回归系数代入构建的回归预测模型中,得到如下PCT专利申请量的回归分析预测方程:回归方程的显著性检验:由表6方差分析表可知:回归模型2的F统计量为636.178,自由度为2和7。笔者利用F统计量的计算公式FINV(显著性概率,自由度1,自由度2)计算出0.001显著性概率下的F统计量的值即F(0.001,2,7)=21.69,由于回归方程(2)的F检验统计量的值636.178远远大于21.69,因此,判定该回归方程极显著。将2006-2008年间X8和X5的数据代入到回归分析预测方程(2)中,从而预测出此三年间的PCT专利申请量。预测结果及其与实际值的误差如表8所示。可以看出,预测值对实际值有严重的低估,预测误差绝对值的平均是1.73万个,占三年实际值平均的11%,说明相对误差较大,需要进一步提高和改进其性能。3.2影响因素分析与创新出版数量(1)影响生长效率的因素分析方法仍然采用二元相关分析法,分析结果如表9所示,表中数据主要按影响因素与SCI论文数量之间关联程度的大小由大到小排列。可以看出,各影响因素都与SCI论文数量有很强的线性相关关系,用双尾显著性检验,显示它们之间不相关的概率除X18之外,都为0,并且相关的显著性水平都在0.01水平之上。其中与SCI论文产出能力相关程度较高的四个影响因素分别是科技支出总额(X4)、R&D经费(X2)、国家财政科技拨款(X3)和科学家与工程师数量(X7)。相关程度较低的三个因素是SCI收录中国期刊数量(X17)、专业技术人员(X6)和SCI全部期刊数量(X18)。(2)预测模型的建立及显著性分析回归分析方法与PCT专利申请量所用方法一样,采用逐步回归方式。回归分析的结果如表10、表11和表12所示。从表10可以看出,回归分析主要分四步完成,形成模型1、模型2、模型3和模型4,其中模型4选入因素最多,分别为X3,X17,X16和X5,并且该模型的相关系数和判定系数都为1,高于前三种模型,说明该模型能够完全拟合样本点,因此笔者选择模型4作为回归分析与预测模型。从表11可以看出,显著性概率Sig值为0.000,小于0.001,表明回归极显著。表12表示回归分析的各项系数,其中模型4的回归分析结果显示,国家财政科技拨款(X3)、SCI收录中国期刊数量(X17)、理工科博士研究生毕业生数(X16)和R&D人员(X5)四个因素被选入该回归模型,说明这四个因素对研究对象的影响程度较大。从模型4的Beta列数据可以看出所有因素中,理工科博士研究生毕业生数(X16)对SCI论文产出的影响最大,影响程度达到0.394,高于国家财政科技拨款(X3)的0.31、SCI收录中国期刊数量(X17)的0.214和R&D人员(X5)的0.106。分析结果与前面有关“理工科博士生发表SCI论文才能答辩”的政策规定可能是中国SCI论文猛增的头号因素的设想相吻合。不过这样的政策规定虽然使中国的SCI论文猛增,但是否会降低所发SCI论文的质量,有待进一步的考证。除此之外,国家财政科技拨款和R&D人员仍然是SCI论文产出的重要影响因素,是SCI论文产出能力和质量的最基本保证,SCI收录中国期刊数量也对SCI论文产出有非常重要的影响。通过将B列模型4的非标准化回归系数(UnstandardizedCoefficients)代入构建的回归预测模型中,得到如下回归分析预测方程:回归方程的显著性检验:由表11方差分析表可知:方程(3)的F检验统计量为3738.001,自由度为4和5。由于3738.001远大于0.001极显著水平上的F(0.001,4,5)=31.09,因此回归方程极显著。利用回归分析预测方程(3)对2006-2008年间的SCI论文产出进行预测。预测结果及其与实际值的误差如表13所示。可以看出,各年预测误差虽然呈下降趋势,但预测值对实际值仍有严重的高估,相对误差较大,如三年预测误差绝对值的平均是1.02万篇,占三年实际值平均的11%,说明需要进一步提高和改进其性能。4基于bp网络的科技应用研究4.1预测模型的建立BP神经网络在预测时,如果影响因素不全面,或过少,可能会造成预测精度比较低。因此我们主要根据表4线性相关分析的结果来选择PCT专利申请量的影响因素进行BP神经网络预测模型的训练。从表4可以看出,所有因素都与PCT专利申请量有较强的线性相关关系,因此我们首先从表4中选择所有15个因素在1996-2005年间的数据作为训练样本,对1996-2005年间PCT专利申请量进行预测,训练出最优BP神经网络预测模型。然后根据15个影响因素在2006-2008年间的数据,利用训练好的预测模型预测此三年间PCT专利申请量的值,并计算预测值与2006-2008年间PCT专利申请量的实际值之间的误差,最后与多元线性回归分析预测模型的预测性能进行比较,判断哪种模型更适合科技产出能力的预测。(1)bp神经网络预测程序根据影响因素和研究对象的个数,我们将预测模型的输入层设置为15个神经元即影响因素的个数,输出层设置为1个神经元即目标对象的个数。对于隐含层神经元个数的确定,目前尚无理论依据和有效的方法,需要根据经验确定,笔者通过网络调查和文献研究,总结出几种计算隐含层神经元个数的经验公式:其中n1为隐节点数,n为输入层单元数,m为输出节点数,常数a=1~10。根据经验公式和自己的经验,确定出隐含层神经元个数的范围是5至14、31、46和60,在此范围内,通过设置不同的隐含层神经元个数对2006-2008年间PCT专利申请量进行预测分析,并计算预测的平均误差即三年间PCT专利申请量的预测值与实际值的差值绝对值的平均,见表14。从表14可以看出,当隐含层神经元个数为46时,平均预测误差最小,为0.95万个。采用能够提高学习速度和增加算法可靠性的动量梯度下降算法traingdm来设计BP神经网络预测程序,核心代码如下:从图2可以看出,BP神经网络预测模型在经过154步训练之后就收敛于目标函数,最小均方误差或精度是0.000983522,达到我们设置的精度为0.001的水平,训练速度较快,训练性能较好。图3主要展示的是网络训练时的实际值、预测值和它们之间的相对误差的曲线,可以看出,PCT专利申请量的实际值和预测值拟合得非常好,并且误差曲线较平滑,各年的预测误差在[-0.18,0.23]之间波动,说明我们设计的BP神经网络预测程序可以用于PCT专利申请量的未来值的预测。表15展示的是BP神经网络预测模型和多元线性回归预测模型分别对2006-2008年间PCT专利申请量的预测结果及其与实际值的误差。通过比较两种预测模型的预测结果,可以看出BP神经网络预测模型对PCT专利申请量进行预测时,各年预测误差的绝对值都小于多元线性回归预测模型。整体性能也远优于多元线性回归预测模型,如BP神经网络模型的预测误差的绝对值的平均是0.95万个,占三年实际值平均的6%,而多元线性回归模型是1.73万个,有0.78万个或5%的预测差距。4.2bp神经网络预测模型对steam日本联合产SCI论文产出的预测分析过程与PCT专利申请量一样,首先从表9所示SCI论文数量与其影响因素之间线性相关分析的结果中选择所有11个影响因素在1996-2005年间的数据作为训练样本,对1996-2005年间SCI论文产出规模进行预测,训练出BP神经网络预测模型。然后利用训练好的BP神经网络预测模型对2006-2008年间SCI论文数量进行预测,并统计预测值与实际值之间的误差,最后与多元线性回归分析预测模型的预测性能进行比较。根据SCI论文产出规模的影响因素的个数,我们将预测模型的输入层神经元个数设置为11个,输出层神经元的个数设置为1个,隐含层神经元个数的设置主要通过比较分析不同数量隐含层神经元时BP神经网络对SCI论文产出的预测误差后确定的,经笔者反复实验50多次后,得出隐含层神经元个数为56个时,预测的相对误差较小。BP神经网络预测程序在上文中已详细阐述,在此不再细说。模型训练和预测结果如图4、图5和表16所示。从图4可以看出,BP神经网络预测模型在经过287步训练之后收敛于目标函数,最小均方误差或精度是0.000999735,达到我们设置的精度为0.001的水平,训练速度相对较快,训练性能较好。图5主要展示的是网络训练时的实际值、预测值和它们之间相对误差的曲线。可以看出,SCI论文产出的实际值和预测值拟合得非常好,且误差曲线较平滑,各年的预测误差在[-0.12,0.16]之间波动,说明我们训练的BP神经网络预测模型的性能较好,可以用于SCI论文未来产出的预测。表16展示的是BP神经网络预测模型和多元线性回归预测模型对2006-2008年间SCI论文产出能力的预测结果及其与实际值的误差。从表中数据可以看出,BP神经网络预测模型的预测结果对SCI论文实际产出有一定程度的低估,但差距不大,每年与实际值误差的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- PQA-18-生命科学试剂-MCE-3779
- Filiformine-生命科学试剂-MCE-8234
- 11-Hydroxy-9-R-hexahydrocannabinol-生命科学试剂-MCE-8544
- 4-Iso-THC-4-Iso-tetrahydrocannabinol-生命科学试剂-MCE-2807
- 2025年度砖厂承包与市场拓展合作协议
- 2025年新推出门面房出租管理服务合同
- 二零二五年度企业自愿离职合同解除范本及离职补偿金计算标准
- 二零二五年度数字音乐版权互惠合作合同
- 二零二五年度洗煤厂煤炭洗选技术租赁合同
- 智能科技与家庭旅游的融合探索
- 2025年中国南方航空股份有限公司招聘笔试参考题库含答案解析
- 商务部发布《中国再生资源回收行业发展报告(2024)》
- 山东省济南市2024-2024学年高三上学期1月期末考试 地理 含答案
- 2025年福建新华发行(集团)限责任公司校园招聘高频重点提升(共500题)附带答案详解
- 实施弹性退休制度暂行办法解读课件
- 江苏省驾校考试科目一考试题库
- 四川省成都市青羊区成都市石室联合中学2023-2024学年七上期末数学试题(解析版)
- 2024-2030年中国自动光学检测仪(AOI)市场竞争格局与前景发展策略分析报告
- 咨询公司绩效工资分配实施方案
- 2025新人教版英语七年级下单词表
- 中华护理学会团体标准-气管切开非机械通气患者气道护理
评论
0/150
提交评论