毕业论文_基于新药药效的预测模型(终稿)_第1页
毕业论文_基于新药药效的预测模型(终稿)_第2页
毕业论文_基于新药药效的预测模型(终稿)_第3页
毕业论文_基于新药药效的预测模型(终稿)_第4页
毕业论文_基于新药药效的预测模型(终稿)_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于新药药效的预测模型摘要本文主要讨论了新药临床实验的数据分析问题,根据公司在新药上的实验数据表,建立了统计回归模型和神经网络模型,并对题目给出的四个人服了这种药剂后疼痛减轻时间进行了预测。我们建立了统计回归模型,在回归方程的确定过程中,从多元的线性回归模型推导至可化为线性的非线性回归模型,然后运用EVIEW50分别对两个线性回归方程进行了检验,模型在置信概率为95的条件下通过检验,并画出相应模型的的残差图,以便于模型的最优化选择。同时我们还构造两个可线性化非线性模型,用MATLAB70对这两个回归方程进行了检验,同样在置信概率为95的条件下通过检验。然后进行逐步回归分析,计算出各项的系数。最后通过分析及剔除变量法,并运用EXCEL2003对可化为线性的非线性回归方程的显著性检验,结合两个线性回归方程,最终得到一个比较合理的非线性回归模型。运用该模型得到的预测结果分别为113631,156312,283152,399367分钟。BP神经网络模型通过建立BP神经网络,让其依照试验结果记录中疼痛减轻时间,用药剂量,性别与血压的数据进行自我训练,得到一个误差小的关系式,最后利用这个关系式来对另外四个人服用止痛药后疼痛减轻时间进行预测。并得到以下结果四个服用止痛药的人疼痛明显减轻的时间为112875,161335,293262,410284分钟。最后,我们对上述模型进行分析评价,提出了一些可能的改进方向。关键字统计回归线性方程非线性方程神经网络残差检验一、问题的重述与分析11问题的重述1、某公司研制了一种止痛的新药,通过临床试验来确定它的疗效。在临床试验过程中,用4种剂量来试验,剂量分别是2G,5G,7G,10G,分别记录每个病人用药后病痛明显减轻所需的时间(以分钟计)。为了了解新药的疗效与病人性别和血压之间的关系,试验过程中研究人员把病人按性别及血压的高(08)、中(055)、低(03)三档来进行测试。试验结束后,公司的记录结果见附件(性别1表示女,0表示男)。附件中给出了相关的数据,需要建立合适的数学模型来分析病痛减轻的时间与用药剂量、性别和血压的关系。2、通过问题一对病痛减轻的时间与用药剂量、性别和血压的关系的分析,进一步对于下面不同人服药的数据,预测出病痛明显减轻的时间。12问题的分析用药剂量(G)性别血压101087004400253106问题一为了了解新药的疗效与用药剂量、病人性别和血压之间的关系,我们用病痛减轻的时间长短来评估药效,即我们可以这样认为疼痛减轻时间长则表示药效相对不好,而疼痛减轻时间短则表示药效相对较好。而病痛减轻时间与用药剂量、病人性别和血压的关系是无法事先确定的,需要通过对样本数据的拟合,建立回归模型后加以分析。问题二为了预测出不同性别,有不同血压的病人用不同剂量的止痛药,病痛明显减轻的时间的多少,需要研究病痛减轻的时间与用药剂量、性别和血压的关系。借助于MATLAB软件,构建一个输入用药剂量,性别与血压组别,输出疼痛减轻时间的神经网络可以达到目的。二、模型的基本假设假设1疼痛减轻的时间长短可以代表用药效果。即疼痛减轻时间长则表示药效相对不好,而疼痛减轻时间短则表示药效相对较好。假设2疼痛减轻时间只与题目所给的用药剂量、性别、血压有关,其他外在条件对其不存在影响。假设3假设男性以0来计算,女性以1来计算,以便于问题研究。三、符号说明P学习周期动量系数KE第K个样本预测值与真实值间的误差,,21KE总误差T期望值IJWBP神经网络权值、正整数J神经元的等效误差Y疼痛减轻的时间1X用药剂量2性别3X血压NUM用药剂量数据的124矩阵SEX性别数据的124矩阵PR血压数据的124矩阵TIME疼痛减轻时间数据的124矩阵DA所有输入数据的324矩阵INPUT所有用于预测的输入数据的34矩阵O预测结果IB回归系数,KI,21显著水平四、模型的建立与求解41模型一统计回归模型我们记药效减轻的时间为Y,病人的用药剂量记为1X,性别记为2X,血压记为3X。基于以上分析并结合题目给出的24组数据,我们建立预测模型统计回归模型。411(建立多元线性回归模型)(1)建立包含用药剂量、性别、血压的三元线性回归模型我们运用EVIEW50软件进行求解在命令窗口依次键入以下命令即可CREATEU24DATAYX1X2X3输入数据后键入命令LSYCX1X2X3即得如下结果(图表一)图表一新药药效的估计结果因此病痛减轻的时间与用药剂量、性别和血压的关系函数为321501673419XXY1T84807764601796001940(模型1)7502R802F模型的求解结果表明,用药剂量对疼痛减轻时间的边际效益为(41373),由于性别只存在0和1的取值,所以男性和女性的不同对因变量的影响值为56667,血压对疼痛减轻时间的边际效益为(15000)。75302R,说明模型的拟合度不错。模型1的显著性检验1、F检验对于多元线性回归模型IIKIIIXBXBY210假设0H021KBB若假设成立,则意味着IIAY表明Y的变化主要由模型之外的变量来决定,模型的线性关系不显著,所设定的模型没有意义。在原假设0H成立的情况下,可以证明1,122KNFKNIIFEY2所以,对于给定的显著水平,可由F分布表查得临界值F,如果根据样本数据计算得出则拒绝原假设0H,即回归系数KB,21中至少有一个显著地不为0;此时可以认为模型的线性关系式显著的。反之,则接受0H,认为模型的线性关系不显著。结合该模型数据(图表一),在置信概率为95的条件下,由F分布表查得临界值103F,而实际模型中的F20575,即F说明F检验也是高度显著的,说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的。2、解释变量的显著性检验(T检验)如果模型通过了F检验,则表明模型中所有解释变量的“总影响是显著的,但这并不同时意味着模型中的每一个解释变量对Y都有重要的影响,或者说并不是每个解释变量的单独影响都是显著的。因此,有必要对模型中每个解释变量(影响)的显著性进行检验,检验过程仍然采用假设检验方法。对于多元线性回归模型IIKIIIXBXBY210假设0H021KB即假设IX对Y没有显著影响。对于T统计量我们有1KNTBSTII2因此,对于给定的显著水平,可以由T分布表查得临界2T,若2|T,则表明原假设0H是一个错误假设,应该拒绝,即认为系数IB显著的不等于0,IX对Y有显著的影响反之,则认为影响不显著,应该考虑IX从模型中剔除而重新建立模型。结合该模型数据(图表一),在置信概率95的条件下,由T分布表查得临界值08625T,而实际模型中解释变量32,X的T统计值都要小于205,所以不能通过检验。因此,需要对以上三元线性回归模型做适当的调整,按照统计检验程序,一般应先剔除T统计量最小的变量(即血压变量)而重新建立模型。3(2)建立剔除血压变量的二元线性回归模型我们运用EVIEW50软件进行求解在命令窗口依次键入以下命令即可CREATEU24DATAYX1X2输入数据后键入命令LSYCX1X2即得如下结果图表二图表二剔除时间变量后的估计结果因此病痛减轻的时间与用药剂量和性别的关系函数为216753428XYT1255878271839(模型2)754802R731502325F模型的求解结果表明,用药剂量的对疼痛减轻时间的边际效益为(41373),由于性别只存在0和1的取值,所以男性和女性的不同对因变量的影响值为56667,表明在这种情况下性别对疼痛时间的影响较为明显。模型2的显著性检验1、F检验用模型显著性检验的方法,结合图表二的数据,我们可以得到这样的结论在置信概率为95的条件下,由F分布表查得临界值473F,而实际模型中的F32325,即说明F检验也是高度显著的,说明用药剂量和性别对疼痛减轻时间的总影响是显著的。2、解释变量的显著性检验(T检验)用模型显著性检验的方法,结合图表二的数据,我们可以得到这样的结论在置信概率90的条件下,由T分布表查得临界值72105T,而实际模型中解释变量21,X的T统计值都要大于205T,所以能通过检验。模型2的拟合度相较模型1并没有多大变化,F检验也是高度显著的。这里,解释变量、常数项的T检验值都相对比较大,都可以在置信概率90以上通过检验,因此模型2较模型1更为合理。412建立多元非线性回归模型模型的准备由附件中给出的数据,我们可以看出,同列相同值但是对应的疼痛时间值是不同的,这说明疼痛时间Y的确定与用药剂量1X、性别2和血压3X这三个因变量有关的。于是我们用MATLAB70软件来分析Y与这三个变量之间的关系,分别求出不同的变量对应的合适值,以用药剂量与病痛减轻时间的关系为例(程序见附录一),用药剂量为T10752时,病痛减轻的时间为638637154。然后我们通过MATLAB70软件分别画出对应图像(图表三)图表三疼痛减轻时间分别与三个变量之间的关系图其中红色曲线代表Y与用药剂量1X之间的关系,绿色曲线代表Y与性别2X之间的关系,蓝色曲线代表与血压3之间的关系。从上面的图,我们发现因变量Y与三个自变量1X、2、之间存在着复杂的非线性关系,于是对模型1中的线性回归模型进行修改,并逐步加以分析。(三)建立可线性化的三元非线性回归模型我们估计疼痛减轻时间Y与321,X之间是一个非常复杂的关系,这是一个多元的关系,于是我们建立了如下多元非线性统计模型316215343210XXXY这是一个可线性化模型。令3172163514,XXX即得7654410XY又令T65432我们用MATLAB70软件进行统计量PFR,2的检验(程序见附录2),运行结果如下图表四图表四统计量的检验结果这个检验结果显示,9210R指因变量Y(病痛减轻时间)的9212可由模型确定,在置信概率95的条件下,由F分布表查得临界值7021,605F,而本模型的123F超过临界值,并且0P小于005,可以通过显著性检验。根据2R检验与F检验的关系,即21RNK(1)其中N为样本数据量,K为模型中的自变量。用F的临界值代入该方程即可求出在较高拟合度下2的最小值1。结合本模型求解结果可得23812KNFR而本模型中9008223,即说明该模型的线性显著性的概率达到了95(5)。然后我们再次运用MATLAB70软件进行了逐步分析(程序代码见附录3),运行后得到系数矩阵T40532614053482678193403于是我们得到疼痛减轻时间Y和用药剂量1X、性别、血压X的关系函数为3121133214056240504867893403XXXXXYT11640030381,586800870027220902574752(模型3)因此这个模型从整体来看是可用的,回归系数的符号和数值是较为合理的。9210R,说明模型有很高的拟合优度,F检验也是显著的,说明用药剂量1X、性别X和血压2对疼痛减轻时间的总影响是显著的。但是部分解释变量不能通过T检验,故应舍弃该模型。(四)建立改进的可线性化的三元非线性回归模型继续分析题中情况,根据常识,用药剂量在一定范围内应该是跟疼痛时间成反比,因为用药剂量多一些,治疗效果也会快一些。另外血压高的话,疼痛时间应该越大。于是我们建立如下三元非线性回归模型32615314231210XXXY5这也是一个可线性化模型。令328217316235214,XXXX即得8675645420Y我们用MATLAB70软件进行统计量PFR,的检验(程序见附录4),运行结果如下图表五图表五改进模型的统计量结果这个检验结果显示,943202R指因变量Y(病痛减轻时间)的9432可由模型确定,查F分布表表得临界值71,65F,而本模型的03827F超过临界值,0P小于005。由方程(1)可以求出在较高拟合度下的最小2R小于9432。在置信概率95的条件下,可以通过显著性检验。我们运用MATLAB70软件进行了逐步分析(程序代码见附录5),运行后得到相应的系数矩阵如下T40628140793640518364952于是我们得到疼痛减轻时间Y和用药剂量1X、性别、血压3X的关系函数为322131232114068407964058364952XXXXXYT1146843934650(4908)(553623)(2793)(0844)(模型4)从求解结果可以看出,模型的回归系数的符号和数值是较为合理的。943202R,说明模型有很高的拟合优度,F检验也是显著的,说明用药剂量1X、性别X和血压对疼痛减轻时间的总影响是显著的。然而解释变量328的T统计值为(0844),不能通过检验,因此需要对以上模型做适当的调整,按照统计检验程序,一般先剔除T统计量最小的变量(即8X)而重新建立模型。(五)建立剔除变量后的可线性化的三元非线性回归模型我们用EXCEL软件进行求解,求解结果如下图表六所示图表六剔除变量后的估计结果于是我们得到疼痛减轻时间Y和用药剂量1X、性别2、血压3X的关系函数为213123211950470689506897351XXXXYT115634354(4687)489556013894(模型5)94082R92421537F用模型显著性检验的方法,结合图表六的数据,我们可以得到这样的结论在置信概率90的条件下,由T分布表查得临界值72105T,而实际模型中解释变量21,X的T统计值都要大于205,所以能通过检验。从上述求解过程中看出回归系数的符号和数值也是合理的。模型5的拟合优度较模型4并无多大变化,F检验也是高度显著的。这里,解释变量、常数项的T检验值都比较大,显著性概率都小于005,因此模型5较模型4更为合理。413(回归模型的比较分析)由于在用回归模型拟合样本数据时,通过比较模型的优劣,选择相对较好的回归模型,我们在估计中必须检验一下内容以便选出最佳模型回归系数的符号及数值是否合理;模型的更改是否提高了拟合优度;模型中各个解释变量是否显著;残差分布情况而以上比较模型的、步在模型分析中已有阐述,现分析上述中4个不同模型的残差分布情况运用EVIEWS50软件可以得到各个模型的残差分析图图表七模型1的残差分布图模型1的各期残差中大多数都落在的虚线框内,且残差分别不存在明显的规律性。但是,由对模型显著性分析中的可知,模型1中除了解释变量1X之外,其余变量均为通过变量显著性检验,并且模型的拟合度也是相对不是很好,因此,该模型也应舍弃。图表九模型3的残差分布图这个模型从整体来看是可用的,回归系数的符号和数值是较为合理的。9210R,说明模型有很高的拟合优度,F检验也是显著的,说明用药剂量1X、性别X和血压2对疼痛减轻时间的总影响是显著的。但是部分解释变量不能通过T检验,故应舍弃该模型。图表十模型4的残差分布图该模型的各期残差中大多数都落在的虚线框内,且残差分别不存在明显的规律性。而且从求解结果可以看出,模型的回归系数的符号和数值是较为合理的。943202R,说明模型有很高的拟合优度,F检验也是显著的,说明用药剂量1X、性别和血压2X对疼痛减轻时间的总影响是显著的。然而解释变量328的T统计值为(0844),不能通过检验,从而应该舍弃该模型。图表八模型2的残差分布图图表十一模型五的残差分布图对于模型二和模型五的各期残差中大多数都落在的虚线框内,且残差分别不存在明显的规律性。而且从求解结果可以看出,模型的回归系数的符号和数值是较为合理的。两个模型都具有较合理的现实意义,并且都通过了F检验和T检验,说明用药剂量1X、性别2和血压2X对疼痛减轻时间的总影响是显著的,并且对样本数据的拟合度也不错,理论上讲都可以描述疼痛减轻时间与用药剂量、性别、血压的关系。但是通过图表八和图表十一的比较,明显可以看出模型五的拟合度要高于模型二,所以我们选择模型五来描述疼痛减轻时间与用药剂量、性别、血压的关系较为合理。运用模型五得到的回归曲线,可以得到问题二中相应的结果42模型二BP神经网络模型421BP算法图解用药剂量(G)性别血压疼痛减轻时间(分钟)101081136317004156312400252831523106399367图表十二BP算法图解422改进BP神经网络算法原理改进的BP算法,应用带动量的批处理梯度下降的思想6,即每一个输入样本对网络并不立即产生作用,而是等到全部输入样本到齐,将全部误差求和累加,再集中修改权值一次,即根据总误差KEE修正权值,以提高收敛速度,在调整权值时加入动量项,降低网络对于误差曲面局部细节的敏感性,有效抑制网人工神经网络保存多个药效数据疼痛减轻的时间用药剂量血压组别输出项性别络限于局部极小,此时,,1TWETWIJIJEIJ为动量系数,加入的动量项相当于阻尼项,以减少学习过程的振荡趋势,从而改善收敛性。下面为其算法(1)初始化权值和阈值;(2)给定输入X和目标输出Y;(3)计算实际输出NJJIJXWFY0N,21(4)修正权值,比传统的算法增加了动量项,加权调节公式为TWTTTWIJIJIJIJ11TYTETWIJIIJIJEIJ21KIIKIKEYE若J为输出节点,则KIJIJWY若J为隐节点,则KIJIJJY1(5)若达到误差精度或循环次数要求,则输出结果,否则返回到(2)。用MATLAB70软件的神经网络工具箱进行设计与分析求解1网络构建和初始化在MATLAB中改进的BP算法进行测试、仿真7,第一步是建立网络对象。函数NEWF建立一个可训练的前馈网络,这需要4个输入参数;第1个参数是一个2R的矩阵以定义R个输入向量的最小值和最大值;第2个参数是一个表示每层神经元个数的数组;第3个参数是包含每层用到的转移函数名称的细胞数组;最后1个参数是用到的训练函数的名称。命令为,TAN,135,02TRAINGDPUELISIGNEWFT这个命令建立了网络对象并且初始化了网络权值和偏置,它的输入是两个原属的向量,第1层有3个神经元,第2层有1个神经元。第1层的转移韩式是SIGMODTAN,输出层的转移函数是LINEAR。输入向量的第1个元素的范围是1到2,输入向量的第2个元素的范围是0到5,训练函数是TRAINGD。接下来就可以进行训练了。(2)网络训练带动量的批处理梯度下降法用训练函数TRAINGD触发。如果训练次数超过EPOCHS,则性能函数低于GOAL,梯度值低于M,或者训练时间超过TIME训练就会结束。假设用TIME表示疼痛减轻时间数据的124矩阵,NUM表示用药剂量数据的124矩阵,用SX表示性别数据的124矩阵,PRES表示血压组别数据的124矩阵,DAT表示所有输入数据的324矩阵,IT表示所有用于预测的输入数据的34矩阵。则有,2765,1381,4202,9,78,435635,TIME02NU,1,1,0,SEX3,058,853835PR803,5,58,03,511,72,DAT642174INPUT通过以上数据建立BP神经网络NET8,并用这个神经网络以及INPUT的数据预测其他四个人服药后疼痛明显减轻的时间。我们用MATLAB70软件进行求解(具体程序见附表六)BP神经网络训练过程图如下图表十三BP神经网络训练图其中目标为0001,现在达到000276604图表的检验检验误差值列表584772078573842518785699390828909256414404318186619882521165071737739891826163445181036138603447475303612406320170280058451100336图表十四检验图表结果如下即四个服用止痛药的人疼痛明显减轻的时间为112875,161335,293262,410284分钟。五、模型的评价51模型一统计回归模型优点(1)在回归模型的分析中,运用MATLAB70软件对样本数据进行模拟,将非线性的转化为线性求解,减少了运算量,从而提高了计算机求解运算的速度。(2)在模型选择分析中,运用EVIEWS50软件画出残差图,以进行相对准确的选择最优模型。(3)在数据的拟合上,我们通过线性和非线性的综合分析,通过R检验,拟合度大于90,显示了较高的精度。(4)在多变量的分析中,运用逐项分析法,逐个剔除变量,最后求解出相应的回归方程。缺点1在对样本数据进行拟合和建立非线性的模型时,存在主观上的猜想,可能导致误差的产生。2建模过程相对简单,不能排除变量自相关的现象。52模型二(BP神经网络模型)优点(1)该模型可以绕过复杂的回归模型的建立和相关的检验过程,从而大大减少计算机的运算量,提高计算机的运算速度。(2)通过实验证明,用BP算法对网络训练速度非常快,迭代次数减少,提高了收敛速度,但每一种算法都不是完美的,此算法中的选取只能通过实验确定。缺点(1)该模型在求解时无法得到具体的函数关系式,从而无法对问题二进行解答。七参考文献1姜启源谢金星叶俊数学模型(第三版)高等教育出版社2007年6月2赵卫亚计量经济学教程上海上海财经大学出版社20038ISBN7810499203韩中庚,数学建模方法及其应用高等教育出版社2005年4董大校基于MATLAB的多元非线性回归模型临沧师范高等专科学校,云南临沧67700005浦瑞良宫鹏应用神经网络和多元回归技术预测森林产量美国加利福尼亚大学森林与环境资源监测与评价中心,伯克利CA9472031106焦李成神经网络模型的结构和算法的分离J北京理工大学学报,20017尤焕苓、丁德平、王春华、刘伟东、谢庄应用回归分析和BP神经网络方法模拟北京地区电力负荷8张汝川、顾文锦、于进勇、赵红超基于HOPFIELD神经网络的最优滑模制导律研究海军航空工程学院7系,烟台264001八附录附录1(用药剂量、性别、血压组别与病痛减轻的时间关系)X2,2,2,2,2,2,5,5,5,5,5,5,7,7,7,7,7,7,10,10,10,10,10,10Y35,43,55,47,43,57,26,27,28,29,22,29,19,11,14,23,20,22,13,8,3,27,26,5P,SPOLYFITX,Y,2Y,DELTAPOLYCONFP,X,SY附录2(可线性化非线性回归模型中的第一个猜测模型的PFR,2计算)Y354355474357262728292229191114232022138327265X1222222555555777777101010101010X2000111000111000111000111X303055080305508030550803055080305508030550803055080305508X41/21/21/21/21/21/21/51/51/51/51/51/51/71/71/71/71/71/71/101/101/101/101/101/10X51/031/0551/081/031/0551/081/031/0551/081/031/0551/081/031/0551/081/031/0551/081/031/0551/081/031/0551/08X6000222000555000777000101010X70611160611161527541527542138556213855635583558N24M3XONESN,1,X2,X3,X4,X5,X6,X7ONES生成由1组成的阵B,BINT,R,RINT,STATSREGRESSY,XRCOPLOTR,RINT附录3(可线性化非线性回归模型中的第一个猜测模型的逐步分析)DATA35200343200555520084721034321055572108265003275005528500829510322510552951081970031170055147008237103207105522710813100038100055310008271010326101055510108YDATA,1X1DATA,2X2DATA,3X3DATA,4MATONESSIZEX1,X11,X2,X3,X31,X1X2,X1X3AMATY附录4(可线性化的非线性回归模型中的第二个猜测模型的PFR,2的计算)Y354355474357262728292229191114232022138327265X1222222555555777777101010101010X2000111000111000111000111X303055080305508030550803055080305508030550803055080305508X4009030250640090302506400903025064009030250640090302506400903025064

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论