数学建模医保欺诈模型的主动发现_第1页
数学建模医保欺诈模型的主动发现_第2页
数学建模医保欺诈模型的主动发现_第3页
数学建模医保欺诈模型的主动发现_第4页
数学建模医保欺诈模型的主动发现_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学建模医保欺诈模型的主动发现数学建模医保欺诈模型的主动发现数学建模医保欺诈模型的主动发现资料仅供参考文件编号:2022年4月数学建模医保欺诈模型的主动发现版本号:A修改号:1页次:1.0审核:批准:发布日期:全国大学生数学建模竞赛选拔赛承诺书我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理,并取消参赛资格。我们参赛选择的题号是(从A/B/C/D中选择一项填写):A参赛队员(打印后再手签)::1.2.3.指导教师或指导教师组负责人(没有可不填写): (论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。)日期:2015年7月29日

医保欺诈的主动发现摘要医疗保险是关系到国计民生和国家发展的重大问题,医保欺诈问题严重威胁医保基金安全,妨碍医保政策的有效实施,因此医保欺诈行为的主动发现对医疗保险的发展、完善和社会稳定发展有重大的意义。本提出了一种基于BP神经网络的识别的鉴别医保欺诈行为的方法。对于数据的处理,我们选择了Excel和Access根据病人ID将表病人资料和表费用明细表进行了汇总和归一,并剔除了包括记录不完整、格式错误之内的无效数据,在这个过程中我们发现了所有的消费记录只是买药,并且在这个月的消费记录中只有极少数病人存在转科室行为,而且一部分病人是自费的,没有医保欺诈嫌疑,还有一些病人存在多人共用医保卡的现象,直接确定其为医保欺诈,这些病人的消费记录为我们训练BP神经网络提供了样本支持。对于这个问题,我们首先用Excel和Access从大量的数据中筛选出了对欺诈识别有用的信息,其中包括病人的年龄,性别,所在科室,当月总消费以及当月消费频率等等你,又考虑到不同科室的消费情况存在差异因此我们求出了各个科室的平均消费额,并且做出了每个病人当月的消费对对应科室平均消费的相对差。有了这些欺诈因子和自费患者以及共用医保卡患者的消费记录,我们建立了Logistic二元回归模型,来评估各个欺诈因子对欺诈的可能性大小的影响进而剔除了对欺诈可能性无效的欺诈因子,保留了对欺诈可能性影响显著的欺诈因子作为输入向量对BP神经进行训练,并且用训练后的网络对医保病人进行了欺诈识别。最终我们认为输出结果为1的病人具有重大医保欺诈嫌疑。关键词医保欺诈Logistic二元回归BP神经网络数据

问题重述问题背景医疗保险是为解决公民或劳动者因为疾病和非因公负伤,丧失劳动能力后的治疗费用及服务,给予物质帮助的一种社会保险制度。医疗保险欺诈行为是指违反医疗保险管理法规和政策,采用虚构事实、隐瞒真相以及其他方法,向医保基金管理机构骗取医保基金或医保待遇的行为。这一行为具有两个基本特征:一是主观表现为直接故意,并且以非法占有医保基金或非法获得医保待遇为目的,二是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。我国自城镇职工医疗保险和新农村合作医疗制度实施以来,欺骗医保基金的案件不断发生,事实上,医疗保险欺诈在许多国家每年都有数亿美元的损失,对医保基金安全构成了重大的威胁,妨碍了各国医保政策的实施,因此医疗保险欺诈已成为各国非常重视的社会问题利用数学建模的方法分析医疗保险欺诈行为,建立相应的数学模型可为发现医疗保险欺诈问题提供科学有力的依据。问题描述医疗保险欺诈行为具有两个基本特征:一是主观表现为直接故意,并且以非法占有医保基金或非法获得医保待遇为目的;二是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。骗保人进行医保欺诈时通常使用的手段有冒用他人医疗保险证、卡就医;异地就医人员伪造或虚开医疗票据回来报销;“挂床”住院就医;要求医院开具本人不必要的诊疗项目或药品,由他人代作或代用等。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。问题分析BP神经网络是一种按误差你传播算法训练的前馈网络,学习过程由信号的正向传播与误差的逆向传播两个过程组成.正向传播时,模式作用于输入层,经隐层处理后,传入误差的逆向传播阶段,将输出误差按某形式,通过隐层向输入层逐层返回,并“分摊”给各层的所有单元,从而获得各层单元的参考误差或称误差信号,以作为修改各单元权值的依据.权值不断修改的过程,也就是网络学习过程.此过程一直进行到网络输出的误差准逐渐减少到可接受的程度或达到设定的学习次数为止。目前BP神经网络已在国内外相关经济研究领域得到广泛应用,在国内的证券、银行等相关领域已有学者开始运用BP网络进行研究,叶明华将该方法运用到机动车保险欺诈的研究当中,并且尝试了统计回归与神经网络的融合,证实了神经网络运用于保险欺诈的识别是可行的,并且通过回归分析精炼后的识别因子能够使神经网络具有更好的识别效果。在这个问题中,数据量巨大,同时自费患者和欺诈患者(共用医保卡)提供了大量的样本,而这些样本恰好可以用于BP神经网络的训练,同时还可以用Logistic二元回归分析筛选出影响显著的欺诈因子,将定量与定性相结合,使结果更准确。因此,对于这个问题,运用层次分析法和Logistic二元回归分析相结合的方法进行医保欺诈的识别。模型假设1.自费病人无医保欺诈嫌疑2.消费总额和消费数量为负数的视为记录错误,取绝对值计算3.忽略这个月内极少数病人转科室治疗的情况4.这个月当地没有地震等重大灾难的发生模型的建立与求解预处理数据样本与欺诈因子选取根据附录表格和中的病人资料和消费记录中使用Excel和Access的数据处理函数,结合相关资料,先做出各个科室的平均消费额,然后提取出包括病人科室,病人所在科室的平均消费额,病人当月总费用,当月拿药频次,年龄,性别在内的6个欺诈因子,并将这些欺诈因子整合到病人ID中,表格见附件1。表欺诈因子汇总表医保病人ID病人科室各科室平均消费额当月拿药频次当月总费用年龄性别36305015220.429162769018732.452116879915220.6462178614203996226497218732.529219905618732.646252473815220.348240626015220.448116730518732.647133196818732.830216121317357716126571095.1321自费病人与医保卡共用病人从题目表病人资料医保卡号一栏中筛选出医保卡号为1的病人,提取出他们的病人ID并确定他们为自费病人。对医保卡号一栏运用COUNTIF函数筛选一卡多用病人发现存在2人共用医保卡以及3人共用医保卡的现象,提取出他们的ID并确定其为共用医保卡病人。分别根据自费病人以及医保卡共用病人的ID作出如表格的欺诈因子汇总表便于进一步分析。欺诈因子的精炼运用二元离散选择模型对选取的6个欺诈因子进行回归分析,从中获取具有显著性的欺诈因子,我们通过IBMSPSSStatistics19软件实现样本数据的Logistic二元回归分析。参数设定为:方法:Enter步进概率:进入=,删除=;最大迭代次数:50Exp(B)的.(X):95%。

表迭代历史记录迭代-2对数似然值系数Constant步骤01234567a.模型中包括常量。b.初始-2对数似然值:c.因为参数估计的更改范围小于.001,所以估计在迭代次数7处终止。表为迭代历史记录,估计在迭代7次后终止,初始的-2对数似然值达到。表分类表已观测已预测欺诈与否百分比校正01步骤0欺诈与否022585013750.0总计百分比a.模型中包括常量。b.切割值为.500在表中可见在输入的样本中有22585例被预测为0,有375例应该为1的也被预测为0,预测正确率%。

表显著性检验得分dfSig.步骤0变量相对差1.202当月总费用1.006当月拿药频次1.237年龄1.001性别(1)1.000病人科室1.000各科室平均消费额1.000总统计量7.000表是对模型的全局检验,为似然比检验,共给出七个结果:sig值<表明有统计学意义。从中可见病人当月总费用,年龄,性别,病人所在科室以及病人所在科室的平均消费额对回归具有显著影响,而其他因素没有影响。根据这个结论就可以建立医保欺诈识别的BP网络模型。医保欺诈识别的BP网络模型1) 设置初始权值W(0)为较小的随机非零值。2) 给定输入/输出样本集合,{误差指标E总误差指标E重复下列过程直至满足收敛条件(Ealla) 对于任意一个样本p,计算正向过程: 反向过程:b) 修正权值包括两种学习方式:模式(Pattern)学习方式:训练(Epoch)学习方式:网络输入矩阵是由Logistic二元回归分析获取的具有模型显著性的5个欺诈识别因子向量组成,网络输出向量矩阵是由是否欺诈(0和1)组成的一维矩阵,0代表该病人没有欺诈,1代表欺诈。经过反复多次试验,本着误差最小,训练时间最短的原则最终确定了有2个隐藏层的BP神经网络模型。设置目标误差为,最大迭代次数50000等。图BP神经网络训练图从图中看出我们的BP神经网络经过396个迭代周期,历时2分50秒之后终于达到了目标误差。训练过程如图所示。图模拟训练过程图欺诈病人识别根据训练好的BP神经网络,对不能确定是否欺诈的病人进行欺诈识别,找到可能的欺诈病人ID,并根据其欺诈可能性大小进行了排序,排序越靠前欺诈嫌疑越大。最终结果请看附件5.

模型的评价与推广模型的优缺点本文采取采取Logistic回归和BP神经网络结合的方法,运用Spss软件对样本进行Logistic回归分析提取具有模型显著性的识别因子;将所得识别因子作为BP神经网络模型的输入向量进行训练,并选取检验样本对模型的有效性进行预测检验,证明了模型的准确性和用这种方法用于医保欺诈识别的可行性。本模型基于BP神经网络的方法具有很多优点:BP神经网络的非线性映射能力强,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。避开了求欺诈因子与欺诈与否之间复杂函数关系的过程,使问题的解决更加简单,其次BP神经网络具有一定的容错能力,BP神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很大的影响,也就是说即使系统在受到局部损伤时还是可以正常工作的。同时本模型也存在着一定的局限性,BP神经网络是一种局部搜索的优化方法,它要解决的是一个复杂非线性化问题,网络的权值是通过沿局部改善的方向逐渐进行调整的,这样会使算法陷入局部极值,加上BP神经网络对初始网络权重非常敏感,以不同的权重初始化网络,其往往会收敛于不同的局部极小,这也是我们多次训练会得到不同结果的原因。其次,BP神经网络结构的选择至今尚无一种统一而完整的理论指导,一般只能由经验选定。网络结构选择过大,训练中效率不高,可能出现过拟合现象,造成网络性能低,容错性下降,若选择过小,则又会造成网络可能不收敛。而网络的结构直接影响网络的逼近能力及推广性质。本文中我们采取了多次试验的方法,确定了网络的结构,具有一定的主观性。模型的推广该模型可有效检测出医保中发生的诈骗现象,这一模型基于BP神经网络可以很容易地推广到其他类型的保险行业中,例如人寿保险,机动车险等。同时本模型虽然给出了具有重大医保欺诈嫌疑的病人ID,遗憾的是我们并没有给出每个病人欺诈的具体概率是多少,这也是我们模型需要改进的地方。我们的结果可以为医保欺诈的识别,提供一份宝贵的可参考的资料。参考文献[1]林源.国内外医疗保险欺诈研究现状分析[J].INSURANCESTUDIES,2010,12(12):115-122[2]刘坤坤,车险保险欺诈识别和测量模型实证研究——基于广东省车险历史索赔数据,暨南学报(哲学社会科学版),8:50-55,2012。[3]朱大奇,史慧编著.人工神经网络原理及应用[M].科学出版社,2006[4]唐万梅.BP神经网络网络结构优化问题的研究[J].系统工程理论与实践.2005(10)[5]刘彩红.BP神经网络学习算法的研究[D].重庆:重庆师范大学,2008.1-76[6]段超霞,田学民.基于正交最小二乘的傅立叶神经网络结构选取方法[J].石油化工自动化.2012(06)[7]叶飞跃.数据挖掘过程中的模糊聚类方法[J].计算机与现代化.2003(09)[8]王学民编著.应用多元分析[M].上海财经大学出版社,1999[9]廖宁放,高稚允.BP神经网络用于函数逼近的最佳隐层结构[J].北京理工大学学报.1998(04)[10]丛爽编著.面向MATLAB工具箱的神经网络理论与应用[M].中国科学技术大学出版社,1998[11]邓伟妮.基于BP神经网络的西安市PM10污染预报及其MATLAB实现[D].西安科大学2008

七、附录训练BP程序clc,clearall;%definetheinputandoutputpqz=xlsread('E:\数学\数学建模\深圳杯2015\A题\筛选后的BP素材\欺诈者的样本.xlsx','B2:G376')

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论