




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医保欺诈行为的主动发现摘 要 医保欺诈行为,是指以非法占有为目的,用虚构事实或者隐瞒真相的方法,骗取公私财物的行为。医保欺诈,可以从病人资料,消费明细等数据记录来体现。本文主要通过分析记录的数据,找出可能的医保欺诈行为。总结出欺诈行为的数据特征,以便判断是否是医保欺诈。首先,根据已有文献,对涉嫌诈骗行为进行分析,找出所给数据中对应数据,然后采用多元统计分析方法进行分析,主要使用SPSS软件中标识重复个案、K均值聚类分析、相关分析的方法,若个案重复次数过多以及聚类的案例数较少,则可能为欺诈。针对数据一病人资料,我们从三方面分析,一方面对病人身份证号进行标记重复个案,发现重复个案占总数的4.1%,
2、;另一方面对于医保手册号同样采取标记重复个案的方法,从结果可以看出重复个案占0.3%;最后,对Userupdate(用户更新次数)进行K均值聚类分析,发现第1类的聚类中心数大(即更新次数多)占总案例数的8%。以上三种数据特征则表示极可能是医保欺诈行为。 针对数据二费用明细表,我们也从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚
3、类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。最后分析了所建立模型的优缺点,并在所提模型基础上进一步建立预测欺诈的程序框图,以便在真实数据的基础上能快速筛查是否为医保欺诈行为。关键词:医保欺诈 k均值聚类 标识重复个案 相关分析 SPSS一、问题的重述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医
4、保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。二、模型的假设在我们的模型中做了如下假设:1.假设数据来源真实有效;2.假设分析过程中,数据无缺失;3.假设对每个聚类分析结果,使用同一评判标准.三、符号说明本文用到的符号及其意义见下表:变量标准方差初始聚类中心样本与聚类中心的距离误差平方和准则函数欧式距离新聚类中心Pearson相关系数 Pearson相关系数检验统计量四、模型的建立与求解因为单张处方药费特别高一张卡及在一定时间内反复多次拿药可能涉嫌医保欺诈,故分别采用标记重复个案、聚类分析、相关性分析的方法对病人资料及费用明细进行分析。4
5、.1基于病人资料的医保欺诈行为主动发现4.1.1问题的分析判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate(用户更新次数)这三方面考虑。对此利用SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。4.1.2模型的建立:标识重复个案与聚类分析标识重复个案:当输入大量数据时,有时候会意外地出现输入同一条记录多次;或同一条记录的某部分多次出现,即多个个案具有相同的主标识值,但它们有不同的次标识值(比如,同一个身份证号有多个不同的序列号)。另外
6、一种出现重复个案的情况是,多个个案代表同一个案,但是除这些个案的标识变量取值相同之外,其他变量的取值不同。聚类分析:对Userupdate(变量)的标识重复个案的结果,进行分类主要采用聚类分析法,而求取类之间的距离有多种方法,其中最常用的是欧几里德距离。(1) 数据标准化由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个指标,则每个变量可表示为,均值标准方差则标准化后 (2) 聚类系统聚类;,将个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,
7、选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。设有n个样本,令I=1,选取K个初始聚类中心:;计算每一个数据样本与聚类中心之间距离:如果满足,则;计算误差平方和准则函数JC,公式如下:判断是否满足聚类算法结束条件:如果,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回,新的聚类中心计算公式如下:距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。令表示第个重复个案结果的第个指标, 表示第个重复个案与第个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离 即为欧氏距离4.1
8、.3模型的求解(1)用SPSS中标记重复个案对身份证号有重复个案的记录进行统计,由于有些数据无记录,因此只统计了有记录的数据,结果见图1。图2为根据统计结果绘制的饼状图。 图1 病人身份证号重复个案统计表 图2 病人身份证号重复个案统计表(2) 用标识重复个案对医保手册号有重复个案的记录进行统计,图表中记录为“1”的数据认为是无医保病人,则不可能出现医保欺诈,将此部分数据算作为主个案,不认为是重复个案,结果见图3。图4为根据统计结果绘制的饼状图。所有最后一个匹配个案的指示符为主个案频率百分比有效百分比累积百分比有效重复个案188.3.3.3主个案5783099.799.7100.0合计5801
9、8100.0100.0 图3 医保手册号重复个案统计表 图4 医保手册号重复个案饼状图(3)用SPSS中k均值聚类分析对Userupdate(用户更新次数)进行分类,最终聚类中心结果见图5,图6为每个聚类的案例数,图7为根据最终聚类中心结果绘制的饼状图。 图5 最终聚类中心统计表 图6 每个聚类的案例数 图7 最终聚类中心饼状图4.1.4模型结果分析(1)由图1结果统计表中可知,身份证号总记录为35176个(删除掉无效记录后),重复个案的记录有1437个,所占比例为4.1%;图2直观看出重复个案所占比例的大小。从侧面反应出同一病人在一定时间内多次使用医保。(2) 由图3的表中,可以看出医保手册
10、号总记录为58018个,重复个案的记录有188个,占总数的0.3%;图4中可明显看出表示有效重复个案的蓝色区域是极小的。此分析结果表明一定时间内医保手册号重复使用次数过多的占总体的0.3%,这些记录表现极可能是医保欺诈行为。(3)从图5中看出,将Userupdate(用户更新次数)分为两类,最终聚类中心分别为4141和859;图6显示每个聚类的案例数,可以看出第1聚类的案例数很少,占总案例数的8.1%,表明更新次数过多有可能是欺诈行为。4.2基于费用明细的医保欺诈行为主动发现4.2.1问题的分析医疗保险欺诈行为,通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现,主要从单张处方的
11、总价过高、病人ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。在附件给出的表2中,通过对各个变量进行K均值聚类分析,可以将数据分为几类,案例数少的则可能是欺诈行为。但是考虑到单价、数量、总价之间的相互影响,对此我们使用了SPSS中相关性分析找出三个变量的相关性,并用图标构建程序绘制了简单3-D散点图。对于病人ID号与模型一的分析一样,使用标记重复个案的方法,找到重复的记录,即可能为医保欺诈行为。而下医嘱科室与病人科室应该是一致的,若不一致即为欺诈,因此对下医嘱科室和病人科室绘制简单线图。4.2.2模型的建立:聚类分析与相关性分析聚类分析:(1)数据标准化由于所选数据的量纲和数值
12、大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个指标,则每个变量可表示为,均值标准方差则标准化后 (2)聚类系统聚类;,将个样本结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。设有n个样本,令I=1,选取K个初始聚类中心:;计算每一个数据样本与聚类中心之间距离:如果满足,则;计算误差平方和准则函数JC,公式如下:判断是否满足聚类算法结束条
13、件:如果,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回,新的聚类中心计算公式如下:距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。求取类之间的距离有多种方法,其中最常用的是欧几里德距离。令表示第个重复个案结果的第个指标, 表示第个重复个案与第个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离 即为欧氏距离相关性分析:相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数的绝对值越接近于1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,在进行两者间的相关性检验时
14、用pearson相关系数来判断,其公式为:Pearson简单相关系数检验统计量为:其中统计量服从个自由度的分布。4.2.3模型的求解(1)考虑到单价、数量、总价之间的相互影响,对这三个变量进行了双变量相关分析,图8为三个变量的相关性分析统计表, 图9单价、数量、总价的简单3-D散点图。 图8 单价、数量、总价相关性分析统计表 图9 单价、数量、总价的简单3-D散点图(2) 用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见图10,图11是这四个变量的单因素方差分析表,图12为每个聚类的案例数,图13是根据图12的结果绘制的简单条形图。 图10 医嘱子类、单价、数量、总价的
15、最终聚类中心 图11 医嘱子类、单价、数量、总价的单因素方差分析 图12 医嘱子类、单价、数量、总价的每个聚类的案例数 图13 医嘱子类、单价、数量、总价的最终聚类中心条形图(3) 用标识重复个案对病人ID号进行重复个案分析,结果见图14。再用k均值聚类分析对图14 中的重复个案进行聚类,结果见图15。图16为病人ID号重复个案的每个聚类的案例数。 图14 病人ID号重复个案统计表 图15 病人ID号重复个案的最终聚类中心 图16 病人ID号重复个案的每个聚类的案例数(4)图17为绘制的下医嘱科室与病人科室的简单线图图17下医简嘱单科线室图与病人科室4.2.4模型结果分析(1)图8的统计表中,
16、可以看出单价与总价的相关性为0.456(弱相关),而数量与总价的相关性为0.116(不相关),所以认为,单价与总价有一定的相关性。(2)从图10中看出,将医嘱子类、单价、数量、总价分为10类;图12为医嘱子类、单价、数量、总价的每个聚类的案例数,发现第1、2、4类的单价过高;第3、10类退药数量大,第8类买药数量大;第1、3类单张处方退药金额大;第2、4、6类单张处方药费高。以上所述的聚类特征,都有可能为医保欺诈记录。(3)图14统计出病人ID号重复个案占总数的77.6%,对此再进行聚类分析,结果见图15;由图16可知,第5、7、8、10类案例数较少,这些类的最终聚类中心大于25,此特征可能为
17、欺诈。(4)根据图17绘制的下医嘱科室与病人科室简单线图,可以看出有个别记录不在y=x线上,即为下医嘱科室与病人科室不一致,因此为医保欺诈行为。(5)在图11的单因素方差分析中,医嘱子类、单价、数量、总价的P值均为0,说明各类在统计学上均有明显差异,将其作为分类标准是合适的。五、模型的综合评价1.模型的优点:(1)针对构建解决模型问题,我们对题目附件所给数据进行仔细的分析,针对原始数据所提供的信息不断分析。进一步标准的处理数据,去除无用的或者不相关的,得到了更精确和更易分析的结果。体现了思维的严谨性,增加了模型的科学性。(2)对于模型得到的结果,结合生活实际,进行大胆的推测,合理地分析,最后验
18、证推测的可能性。(3)采用多元统计中的聚类分析、回归分析等方法建立模型,并充分利用EXCEL 及 SPSS等专业统计软件求解问题,将统计学理论和专业统计软件在解决问题中有机结合起来,并得到理想结果。2. 模型的缺点:(1)在处理2.1病人资料,2.2 费用明细表数据时,对于不完整数据和主观认为不相关数据源进行了主观性忽略,可能会导致一些重要指标的丢失以及各个因素间的影响。(2)医疗诈骗的行为很多,所以表现也多。本模型分析的医疗诈骗行为可能不完善,所以有的诈骗行为可能难以区分。6、 参考文献1 刘长骞,K均值算法改进及在网络入侵检测中的应用,计算机仿真,28(3):190-193,2011年2
19、向继 高能 荆继武,聚类算法在网络入侵检测中的应用,计算机工程,29(16):48-50,2003年3 姜启源 谢金星 叶俊,数学模型,北京:高等教育出版社,2010年4 李德宜 李明,数学建模,北京:科学出版社,2009年5 丁国盛 李涛,SPSS统计教程,北京:机械工业出版社,2006年6 薛薇,统计分析与SPSS的应用,北京:中国人民大学出版社,2008附录:预测程序框图:(1) 从身份证号、医保手册号、Userupdate(用户更新次数)这三方面预测是否为医保欺诈行为:a:医保手册号 b:医保手册号使用次数 c:身份证号使用次数: d:Userdate(用户更新次数)结束开始输入a,b
20、,c,dda=1??输出无欺诈输出可能 有欺诈17用以下数据可验证上述程序框图是较为准确的:序号医保手册号医保手册号使用次数身份证号身份证号使用次数userupdate114211271991070713072152260019790608529731441622198510173297411409551118436501034053 24403052013062023967501163747244030520131026418628600115048244010581081157130396002267952430522197704123186010600469157243010378071
21、400230311600502234344142281071951354012600602580262050219971015257513605185723625016507100024131460514465523605211983100225641560537561024305021984110122961660546344424304031982111121631710572751362101580624063571181054937641441481810113091568191051482144512219710602118402010494351440102620510481573(2) 从数量、总价
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 瑜伽垫与瑜伽砖套装行业跨境出海项目商业计划书
- 高空热气球体验营行业深度调研及发展项目商业计划书
- 高频手术设备节能改造行业跨境出海项目商业计划书
- 直升机滑雪接送服务企业制定与实施新质生产力项目商业计划书
- 河北女子职业技术学院《体育场馆经营与管理导论》2023-2024学年第二学期期末试卷
- 内蒙古艺术学院《作物育种学总论》2023-2024学年第二学期期末试卷
- 烟村功能性猪肉营销策划方案
- 2025-2030年中国国际快递行业市场发展现状分析及发展趋势与投资前景研究报告
- 2025-2030年中国商业烧烤烟民行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国医疗废物管理解决方案行业市场现状供需分析及投资评估规划分析研究报告
- 数字经济学 课件全套 第1-15章 数字经济学基础 - 数字经济监管
- 2024年山东省青岛市中考地理试题卷(含答案及解析)+2023年中考地理及答案
- 中医适宜技术-中药热奄包
- 中国医院质量安全管理第2-13部分:患者服务临床用血
- 《篮球原地运球》教案 (共三篇)
- 《病历书写基本规范》解读教学课件
- 《网络素养提升安全上网我先行》主题班会
- 新《劳动合同法》知识学习考试题库200题(含答案)
- 《草房子》人物形象分析全部
- 2024至2030年中国口腔医疗行业市场深度研究及发展趋势预测报告
- 河北省保定市2024年小升初语文试题及答案
评论
0/150
提交评论