A4-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第1页
A4-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第2页
A4-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第3页
A4-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第4页
A4-2015年深圳杯夏令营优秀论文-医保欺诈行为的主动发现_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于数据挖掘的医疗保险欺诈是电机系2013010932方诗卉电机系2013010935tan振飞电机系2013010946贾鑫摘要目前,社会上在履行非法人参加保险的义务上存在虚构的事实,并隐瞒真相骗取医疗保险权利这种欺诈行为在各国普遍存在。 这些违法行为已经给我国带来了巨大的经济损失,严重影响了我国医疗行业的进一步发展。 从大量医务人员的信息中识别欺诈行为,用劳动者的力量是不能明确的。 为了有效地初步识别欺诈嫌疑人,本文采用聚类分析、异常点挖掘、残差分析等算法对患者的就诊信息进行了数据挖掘。 针对不同的保证手段,提出4个保证欺诈识别因子作为评价标准,从而以一种均方的方式获得集中的保证欺诈嫌疑评

2、价指标。 通过计算每一个例子医生记录的嫌疑指标,并与设定的阈值进行比较,能够初步确定欺诈嫌疑人。 并且,通过在这些对象中进行更细致的人工调查,可以有效地识别欺诈行为。 关键词:欺诈识别欺诈识别,数据挖掘,异种识别,异种识别,SNNSNN相似度,识别因子相似度,识别因子一,问题再描述一,问题再描述医疗保险欺诈是指公民、法人或者其他组织参加医疗保险,缴纳医疗保险费,享受医疗保险待遇的过程中故意捏造事实欺骗保险人进行医疗保险欺诈时常用的手段之一是拿着别人的医疗保险卡配药,二是在不同的医院和医生配药。 有医疗保险欺诈的可能性的是,一张处方药物的费用非常高,一张卡在一定时间内多次持药等。 根据附件六个表

3、(患者资料、费用明细表、医嘱表、医嘱子类、会计分类、患者类别)中的数据,找到可能的欺诈记录。 二、问题分析二、问题分析关于医疗保险欺诈,保险欺诈者在使用医疗保险时留下痕迹,发生非法消费。 在本问题中,需要通过检索分析消费历史来进行选择。 首先,表2.1的患者资料显示,一部分人在医院记录中使用了医疗保险卡,而另一部分人没有使用。 所以,如果没有使用医疗保险卡的话,可以判断没有保险欺诈的嫌疑。 另外,对于其他问题,例如在医院死亡的患者,几乎可以断定没有保证欺诈的嫌疑。 处理数据的第一步骤是预处理原始数据,去除无辜的欺诈,后续数据处理仅针对剩下的人。 不能直接排除其馀嫌疑人的,不能一概而论,但欺诈行

4、为多种多样,在医疗保险消费过程中也有不同的特征。 这些特征大致可分为1 .数量特征:欺诈的人需要更多的利益,所以他需要用医疗保险卡购买很多药,以实现欺诈行为。 这表示对应某个医疗保险卡号的消费量比正常值多。 因此,在这一点上,通过针对每个ID号码找到消耗量,并与平均值进行比较,能够描绘出该欺诈的可能性。 2 .频繁特征:对欺诈者来说,为了避免嫌疑可能多次购买药品。 这一点的表现是,某医疗保险卡实现了不规则的多次消费。 因此,在这一点上,通过找到每个ID号码的消费频率,其中的异常显示了欺诈的可能性。3 .类型特征:根据表2.3的医生指示项目,对一个医生指示项目,每个使用的患者应该有大致相同的量,

5、如果一个量“与大家不同”,他就有可能成为骗子。 因此,在这方面,通过描绘这几乎相同的量(即平均费用),并分别比较医疗保险的使用量,可以描绘出保险欺诈的可能性。 通过综合分析这三个方向数据,基本上能描绘出欺诈的可能性的大小。 由于模型更准确和普遍,可以继续考虑其他影响较小的因素,如使用医疗保险卡但不使用身份证的患者有一定的嫌疑等。 三、模型假说和符号说明三、模型假说和符号说明一。 模型假说模型假说是我们建立的数学模型,每个人用不同的指标进行评价,每个指标0为嫌疑最小,1为嫌疑最大,通过这样的多个识别因子在空间中构筑了一组多维向量,在这个多维空间中,从很多群组中另外,在建立模型分析之前,假设不使用

6、1.1医疗保险卡的患者没有保险费,1.2一次开的药量一定,某个患者开的药越偏离这个基准值,他的欺诈嫌疑就越大,1.3有些药需要在疗程中服用同一患者每隔一定时间(例如7天)买同一种药被认为是比较正常的,很有可能是间隔时间短或频率不稳定的欺诈。 (例平均费用) 1.4假设医生的指示书和医生的指示书子类有明显的差异,在医生的指示书上有不投保的项目的同时,医生的指示书的不投保项目上有消费记录的患者也有可能基本上不投保的1.5人使用不同的医疗保险卡在同一时间重复用药欺诈的嫌疑也提高了。 2、符号说明符号意思yk患者年龄ck的每个消耗平均值I患者的标准偏差q1识别系数Nk偏差分布区间的中点Pk是怀疑对象所

7、占的频率的, 加权系数因子u就诊的病例的5种特征类型构成的矩阵的某量矩阵的I行平均值矩阵的j列的方差m取值的富豪的特性的种类d距离矩阵q2识别因子dout从离群点最近的簇中心距离群点到其k附近的平均距离标准化系数HI、i的各识别因子的合计权重Qi嫌疑犯识别因子。 四、模型的建立与求解四、模型的建立与求解0 .数据预处理数据预处理从表2.1中可以看出,在所有患者的诊断记录中,有一部分有医疗保险卡号的记录(即使使用医疗保险卡),有一部分没有医疗保险卡号的记录(使用医疗保险卡因为没有使用医疗保险卡的患者的保险欺诈的嫌疑为0,所以在数据处理中必须首先排除没有使用医疗保险卡的情况。 这减少了误判的可能性

8、,避免重复计算,提高了计算效率。 1 .费用限额异常筛选费用限额异常筛选在进行医疗保险欺诈识别筛选中,最直接的指标是费用限额。 此部分从人均消费总额和人均消费总额来确定标识元素。 1.1年龄分布拟合残差异常识别年龄分布拟合残差异常识别如果不考虑个人差异,每个人的一定期间内医生的费用和年龄有很大的相关性。直观理解的话,年龄小和大的人身体状况不好,一定时期医生的支出也比青壮年人高。 在此分析的基础上,找出平均费用额对年龄层的分布情况,对该分布进行回归分析,求出拟合函数。 然后,以该函数为参考基准,验证每个人的消费数据,求出每个人的消费额的残差,用残差的大小来确定该指标的识别因子。 1.1.1费用年

9、龄分布适合所有年龄yk的患者,他们的医生的消费平均为ck。 ck和yk的函数关系是通过ck=()将2.2.1 病人就医分类汇总表和2.1 病人资料表用PAPMI_ID结合,然后按照年龄进行平均分类汇总。 得到ck yk的分布图:-150、350、550、750、1150、0204065080100平均消费年龄分布平均消费的年龄分布与该分布规律基本一致,医疗支出基本上随着年龄的增长而增加,幼儿和老年人的支出显着增加。 但是,65岁以后的分布变动剧烈也不容易。 这是因为年龄大的人很少,统计结果受个体的影响很大。 表中年龄从4岁到60岁的人的平均消费分布进行最小二乘拟合,剩下的年龄层把平均值作为对应

10、的标准函数值。 1.1.2残差分布分析计算每个患者的总就诊消费及其年龄层标准参考函数的偏差。 因为年龄的不同消费金额也不同,所以有必要将偏差标准化。 计算每个患者的标准偏差:i=得到标准偏差的度数分布表是区间-5,0 0,5 5,10 10,15 15,20 20,25 25, 30,30,35 频率24525252525252525252525252525252525252525252525252525252525252525252525252525252525252 25252525252525252525252525252525252525252525252525252525252525

11、252 子确定识别因子确定可得到标准偏差的分布状况,但具体而言,很难确定识别因子q-1的值。 然而,基于个人消费总额的分布异常的标识因子q1至少在a )标识因子的可能值的范围: 0,1 ; b )标准偏差越大,识别因子q1的值越大c )相应区间的频度越少,识别因子q1的值越大d )显然存在很多数据的区间,能够直接排除该嫌疑。 根据这些基本条件,可以按q1=Nk的形式确定识别因子。 其中,Nk怀疑偏差分布区间的中点Pk所占的频率、的权重系数的关系近似地表示了识别因子q1与决定因子的关系,但权重系数、在将最后的识别因子相加时需要定位。 2、药品种类和数量异常发掘的药品种类和数量异常发掘的同一种类的

12、药品或治疗手段,它们的一次使用数量、适用者、治疗期间等应具有一定的相似性。 由于欺诈行为往往违反这些规则,这也成为识别欺诈行为的指标。 使用基于SNN相似度的异常点筛选算法进行识别分析,并参考MACLU聚类异常挖掘算法中高维混合数据的处理方法对算法进行改进。 2.1数据预处理数据预处理本问题需要考虑药品的种类(医生指示的子类)、医生指示的种类、一次使用数、就诊者的性别、治疗期间、5个不同的指标,它们采用不同的测量单位,数值的差异可能大,SNN相似度计算时的距离计算有很大差异。 同时,药品的种类和医生的指示的种类属于符号型数据,此后,三者因为数值型数据,即这个五维数据包含混合数据型,所以不能直接

13、进行聚类挖掘计算。 因此,首先需要进行数据正规化、正规化、符号类型的数值区域映射处理。2.1.1每个数据标准化就诊例的上述5种特征类型数据构成矩阵u,每个病例的5种特征数据构成矩阵的一个列向量。 正规化需要将各特征类型的数据平均设为0,方差设为1。 处理过程为: =(=1,5;=1,)中:=1=1si=1()2=1数据如上所述归一化后,数据范围不在 0,1 的可能性高,进而需要以下归一化变换。 2.1.2数据正规化的变化处理:min 1max 1(min 1)其中,变化式的分母是数据矩阵u的第I行的极差。 由于该阶梯变换后各变量的最小值是0,极差都是1,各特征属性的基点相同,变动范围一致,所以

14、之后的计算分析变得容易。 为了将2.1.3符号类型的特征映射到数值字段以便通过数值的特征来处理符号类型的特征,此步骤是将具有m种不同取值的符号特性进行m位二进制只有在特征取值为第j个值的情况下,其代码的第j个为1,其馀为0 .但是具体来说,在本问题中,所包含的药品的种类非常多,因此,特征类型的图像矢量有可能过大。 因此,通过药品的种类代码和该药品(治疗)的使用量的分布图进行观察,发现药品的种类虽然复杂,但在一定期间内只被患者使用了不到一半,其中相当一部分的分布集中。 因为只有使用量分布分散的药品的种类可以保证,所以实际上需要对地图的变化进行编码的药品的种类是可以允许的。 实际上,还可以进行分析

15、所映射的图像向量以降低维度的处理。 具体的实现太复杂了,这里只提出概念,不做进一步的讨论。 2.2 SNN相似度异常点筛选在适当地预处理相似度异常点筛选检查数据后,以下计算各采样点间的相似度矩阵,从相似度矩阵中确定各数据点间的连接关系,确定簇中心和异常点数据,进一步筛选检测异常数据。 具体实现步骤如下:计算2.2.1结构距离矩阵u矩阵中各5维列向量间的欧元距离,结构距离矩阵d。 其中,距离计算式如下: dij=( )2 8=1值得说明的是,距离矩阵d是对称矩阵。 2.2.2制作邻近列表,针对每个采样点,在d中找出最近的k邻近列表并存储在k邻近表KNN中。 其中,KNN(i )表示第I个采样点的k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论