版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医保欺诈行为的主动发现摘要对于医保诈骗行为,我们认为仅通过一个模型直接找出所有的欺诈类型既不准确,操作起来又比拟困难。所以我们根据题附件中的费用明细表,通过分析费用数据与诈骗行为之间的关系建立模型一;根据各个表中出现的异常值,我们将异常值视为可能是医保欺诈行为,并由此建立模型二。针对模型一,我们从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,假设下医嘱科室与病人科室不一致那么可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。针对模型二,建立合理的欺诈评判标准,检测其中的异常数据,进而对医保行为作出识别。首先,构建基于Logistic分析的精炼欺诈识别因子模型。建立Logit回归模型并用SPSS软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。构建无导师学习的自组织特征映射〔SOFM〕神经网络模型。即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别。关键词:医保欺诈标记重复个案相关分析logit模型SOFM神经网络一、问题重述1.1问题的背景随着我国社会医疗保险体系的不断开展,人民的医保福利水平日益提高,一些医保体系中的问题也日益显著,其中焦点问题之一就是医保诈骗行为。1.2问题的复述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,成心捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复屡次拿药等。请根据附件中的数据,找出可能的欺诈记录。问题分析根据问题中对骗保人进行医保欺诈时的常用手段,以及可能属于医保欺诈行为的情况,经过分析我们可以将问题分为以下几个方面来解决。1、判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate〔用户更新次数〕这三方面考虑。对此利用SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。2、首先第一步,对数据进行分析,构建基于Logistic分析的精炼欺诈识别因子模型。基于第一步处理的欺诈案评判标准数据间的关系,建立Logit回归模型并用SPSS软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。第三步,构建无导师学习的自组织特征映射〔SOFM〕神经网络模型。即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,在待检测数据中抽取一局部样本数据训练SOFM神经网络,得到欺诈行为识别模型。第四步,导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别。三、问题的假设1、假设医保欺诈只是患者单方面行为,不存在医患合谋和医疗机构“引至欺诈〞情况。2、假设数据来源真实有效。
3,、假设分析过程中,数据无缺失。
4、假设对每个聚类分析结果,使用同一评判标准。5、假设附所有保险的有关规定没各个指标。
6、假设所有的相关数据具有独立性相呼影响。
四、符号说明变量标准方差初始聚类中心样本与聚类中心的距离误差平方和准那么函数欧式距离新聚类中心Pearson相关系数
Pearson相关系数检验统计量2个一级指标i=1,2
5个二级指标i=1,2j=1,2,33个成比照矩阵i=1,2,3=矩阵按行求和矩阵的最大特征值W5个指标最终权重CT一致性检验指标
RI随机一致性指标CR一致性比率
t1欺诈程度阈值
五、模型的建立与求解5.1模型一:基于费用明细的医保欺诈行为主动发现5.1.1模型一的分析医疗保险欺诈行为,通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现,主要从单张处方的总价过高、病人ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。
在附件给出的表2中,通过对各个变量进行K均值聚类分析,可以将数据分为几类,案例数少的那么可能是欺诈行为。但是考虑到单价、数量、总价之间的相互影响,对此我们使用了SPSS中相关性分析找出三个变量的相关性,并用图标构建程序绘制了简单3-D散点图。对于病人ID号与模型一的分析一样,使用标记重复个案的方法,找到重复的记录,即可能为医保欺诈行为。而下医嘱科室与病人科室应该是一致的,假设不一致即为欺诈,因此对下医嘱科室和病人科室绘制简单线图。
建立:〔1〕数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,m个指标,那么每个变量可表示为,均值〔1〕标准方差为〔2〕标准化以后的式子为〔3〕〔2〕聚类分析
系统聚类,将n个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。设有n个样本,令I=1,选取K个初始聚类中心:;计算每一个数据样本与聚类中心之间距离:〔4〕如果满足;计算误差平方和准那么函数JC,公式如下:〔5〕判断是否满足聚类算法结束条件:如果,那么表示算法结束,否那么,I=I+1,计算下一个新的聚类中心,并返回2,新的聚类中心计算公式如下:〔6〕距离:对重复个案结果进行聚类时,“靠近〞往往由某种距离来刻画。
令表示第个重复个案结果的第个指标,表示第个重复个案与第个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离〔7〕上式即为欧氏距离。〔3〕相关性分析:
相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数r的绝对值越接近于1,那么表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:〔8〕Pearson简单相关系数检验统计量为:〔9〕其中统计量服从个自由度的分布。求解
考虑到单价、数量、总价之间的相互影响,对这三个变量进行了双变量相关分析,图8为三个变量的相关性分析统计表,
图9单价、数量、总价的简单3-D散点图。表-1单价、数量、总价相关分析统计表图-1单价,数量,总价的简单3-D散点图(2)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见表-2,表-3是这四个变量的单因素方差分析表,表-4是运用k-均值聚类分析求出的重复个案数。表-2病人ID号重复个案的最终聚类中心
表-3医嘱子类、单价、数量、总价的单因素方差分析表图-2医嘱子类、单价、数量、总价的最终聚类中心条形图表-4k均值聚类分析中的重复个案聚类上述所有统计结构的分析:〔1〕从相关分析的统计表中,可以看出单价与总价的相关性为0.456〔弱相关〕,而数量与总价的相关性为0.116〔不相关〕,所以认为,单价与总价有一定的相关性。〔2〕从图10中看出,将医嘱子类、单价、数量、总价分为10类;图12为医嘱子类、单价、数量、总价的每个聚类的案例数,发现第1、2、4类的单价过高;第3、10类退药数量大,第8类买药数量大;第1、3类单张处方退药金额大;第2、4、6类单张处方药费高。以上所述的都有可能为医保欺诈记录。〔3〕图14统计出病人ID号重复个案占总数的77.6%,对此再进行聚类分析,结果见图15;由图16可知,第5、7、8、10类案例数较少,这些类的最终聚类中心大于25,此特征可能为欺诈。
〔4〕根据图17绘制的下医嘱科室与病人科室简单线图,可以看出有个别记录不在y=x线上,即为下医嘱科室与病人科室不一致,因此为医保欺诈行为。
〔5〕在图11的单因素方差分析中,医嘱子类、单价、数量、总价的P值均为0,说明各类在统计学上均有明显差异,将其作为分类标准是合适的。建立与求解t模型的建立我们把事件发生的情况定义为1,事件未发生的情况定义为0。这样在保险欺诈识别模型中,取值为0、1的因变量可以写作:
〔10〕我们通常以表示事件发生的概率〔那么事件未发生的概率为〕,并把看作自变量的函数。在本论文中,医疗保险是医疗欺诈的概率为。
对于是0-1型Bernoulli模型,有如下分布:〔11〕通过logistic转换,索赔事件的对数概率发生比写成logit模型:〔12〕Logit一方面表达出它是医疗欺诈索赔概率p的转换单位;另一方面,它作为回归的因变量就可以与自变量识别因子之间的依存关系保持传统回归模型:〔13〕其中分别为个识别因子:为常数项,分别为个自变量的回归系数。5.2.2logit模型的求解1、欺诈识别因子的选取
欺诈识别因子是指可以观测或测量到的,能够刻画保险欺诈特征的有效信息点,用以作为欺诈识别模型的解释变量。根据给出的数据,本文选取了一下13个指标作为识别因子:
〔1〕被保人特征:
性别、年龄、是否有固定单位、是否死亡、是否留有手机号。
〔2〕医保单特征:
医嘱日期和结算日期间隔、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。
2、选取局部记录进行初步判定
由于logist模型的要求,必须先对一小局部记录进行初步判定,利用sql语句〔详见附录2〕选取每一栏目中异常数据,然后利用统计学分布等知识选取判定这一小部分数据,结果如下表:表-5局部记录判定结果3、欺诈识别因子的精炼
运用二元离散选择模型对选取的13个欺诈识别因子经行逻辑回归分析,从中获取具有显著性的因子。本文通过SPSS
样本数据的logit回归分析,所得结果见下表:
参数设定为:方法-进入
步进概率:进入〔N〕=0.05,删除〔V〕=0.1;分类标准值〔U〕:0.5;最大迭代次数:50;
Exp〔B〕的C.l.〔X〕:95%。
表-6分类表表-7迭代历史记录Block拟合的是只含有常数的无效模型,表3为迭代历史记录,估计在迭代终止初始的对数似然值到达825.358;表4为分类预测表,可见在600例观察值记录中,269例被预测为0,331被预测为1。表-8logit回归包含在防潮层中的变量估计值以及检验在没有引入任何变量时方程的变量估计值及检验值如表5所示,常变量系数值为0.27,概率为0.082,可见常量对方程有显著性意义。因为回归采用Enter方法,处了检查容忍度
之外,没有其他任何进入标准,所有选择的变量都会进入回归方程。将变量分别引入回归方程后对方程的显著性影响如表6所示。可见性别、医嘱子类、是否留有手机号、执行科室、单价等五个因子引入方程对方程没有显著性影响。表-9logit回归不包含在方程中的变量进入方程识别的SOFM神经网络模型以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,在待检测数据中抽取一局部样本数据训练SOFM神经网络,得到欺诈行为识别模型。导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果不同类型的数据,即可对医保欺诈行为进行主动识别。SOFM神经网络结构模型的根本结构如下列图所示:图-3SOFM神经网络结构模型根本结构图基于SOFM神经网络算法的根本功能函数,神经元的输出可以采用两种方式:〔1〕内积形式〔14〕欧氏距离形式〔15〕
接下来运用处理之后的数据对构建的神经网络模型进行训练,基于最小均方误差算法,以均方误差作为反映模型预测精度的标准,与最速下降法没有本质上的差异。最标准最速下降法实际应用中往往收敛速度慢,因此作为改进权值更新阶段引入动量因子,使本次权值的更新方向和幅度不仅与本次计算的梯度有关还与更新有关,使权值更新有一定的惯性。研究中动量因子设定为0.9。
模型经过94次训练误差精度到达5小于目标0.01,训练结束,训练过程如下:图-4模拟训练过程图训练后模型的拟合优度,较为理想。在合理的容错限度内可以较为准确地进行数据拟合和预测。运用上述已经成型的神经网络模型,将数据导入其中得到了结果图:图-5模型求解结果图在10%的容错限度内判定准确率到达85.17%,在20%容错限度内准确率到达96.65%,可以认为准确率很高。运用MATLAB语句选取概率在单记录视为存在医疗保险欺诈的行为结果给出了797条,局部数据如下表所示:表-10利用SOFM神经网络模型得到存在医疗欺诈的账单记录.六、模型的评价与改良点
1.利用logistic模型能够对初步确定的欺诈识别因子进行显著性水平检验,从而筛选出显著性高的识别因子;
2.以logit回归分析得到的显著有效地欺诈识别因子作为输出变量建立BP神经网络模型,从样本中选取一局部样本作为训练样本,用训练样本来训练神经网络,使神经网络更加合理,更加成熟;
3.模型能适用于其他各种医疗保险欺诈的识别,整个模型有很好的通用性。点:
费用明细表数据时,对于不完整数据和主观认为不相关数据源进行了主观性忽略,可能会导致一些重要指标的丧失以及各个因素间的影响。〔2〕医疗诈骗的行为很多,所以表现也多。本模型分析的医疗诈骗行为可能不完善,所以有的诈骗行为可能难以区分。七、参考文献[1]
刘长骞,?K均值算法改良及在网络入侵检测中的应用?,?计算机仿真?,28(3):190-193,2021年
[2]
向继
高能
荆继武,?聚类算法在网络入侵检测中的应用?,?计算机工程?,29(16):48-50,2003年
[3]
姜启源
谢金星
叶俊,?数学模型?,北京:高等教育出版社,2021年
[4]
李德宜
李明,?数学建模?,北京:科学出版社,2021年
[5]
丁国盛
李涛,?SPSS统计教程?,北京:机械工业出版社,2006年
[6]
薛薇,?统计分析与SPSS的应用?,北京:中国人民大学出版社,2021[6]
姜启源.数学模型〔第三版〕[M].北京:高等教育出版社,1999.
[7]
韩中庚.数学建模方法及其应用〔第二版〕[M].北京:高等教育出版社,2021.
[8]
王沫然.MATLAB与科学计算.北京:电子工业出版社,2003年.
[9]
刘潇.社会医疗保险道德风险及其控制机制研究——基于医疗服务供需双方的分析.北京:中国人民大学,2021年.
附录附录1
计数程序
ii=331;
sum=0;
for
i=1:ii
if
if
sum=sum+1;
rrr(i)=1;
end
end
end
附录2
数据库中对数据进行预处理程序
select
WORKLOAD_ROWID
as
购药记录,WORKLOAD_ARPBL_DR
as
账单号,
WORKLOAD_ITEMCAT_DR
as
医嘱子类,
WORKLOAD_ITEMORD_DR
as
医嘱项,
WORKLOAD_ORDDATE
as
医嘱日期,
WORKLOAD_FLAGDATE
as
结算日期,
convert(float,
convert(datetime,
WORKLOAD_FLAGDATE-WORKLOAD_ORDDATE))
as
时间间隔,
WORKLOAD_PAPMI_DR
as
医保对象,
PAPMI_DOB
as
出生日期,
PAPMI_MEDICARE
as
病例号,PAPMI_NAME3
as
医保手册号,
PAPMI_SEX_DR
as
性别,
PAPMI_DECEASED
as
是否死亡,
PAPMI_DECEASED_DATE
as
死亡日期,
PAPMI_SECONDPHONE
as
工作单位,PAPMI_MOBPHONE
as
号,
WORKLOAD_PATDEP_DR
as
下医嘱科室,
WORKLOAD_QUANTITY
as
医嘱数量,
WORKLOAD_RECDEP_DR
as
执行科室,
WORKLOAD_RESDOC_DR
as
下医嘱医生,WORKLOAD_TAREC_DR
as
核算分类,
WORKLOAD_TOTALPRICE
as
费用,
WORKLOAD_UNITPRICE
as
单价
update
Sheet1$
set
医嘱数量=0-医嘱数量
where
医嘱数量<0
update
Sheet1$
set
单价=0-单价
where
单价<0
update
Sheet1$
set
费用=0-费用
where
费用<0
update
Sheet1$
set
年龄=datediff(YEAR
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位管理制度呈现大全【员工管理】十篇
- 《物业管理服务业》课件
- 三年级数学数学广角课件
- 2024年农业综合开发和扶贫开发工作总结
- 2024年公司劳动社保科上半年的工作总结
- 空调机运输协议三篇
- 农业产品销售主管工作总结
- 通信科技前台工作总结
- 家政服务前台工作总结
- 机电装备话务员工作总结
- 教科版五年级上册科学期末测试卷及参考答案(完整版)
- 江西省九江市一中2023-2024学年下学期八年级期中物理试卷
- 物理化学英语词汇
- 山东省沂南县2024届八年级物理第二学期期末经典模拟试题含解析
- MOOC 概率统计和随机过程-南京邮电大学 中国大学慕课答案
- 北师大版七年级数学上册 期末重难点真题特训之易错必刷题型(96题32个考点)(原卷版+解析)
- 高警示(高危)药品考试试题与答案
- 42山东省枣庄市薛城区2023-2024学年七年级上学期期末考试生物试题
- 部编版六年级语文下册第三单元大单元教学设计
- 前端组长述职报告
- 食品安全企业标准模板
评论
0/150
提交评论