




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医保欺诈行为的主动发现 摘要 随着我国医保制度推广范围的不断扩大 以及管理上存在的一定程度的疏忽 医保欺诈现象越发严重 造成了医疗资源的分配不公和公众利益的损失 本文着眼于分析医保欺诈的三种 常 方式三种 常 方式 探讨这些行为所具有的不同 特征 对这些手段 分别设计了检测方法 建立了三种不同的数学模型 模型一 对一张卡在一定时间 次 药 模型一 对一张卡在一定时间 次 药 对此我们可以统计出每张卡在 医院开药单的时间频率 同时还必须探究开药频率和病人自身属性的关联性 通过 比较数据在不同分类水平下的频率直方图 进一步通过列联表法列联表法检验了不同病人属 性下就诊频次之间的独立性是否存在 通过 制 式图 制 式图 通过分位数界定了一部 分离群点 作为高度怀疑的对象 模型 对于单张 方药 过高进行 别 模型 对于单张 方药 过高进行 别 对于特定类型的病人 医生往往会有 对应的开药模式 若某些外在因素相似的病人 在开药模式上呈现出很大的差异 性 则有理由怀疑为行为异常者 对此 我们采用了在 无监督机器学习在 无监督机器学习 建 立了 能过 器模型 能过 器模型 对于数据库中的离散分类数据和连续变量分别采用 SDLE SDEM方法 引入高 合模型高 合模型刻画其概率密度 基于新数据点对原有数据分布的 影响大小 计算了 Hellinger Distance Logarithmic Loss作为得分 得分越 高代表该数据点在与其类似的数据点中行为越异常 理论上结合经验阈值可以转 化为有监督机器学习模型有监督机器学习模型来优化原有模型 模型三探测一人 卡配药的 模型三探测一人 卡配药的 因为不同的病人去医院开药的行为通常是 相互独立的 如果若干张医保卡在开药行为上存在高度的一致性 则很可能这些医 保卡为同一人在使用 为探测这种关联性 采用了 Eclat 关联 则算法关联 则算法 对庞大的 数据库按时序进行数据挖掘 提 高度频繁项集提 高度频繁项集 作为怀疑的对象 我们队以上模型都基于现有数据库进行了模型仿真 对结果进行了评价 得到 了合理的结果 并对模型的进一步完善提出了展望 关 关 无监督机器学习 列联表 Hellinger 距离 对数损失 Eclat 频繁项集 1 1问题重述问题重述 的 的 的 的 的 重 题 求 附 的 建立模型求解 问题 1 的 2 的 3 重 的 2问题分析问题分析 问题 的 问题 的 的 的 的 的 的 的 的 分析 问题 的 问题 的 模 的 模 本 的 的 本题 的 的 问题 问题 的 本文 的 的 的 3模型基本假设模型基本假设 1 2 参 的 分 4模型的建立与求解模型的建立与求解 4 1模型 的 模型 的 题 的 的 的 的 的 的 的 的 的 的 2 附 的 本 的 的 附 的 录 的 的 的重 附 的 的 rowid 的 的 Q3 的 分 Q1 的 分 Q 分 的 4 1 1 的 的 分 8 0 70 10 分 70 的 的 的 分 1 1 述 的 的分 与 立与 立 立的 的 立 1 假设 与 立 2 r i 1 s j 1 nij n pi p j 2 n pi p j pi ni n p j n j n 3 1 1 2 3 4 5 6 7 0 10 7607222768730113681101 11 20 221850716469301310 21 30 84401955557152642214 31 40 104022696795311983625 41 50 63531531468175622539 51 60 3374886249120421220 61 70 206554418261231110 70 133941314786231916 2 2 r 1 s 1 分 8 分 7 r 8 s 7 2 2 42 nij n pi p j 2 2 1 2 3 4 5 6 7 0 10 8026 32066 007623 8922244 833191 7883942 0536845 12609 10 20 2169 406558 4153168 630166 1752524 8092311 3665712 19701 21 30 8072 4112077 876627 4765246 239692 3157242 2952845 38534 31 40 10348 452663 739804 3953315 6676118 344454 2205558 18187 41 50 6234 4321604 772484 6086190 174271 2966732 6652135 05171 51 60 3388 482872 211263 3901103 361738 7505217 753919 05099 61 70 2086 55537 0876162 189663 647823 8616910 9324511 73116 70 1471 969378 8916114 417644 9007116 833367 7123588 275817 3 3 2 1 2 3 4 5 6 7 0 10 21 9045112 545346 38345912 8852121 2953536 0685769 18156 11 20 1 0884684 7339980 127130 1205771 086050 2347310 39574 21 30 16 738687 2663517 91574136 066948 6851969 73863621 70392 31 40 0 2770970 3907070 1097380 0690173 4973766 12292918 92405 41 50 2 2549623 3913110 5692111 2107631 2122331 7987170 444742 51 60 0 0618930 2179940 7861862 6782780 272491 8647940 047274 61 70 0 2225630 0889632 4197170 1101510 0311170 0004170 255467 70 12 011573 0704959 27841837 61972 25904916 520357 209317 2 433 4652 问题的 p value 1 2 433 4652 42 0 2 42 42 的 分 假设 立 与 立的 的 4 4 1 2 的 的 分析 与 的 分 2 2 的 的分 与 立的 与 考 与 的 立 假设 题 4 4 1 2 3 4 5 6 7 2369261611861719269107104 1809545981388556209112131 假设 与 立 与 分 2 题 分 4 3 4 的 4 7 考 的 录 的 分 7 r 2 s 7 2 2 6 的 5 5 1 2 3 4 5 6 7 23711 866105 1511843 632723 4936271 2392124 2707133 3498 18075 144653 8491405 368551 5064206 760894 72934101 6502 2 6 5 6 2 1 2 3 4 5 6 7 0 016640 5108990 1636180 0279090 0184852 4002116 459782 0 021830 6702220 2146420 0366130 024253 1487168 474264 2 22 1881 问题的 p value 1 2 22 1881 6 0 0011 0 005 的假设 假设 与 的 4 1 3 的 的 分 的 模 型 的 的分析 与 的 的 的 分 的 分 设 Q3 Q1 Q Q3 1 5 Q Q1 1 5 Q 的 的 的重 3 分 的 3 7 的 分 的重 6 的 的 7 16366725 45204820 23047220 30974818 52360518 16042918 42361116 21003516 33836216 17849515 24202015 36394915 4 1 4模型的 模型的 模型 的 分析 考 的 的分析 模型 的 考 的 的 的 考 的 述 4 2模型 的 模型 的 的 解 的问题 的 的 的 模 的 模 的 分析 的 的 的 K means 分析 的 本问题的 的 7 的 的 的 的分 的 解 解 基 建立 的 的 模型 模型 基 Hellinger Distance Logarithmic Loss 的 的 的参 模型 的 模型 4 2 1基本 基本 的 的 x y x 型的 y 型的 的 的 分 建立 的 模型 的 分 的参 的 1 k 的 的 A1 A2 Ak 假设 Ai 的 vi 的 分 Ai vi j 1A j i i j k 1 2 vi A 1 j1 A 2 j2 A n jn j1 j2 jn 的 的 SDLE Sequentially Discounting Laplace Estimation 的 p x 的 模型 p y x 假设 的 的 分 模型 的 SDEM Sequentially Discounting Expectation and Maximizing 的 分 p y x p x y p x p y x 的 分 的 的 4 2 2SDLE 参 rh 的 1 1 rh 的 j1 j2 jn T j1 j2 jn 0 t 本 j1 j2 jn 的 T Tt j1 j2 jn 的 xt x1 x2 xn j1 j2 jn xt A 1 j1 A 2 j2 A n jn Tt j1 j2 jn 1 rh Tt 1 j1 j2 jn 1 Tt j1 j2 jn 1 rh Tt 1 j1 j2 jn 的 j1 j2 jn 的 pt j1 j2 jn Tt j1 j2 jn 1 1 rh t rh 分 分的 1 1 rh t rh 的 1 1 rh t 的 8 1 rh t 1 的 1 rh t 2 t 1 的 1 rh t 的 的 1 1 rh 1 rh t 1 1 1 rh t rh 的 x A 1 j1 A 2 j2 A n jn pt x pt j1 j2 jn A 1 j1 A 2 j2 A n jn A i ji A i ji t t 1 重 述 4 2 3SDEM 假设 分 分 的 假设 分 的 p y x k i 1 ip y i i i i 分 的 i i 分 的 i i 分 的 k 的 分 的 S s i s 录 的 的 2 S s i s i s i s i p s i s i E y s i s i p s i s i E yyT s i s i p s i s i i 1 2 k 述参 解 述 的 S s i 参 的 0 i 0 i 假设 0 i 1 k k 分 的 分 的 S 0 i 1 k 0 i 0 i 的 S s 1 i S s i 的 p i i yu 的 yu i 分 的 1 s 1 i s i i 1 2 k 9 s i p s i s i 1 s s u 1 p s 1 i s 1 i yu 1 s s 1 u 1 p s 1 i s 1 i yu 1 s p s 1 i s 1 i ys s 1 s p s 1 i s 1 i 1 s p s 1 i s 1 i ys 参 r 的 的 重 s i p s i s i 1 r p s 1 i s 1 i rp s 1 i s 1 i ys 的 1 s 的 的 r 的 的 的 的 的 的 录 的 分 的 与 述 的 r 的 参 的 的 的 的 p s 1 i s 1 i ys p s 1 i s 1 i ys p ys s 1 i s 1 i p s 1 i s 1 i k i 1p ys s 1 i s 1 i p s 1 i s 1 i k 分 i的 的 的参 p s 1 i s 1 i ys 1 r p ys s 1 i s 1 i p s 1 i s 1 i k i 1p ys s 1 i s 1 i p s 1 i s 1 i r 1 k 的 p s 1 i s 1 i ys s i p s i s i 2 s 1 i s 1 i 的 参 r 的 的 重 s i 1 r s 1 i rp s 1 i s 1 i ys ys s i 1 r s 1 i rp s 1 i s 1 i ys ysyT s 3 s 1 i s 1 i 10 1 的 p s i s i s i E y s i s i E y s i s i p s i s i p s i s i s i s i s i E yyT s i s i E y s i s i ET y s i s i E yyT s i s i p s i s i p s i s i s i s i T s i s i s i s i T 的 s i s i 重 述 1 2 3 的录 S s i 的 4 2 4 的 基 分 的 的 基 分 的 Hellinger Distance 的 分 的 的 ScoreH xs ys 1 r2 x ps x y p s 1 x y 2dy ps x y 录 t x y 的 分 ps x y p x p y x p x p y s i s i r 的 参 ScoreH xs ys 的 述 解析 的 的 的 Logarithmic Loss ScoreL xs ys log ps 1 xs log ps 1 ys xs 解 假设 的 的 的 的 的 2 ScoreL xs ys 的 本题 的 的 问题 分 与问题的求解 的 模型 3 参 分 分 11 8 Logarithmic Loss 分 Logarithmic Loss 6825541163 77295 98764623 4050321884 3282 07782965 4779451674 81176 01373671 4630111884 3160 49272966 6086841860 9150 60193672 6282871302 63146 43623670 367970243 04124 94449316 642467487 2113 57943407 6282871860 9110 0583673 220040393 75108 68689455 524683706 2107 53041130 173602262 598 76463399 2175271884 398 65193713 6501343645 295 91364551 3974881884 389 51512606 6792270 160 21981014 6772130 160 21921013 6801280 160 21921015 6907970 160 2191020 6913200 160 21821021 6953170 160 21781022 6954240 160 21681023 6954240 160 21581024 1 参 分 的模 述 附 的 录 Logarithmic Loss 分 8 分 的 分 分 的 录 本 分 的 模型 的 的 分 的 本 本的 1000 的 4 2 5 的 的 的 的 参 分 参 的 O KM 分 O Kd K 分 的 M 的 d 的 的 O TK M d T 的 的求解 T 289000 12 K 的 5 的 的 M 528 d 1 的 考 本 的 录 参 录 的 参 O K M d 的 的 的 的 4 2 6模型的 模型的 本模型 的 模型 的 的 的模型 的 立 的 分 的 的 本模型 的 的 的 的 的 的 分 分 分 的 4 3模型 的 模型 的 的 的 模型 的 基 Eclat 的 模 4 3 1Eclat Eclat 的 重 的 的 分析 的 本 本模型 的 基 Eclat 的 的 模 Frequent Pattern FP K K K1 K2 Kp 模 K 模 D 的 D d1 d2 dq support D 31 31 的 模 Ki K dj D V alue Ki dj 1 K 2 的模 的 Eclat 的 k 求 k 1 k 1 的 k 1 求 k 2 13 解 Eclat 1 k 1 的 k 1 的 k 1 假设 的 k 1 的 的 a b a b k 1 的 k 的 C1 的 a k 1 的 C2 a C1 C2 述的 k 1 的 的 k 的 k 1 模 求 Eclat 9的 的 4 a b c d 模 的模 9 Eclat 模 K1 d1 K2 d1 d2 Kp d3 d5 4 的 14 Eclat FP support s 1for Pi FP 2do 3FPi 4for Pj FP j i 5do 6Pij Pi Pj 7tidset Pij tidset Pi tidset Pj 8support Pij tidset Pij 9if support Pij s 10then Add Pijto FPi 11Eclat FPi s 4 3 2 模 模 的模 的 的 的 模 考 的 的 模型 Eclat 的 重 的 的 模型 的 4 的 的 考 设 0 1 的 的 设 0 15 Eclat 的 的 199502 1563 10 0 15 的 的 分 的 5 的 的 10 2 4 5 3 的 2 的 3 4 5 223085 523612 的 163696 的 的 述 16 的 3 模 本 的 3 的 2 4 5 的 k 1 模 k 模 求 的 的 的 述 3 的 模 模 的 1 i 与 i 的 0 15 10 Eclat 1 242023 452114 0 40625 2 223085 523612 0 40625 3 163696 223085 523612 0 375 4 163696 223085 0 375 5 163696 523612 0 375 6 223085 338370 523612 0 34375 7 223085 338370 0 34375 8 338370 523612 0 34375 9 163696 223085 338370 523612 0 3125 10 163696 223085 338370 0 3125 11 163696 338370 523612 0 3125 12 163696 338370 0 3125 13 242023 435116 452114 0 28125 14 435116 452114 0 28125 15 242023 435116 0 28125 16 363950 543311 0 28125 5 的 模 的 i 模 16 MergeSubsets 1for i 1 totalcombination 2do 3num i 4for j i 1 totalcombination i 5do 6if flag j 1 7then 8if icombination jcombinationor jcombination icombination 9then 10flag j 0 11if length i num 12then num j 13icombination jcombination 的 1563 的 0 21875 的 11 模 的 的 11 模 模 195852 242023 363950 435116 452114 543311 0 40625 163696 223085 309765 311229 338370 523612 0 40625 309765 363950 473794 543311 564865 0 28125 178378 376042 461304 479399 0 25 309765 338370 376042 0 25 291073 338370 376042 0 25 309765 376042 566079 0 25 344930 395755 397304 563739 676759 679044 0 21875 175167 193157 576968 635727 666348 0 21875 221880 519164 0 21875 423624 448707 452293 0 21875 170329 193785 223266 649962 665792 667499 0 21875 183137 423624 452293 0 21875 165617 192364 545121 600109 646479 0 21875 256550 279041 404867 625378 655834 659876 0 21875 256550 279041 404867 625378 659876 0 21875 170329 223266 649962 665792 667499 0 21875 170329 202212 256550 404867 655834 0 21875 165617 341118 649602 0 21875 4 3 3模型的 模型的 17 的 模 重 的 的 的 的 的 模 Eclat 的 模 的 参考文献参考文献 1 Phua Clifton et al A comprehensive survey of data mining based fraud detec tion research arXiv preprint arXiv 1009 6119 2010 2 Yamanishi Kenji et al On line unsupervised outlier detection using fi nite mix tures with discounting learning algorithms Proceedings of the sixth ACM SIGKD D international conference on Knowledge discovery and data mining ACM 2000 3 Li Jing et al A survey on statistical methods for health care fraud detection Health care management science 11 3 2008 275 287 4 的 与 MS thesis 2011 5 Ortega Pedro A Cristi n J Figueroa and Gonzalo A Ruz A Medical Claim Fraud Abuse Detection System based on Data Mining A Case Study in Chile DMIN 6 2006 26 29 6 Nikulin Mikhail S Hellinger distance Encyclopedia of Mathematics 2001 附录附录 本题 R 附 附 的 C include include include include define NORMDIM 5 define CID1 22 itemcat define CID2 3 TAREC define CID3 8 age definerh0 0003 18 define R 0 0005 definealpha2 0 definetrainThresh1000 usingnamespacestd const double PI atan 1 0 4 int hash 215 const inttotalcell CID1 CID2 CID3 structcellparams double frequency inttrain rec double prob double num NORMDIM 5 0 for c 1 for miu 2 for sigma 2 3 for es miu 4 fores sigma 2 cellold CID1 CID2 CID3 cellnew CID1 CID2 CID3 double quick calc voidinherit intt void renew double log calc intitemcat inttarec int age double price double calc norm double val double u double sq int main FILE fin fout fin fopen handle small csv r fout fopen scores2 csv w hash 1 1 hash 3 2 hash 4 3 hash 5 4 hash 6 5 hash 8 6 hash 10 7 hash 11 8 hash 12 9 hash 13 10 hash 14 11 hash 15 12 hash 18 13 hash 19 14 hash 20 15 hash 21 16 hash 23 17 hash 24 18 hash 25 19 hash 26 20 hash 209 21 hash 214 22 i n i t i a l i z a t i o n memset cellold 0 sizeof cellold memset cellnew 0 sizeof cellnew 19 for int c1 0 c1 CID1 c1 for int c2 0 c2 CID2 c2 for int c3 0 c3 CID3 c3 for intl 0 l NORMDIM l cellold c1 c2 c3 num l 0 1 0 NORMDIM cellold c1 c2 c3 num l 1 double rand 100 100 cellold c1 c2 c3 num l 2 double rand 100 10 cellold c1 c2 c3 num l 3 double rand 100 100 cellold c1 c2 c3 num l 4 double rand 100 10 intcnt 0 fscanf fin s n fprintf fout WORKLOAD ID WORKLOAD ITEMCAT DR WORKLOAD TAREC DR AGE GROUP WORKLOAD TOTALPRICE SCORE TRAIN REC n printf excuting n int64 t GetTickCount while feof fin intitemcat tarec age id doubleprice if cnt 1000 0 printf d datum handled n cnt readin a new datum and convertto subscript 20 fscanf fin d d d d l f n printf datum d d d d d 2 l fread n cnt id itemcat tarec age price itemcat hash itemcat 1 tarec cnt inherittheinvariantvalues inherit cnt updatethediscretepart cellnew itemcat tarec age frequency 1 cellnew itemcat tarec age prob cellnew itemcat tarec age frequency 1 pow 1 rh cnt rh cellnew itemcat tarec age train rec 1 double gamma var mean temp sum 0 temp 0 for inti 0 i NORMDIM i temp cellold itemcat tarec age num i 0 calc norm price cellold itemcat tarec age num i 1 cellold itemcat tarec age num i 2 for inti 0 i NORMDIM i mean cellold itemcat tarec age num i 1 var cellold itemcat tarec age num i 2 gamma 1 alpha R cellold itemcat tarec age num i 0 calc norm price mean var temp alpha R NORMDIM if isnanf gamma gamma 1 0 update c i cellnew itemcat tarec age num i 0 1 R cellold itemcat tarec age num i 0 R gamma printf 4 l f 4 l f n gamma cellnew itemcat tarec age num i 0 update mu i 21 cellnew itemcat tarec age num i 3 1 R cellold itemcat tarec age num i 3 R gamma price cellnew itemcat tarec age num i 1 cellnew itemcat tarec age num i 3 cellnew itemcat tarec age num i 0 updatesigma 2 i cellnew itemcat tarec age num i 4 1 R cellold itemcat tarec age num i 4 R gamma price pric
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 融媒体编辑面试题及答案
- 备考技巧:2024年珠宝鉴定师考试试题及答案
- 2024年美容师行业内外竞争状况分析试题及答案
- 2025年劳动合同制改革要点
- 钢铁是怎样炼成的读书分享
- 2025企业财产保险合同范本
- 生成AI助力高等教育变革
- 2025版财务援助借款合同
- 新疆现代职业技术学院《企业战略管理》2023-2024学年第二学期期末试卷
- 厦门兴才职业技术学院《信息管理专业英语》2023-2024学年第二学期期末试卷
- 城市地铁与轨道交通建设项目环境法规和标准包括适用的环境法规、政策和标准分析
- 2023持续炎症-免疫抑制-分解代谢综合征(PICS)
- 炎症性肠病知识讲座
- 中国当代文学智慧树知到答案章节测试2023年青岛滨海学院
- 2023年金山职业技术学院高职单招(英语)试题库含答案解析
- 维生素D教学讲解课件
- 自考高级英语上下册中英翻译
- DB45-T 2228.1-2020公路养护预算编制办法及定额 第1部分:公路养护工程预算编制办法及定额-(高清可复制)
- 起重吊装作业安全卡控细则及工序卡控表
- 二氧化碳灭火器课件
- 《中华人民共和国民法典》宣传手册课件
评论
0/150
提交评论