版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于大数据+AI机器学习的反诈模型研究人工智能安全AISecurity基于大数据+AI机器学习的反诈模型研究陆文红,刘剑(中国联通黑龙江省分公司,黑龙江哈尔滨150001)LuWenhong,LiuJian(ChinaUnicomHeilongjiangBranch,Harbin150001,China)摘要:首先阐述了课题研究的背景,从电话反诈需求出发,提出了基于大数据+AI机器学习模式建立反诈模型的思路,搭建反诈态势感知大数据平台。接着介绍了随机森林、支持向量机、朴素贝叶斯、梯度提升决策树等机器学习算法,详细描述了重要功能接口,介绍了数据源采集处理,通过自定义规则与时俱进更新反诈模型,实现反诈趋势实时监控、涉诈号码关停、溯源分析等功能。最后对平台部署进行了测试验证。关键词:文章编号:1007-3043(2022)09-0059-05开放科学(资源服务)标识码(OSID):anlectionandprocessing,updatestheanti-fraudmodelthroughcustomrules,andrealizesthereal-timemonitoringofanti-stestKeywords:s引用格式:陆文红,刘剑.基于大数据+AI机器学习的反诈模型研究[J].邮电设计技术,2022(9):59-64.0前言近年来,电信诈骗严重影响了人民群众获得感、幸福感、安全感。国家高度重视电信诈骗治理工作,运营商作为电信诈骗整个链条中的一个环节,亦投入大量人力物力、技术资金等开展电信诈骗专项治理。运营商如何利用技术手段进行反诈,一直以来都是研究重点。最初电信诈骗特征并不复杂,通过一些简单的行为分析与内容检测就可以达到不错的反诈效果。收稿日期:2022-07-29随着诈骗分子与反诈人员技术对抗不断升级,电信诈骗在通信网侧的行踪已经越来越隐蔽,技术手段越来越先进,因此,反诈工作亟需提升技术水平和能力,运用决策树、随机森林、贝叶斯分类器等典型的机器学来综合判别诈骗电话,进而对诈骗电话进行关停、溯源和关联分析。1电话反诈需求分析1.1电话反诈现状随着通信技术的发展和互联网的普及,诈骗分子邮电设计技术/2022/0959人工智能安全AISecurity基于大数据+AI机器学习的反诈模型研究频繁利用电信网和互联网对广大人民群众实施非接触式诈骗,并逐步呈现智能化、职业化的特点。诈骗分子利用电话、改号软件、短信、恶意程序(包括仿冒和相关部委关注的重点。1.2电话反诈治理难点在通信过程中,终端会因为开关机、路由区更新、呼叫业务、短消息业务触发鉴权向量消息,被叫和短消息业务会触发寻呼消息,针对用户漫入漫出诈骗特征分析的主要方法是通过正常用户的行为建立基线,发现非正常终端的通联关系。但是,电话反诈存在诈骗场景多变、举报样本不纯、数据不均衡、数据表现不一致等治理难点。2整体解决方案2.1平台整体架构如图1所示,从整体架构上,平台主要由5个部分构成:应用展示层/系统管理/监控部分、数据源、机器各层功能如下。a)应用展示层。提供综合展现、系统首页、检出号码列表、失信号码溯源、信息查询等展示全网涉诈电话的状态,通过一键处置对涉诈电话进行关停,提高处置效率。b)数据源。通过各类接口技术,如FTP、SFTP、XML、API、JDBC等进行各类数据的收集。c)机器建模层。通过特征筛选技术、机器学习技术对模型进行训练,对训练后的模型效果进行评估,评估通过的模型正式上线运行,后续通过自动+人工的方式不断对模型进行迭代升级来反诈新的诈骗场景。d)数据接入层。对收集的数据进行规范化处理后压缩入库,通过大数据技术对入库数据进行抽取、建模准备数据环境。e)接口。通过运营商现有平台实现短信接口、关停监控接口、集团接口等功能对接,实现多环节功能自动完成。2.2反诈业务流程大数据采集数据源包括移动网Mc接口XDR话单和信令话单(O域话单)以及计费话单(B域话单)。为了确保分析数据的准确性,需要对数据进行加工处理,包括数据清洗、数据转换、数据关联,不规则应用展示应用展示数据源机器建模层数据接入层接口用户视图12321数据机器学习建模反诈态势感知平台数据处理大数据平台关停监控接口集团接口数据压缩数据入库自定义规则集团公安数据…数据采集模型分析模型优化多域汇聚短信接口数据存储(HDFS)…图1整体架构图602022/09/DTPT设计基于大数据+AI机器学习的反诈模型研究设计人工智能安全AISecurity数据需要进行数据补齐,满足数据的完整性和一致性。通过数据预处理组件可实现按照一定的规则,对已采集的数据进行清洗,对无用的数据进行过滤。将不合理或不满足数据结构要求的数据,进行字段取构要求。大数据处理层主要是对接大数据全域数据汇聚处理与数据存储等功能。2.2.3诈骗电话数据处理流程诈骗电话数据包括诈骗电话、鹰眼数据、省分数据和IQ指标,从数据采集开始,将数据送到反欺诈引,最后送到Portal分布2.3算法及流程介绍国际国内诈骗事件分析算法主要采用适用性优良、精确度高、理论基础佳、学术成果前沿的机器学习算法对通信行为模式进行挖掘和准确识别,如逻辑回归、随机森林、支持向量机、朴素贝叶斯、梯度提升决策树等。本文为了解决诈骗场景多变、举报样本不纯、数据不均衡、数据表现不一致等治理难点,使用了上述机器学习算法的组合算法,引入公安涉案数据、用户举报数据增加正样本数量。同时使用LightGBM框架,训练决策树时使用直方图算法,采用leaf-wise生长策略,每次从当前所有叶子中找到分裂增益最大(一般也是数据量最大)的一个叶子,然后分裂,如此循环,但此过程会生长出比较深的决策树,产生过拟合。因此LightGBM在leaf-wise之上增加了一个最大深度的限制,在保证高效率的同时防止过拟合。从直方图获得分裂收益,选取最佳分裂特征、分裂阈值,根据最佳分裂特征、分裂阈值将样本切分。通过直方图做差,继续选取最佳分裂叶子、分裂特征、分裂阈值,切分样本,直到达到叶子数目限制或者所有叶子不能分割。本文选择LightGBM是因为它支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更高的准确率、支持分布式、可以快速处理海量数据等优点。关于梯度提升树算法的流程如下。c数据采集数据采集反欺诈引擎分布式解析引擎存储Portal分布式应用前端服务诈骗数据指标同步大数据服务诈骗电话数据总部鹰眼数据解析省分数据解析语音详单总部模型检出数据省分模型检出数据IQ指标解析全量IQ数据库IQ指标MySQL数据库反欺诈解析反欺诈引擎语音详单数据字段注册中心系统管理关图2诈骗电话数据处理流程图2/0961AISecurity基于大数据+AI机器学习的反诈模型研究b)对迭代轮数t=1,2,⋯T,进行以下操作。 归树,得到第t颗回归树,其对应的叶子节点区域为Rtj,j=1,2,⋯J。其中J是回归树t的叶子节点个数。 (c)对叶子节点区域j=1,2,⋯J,计算最佳拟合值cc (d)更新强学习器。c)得到强学习器表达式。2.4模型效果及创新点件,结合现阶段诈骗涉案特征集,开展生产环境实践。正样本:根据公安提供的警情涉案数据和用户举报数据,提取本场景的诈骗号码,选取其被报案日的历史前7天及当天数据,将经初筛剩余的号码作为初样本过少,样本不均衡,采取过采样,将正样本复制为3数据,通过初筛的号码查询网络标签,将去除诈骗标签剩余的样本作为负样本,经过初筛及过滤标签,最终负样5805个。将数据分为训练集和测试集,进行5折的交叉验证,最终的混淆矩阵如下。a)5折训练集混淆矩阵展示。如表1所示,其准b)测试集混淆矩阵展示。如表2所示,其AUC为表15折训练集混淆矩阵展示字段名预测骗子预测正常用户实际骗子6实际正常用户4表2测试集混淆矩阵展示字段名预测骗子预测正常用户实际骗子0实际正常用户1测试集上ROC曲线及AUC值如图3所示。TPRTPRAUC=0.99990.20.00.4F0.20.00.4FPR0.8图3测试集上ROC曲线及AUC值模型创新点有2个,一是在正样本较少的情况下,正负样本极度不均衡,通过初筛对负样本进行随机欠采样(ROS),很好地解决了样本不均衡带来的问题;二是对模型的精准度要求很高的同时,对覆盖也有高要求,放宽了初筛的条件,让更多的数据能进入模型,迭代特征集合选取现阶段最优的特征集合。3系统功能介绍3.1外部接口功能系统已具备标准的B域基础数据接口,并采用SFTP进行加密传输,保证了数据的机密性。系统与集团鹰眼数据接口采用API接口方式,获取鹰眼系统的I他系统直接操作数据库,降低系统数据库由于误操作带来的风险。3.2自定义规则及监控功能系统从用户信息、状态信息、通话信息、漫游信欺诈工作人员可根据经验,灵活配置使用自定义的监控规则,预测新的不良号码。同时,还可新增支持更多指标阈值设置,支持指标的与或非逻辑、概率函数运算等。业务实现处理流程见图4,具体说明如下。622022/09/DTPT基于大数据+AI机器学习的反诈模型研究人工智能安全AISecurity自定义规则与监控数据源B域话单指标 (24项)B域话单指标 (24项)Q (32项)平台指标 (4项)OO域信令指标 (12项)数据接收与提取指标数据提取(多服务器并行处理)平台提取指标存储与存取自定义规则任自定义规则任务调度指标数据大数据存储中心规则展示自定自定义规则不良号码拦截处置匹配指标结果结不良号码拦截处置匹配指标结果结束生产系统关停监控规则图4业务实现流程a)指标展示。展示相关的指标项,设置指标的范围以及监控周期。b)规则的校验和添加。规则添加时,使用昨日指标数据校验当前规则设置是否合适,合适则添加,不合适直接返回提示信息。c)规则任务的拆分。将添加的规则,拆分成可以执行的任务。d)规则匹配与结果数据的存储。从数据存储中心获取匹配的指标数据,并将结果数据存储至本地数据库。e)关停。关停不良号码。4数据输出及结果验证4.1数据输出根据上述规则输出模型数据,包括GOIP、漫游通用模型、仿冒公检法、仿冒领导熟人等每月输出检出表3月数据输出时间GOIP漫游通用模型仿冒公检法仿冒领导熟人总数2022年1月59177197582022年2月42126424532022年3月806972022年4月871754.2核验方法针对2022年3月份业务部门反馈的模型结果进行核验还不足以验证系统模型检出异常号码的准确性,所以本文引入集团鹰眼诈骗模型分布情况与平台检出结果进行对比,如表4所示。命中率最高的模型规则为仿冒领导熟人,其命中率达到100%,命中率最低的模型规则为基于lac的GOIP模型(B域)的模型规则,其命中率为4%。表4数据检出验证诈骗模型规则检出量命中数命中率/%仿冒公检法诈骗922932漫游通用模型6042于lac的GOIP模型(B域)788354仿冒领导熟人5模型部署及应用本文提出的基于大数据+AI机器学习模式创新建立的反诈模型已应用于黑龙江反诈态势感知大数据平台。运营商反诈人员通过反诈监控获取整体反诈情况,如图5所示,该平台可以直观的呈现各类月度趋势及当日走势,实现反诈集中运营与监控。6结束语面对当前不断翻新的诈骗手段,变化多端的通信欺诈行为,运营商的管控任务艰巨。本文通过反诈态势感知大数据平台,针对常见的诈骗话务行为进行分析,借助反欺诈业务模型及机器学习模型的迭代调邮电设计技术/2022/0963丆丆丆丆丆丆丆丆丆丆丆丆作者简介:丆丆丆丆丆丆丆丆丆丆丆丆作者简介:AISecurity基于大数据+AI机器学习的反诈模型研究黑黑龙江反诈态势感知大数据平台图5黑龙江反诈态势感知大数据平台优,建立针对诈骗电话的事前风险预防、事中风险阻断、事后风险处理的全流程闭环反诈管控体系,降低了诈骗号码误判率,有效减少反诈人员工作量,提高劳动生产率,在实际应用中取得了良好的效果。此外,在反欺诈防控过程中,因为算法精度可能存在部分用户号码偏差。因此,未来可在以下2个方面进一步提高反欺诈模型的精度:一是不断迭代新模型+社会工程学来适应各种欺诈场景;二是尝试通过贝叶参考文献: [1]张一乾.电信反欺诈相关技术研究[D].北京:北京邮电大学,2014. J.信息通信技术,2015,9(6):50-56,72. [3]韩利强.垃圾短信与骚扰电话拦截技术[J].通讯世界,2017(1):66-67. [4]姚伟.业务系统异常行为检测[J].邮电设计技术,2016(1):70-73. [5]石强.反欺诈中的用户手机号数据研究[J].智能计算机与应用, [6]孙世奇,张治邦,宋丹.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 42151.3-2024电力自动化通信网络和系统第3部分:通用要求
- GB/T 44753-2024超薄玻璃液相线温度试验方法
- 《医学统计学》课程教学大纲
- 《公共组织学》课程教学大纲
- 2024年伐木工地转让合同范本
- 2024年代销代付协议书模板范本
- 2024年传化物流商铺合同范本
- 卓有成效管理者培训
- ITIF报告:认真对待美国和欧洲的竞争
- 四只骨折护理常规
- 停电应急预案演练脚本(10篇)
- GB/T 20981-2007面包
- GB 18668-2002海洋沉积物质量
- 地理高三一轮复习试卷讲评公开课课件
- 光伏发电工程施工组织设计
- 古代汉语宾语前置课件
- 二年级上册美术课件-6.下雨了 |人美版 (共16张PPT)
- 大一法理学的复习资料总结和考试重点
- 结业证书word模板
- 词性(名词、动词、形容词)课件
- 肝脏超声检查(肝脏)课件
评论
0/150
提交评论