2024金融风控反欺诈图行算法_第1页
2024金融风控反欺诈图行算法_第2页
2024金融风控反欺诈图行算法_第3页
2024金融风控反欺诈图行算法_第4页
2024金融风控反欺诈图行算法_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融风控反欺诈图算法先介绍下金融借贷业务流程:用户前来申请借贷,会先经过欺诈识别,把欺诈团伙和主观欺诈的个人拒绝掉,然后对通过的人做信用评估,最后根据额度模型,算出利润最大化时放款金额。刚才提到了团队欺诈,举个真实的例子。宜人贷在他们的财报中公布的,他们被20004w8000w那么如何防范这种风险呢。这就是今天要分享的图算法。图可以将这些一个个有良好记录的个体关联起来,一网打尽。再举一些团伙欺诈的行为。比如一个团伙,注册真实的淘宝商家,然后刷出良好的淘宝购物记录。或者来回转账,刷出良好的银行流水。刚才前两位老师都没有提到额度模型,简单介绍下,如果只给用户放款5000,可能坏账风险很小,但是利息也少,如果放款10000,利息虽然收到利息多了,但是坏账风险高岭,所以需要做个权衡Graph简介G=(V,E)G=(V,E)V:vertexsetE:edgeset有向,无向,有权重和没有权重)举例,两个人之间的联系,A给B买了东西,A和B之间的通话次数时长多于A和C之间。度中心性(DegreeCentrality)-表示连接到某节点的边数。在有向图中,2接近中心性(ClosenessCentrality)-从某节点到所有其他节点的最短路径的平均长度。反映在网络中某一节点与其他节点之间的接近程度。介中心性(BetweennessCentrality)-某节点在多少对节点的最短路径上。社团发现算法一般有:最小割,正则化割:通过计算图的最小割,即将网络划分为预定的分组数,并使连接各分组的边的条数最少。非负矩阵分解:基本原理是将原始矩阵分解得到社区指示矩阵和基矩阵基于模块度的社区划分基于节点相似性的社区划分最小割算法广泛应用在分布式计算的负载均衡中,对集群节点的分组有利于减少不相关节点之间的通信。然而由于该算法限定了网络最终分组的个数,而不能通过算法“发现”节点间的内在联系并自然地构成若干个社区,因此最小割算法应用较为局限。本文主要分享这两类的主要算法,基于模块度的louvain和基于信息熵infomap,基于相似度的node2vec模块度(Modularity)公式及简化优化目标:一般认为社团内部的点之间的连接相对稠密,而不同社团的点之间的连接相对稀疏。所以模块度也可以理解是社区内部边的权重减去所有与社区节点相连的边的权重和,对无向图更好理解,即社区内部边的度数(内部的连线数)减去社区内节点的总度数。模块度公式的解释节点i和节点j之间边的权重,网络不是带权图时,所有边的权重可以看做是1;表示所有与节点i相连的边的权重之和(度数);表示节点i所属的社区;表示所有边的权重之和(边的数目)。其中 表示社区c内的边的权重之和, 表示与社区c内的节点相的边的权重之和,即社区c节点的度之和(包含与其他社区相连边的度)。从概率的角度去看:表示实际情况下,c社区内产生边的概率。表示在一种理想情况下,给定任意节点i的的度ki,对节点i和节点j进行随机连边,边属于社区c的概率期望。于是上式就表示了社区内连边数与随机期望的一个差值。连边数比随机期望值越高,表明社区划分的越好。一般使用后面简化的公式,简化后的公式删除了判断两个节点是否划为同一个社区的函数,所以在一定程度上大大减少了Q值计算量。LouvainLouvain算法的思想很简单:将图中的每个节点看成一个独立的社区,此时社区的数目与节点个数相同;i配前与分配后的模块度变化,并记录最大的那个邻居节点,如果,则把节点i分配最大的那个邻居节点所在的社区,否则保持不变;2,直到所有节点的所属社区不再变化;对图进行压缩,将所有在同一个社区的节点压缩成一个新节点,社区内节点之间的边的权重转化为新节点的环的权重,社区间的边权重转化为新节2,3;2~4,直到整个图的模块度不再发生变化。第一阶段称为ModularityOptimization,主要是将每个节点划分到与其邻接的节点所在的社区中,以使得模块度的值不断变大;第二阶段称为CommunityAggregation,主要是将第一步划分出来的社区聚合成为一个点,即根据上一步生成的社区结构重新构造网络。重复以上的过程,直到网络中的结构不再改变为止。移动是社区c内节点与节点i的边权重之和,再乘以2前面部分表示把节点i加入到社区c后的模块度,后一部分是节点i作为一个独立社区和社区c的模块度Louvain社区发现算法\h/fengfenggirl/p/louvain.html\hSparkGraphX分布式图计算实战infomap从信息论的角度出发,假设一个randomworker在图上进行随机游走,那么怎么用最少的编码长度来表示其路径呢?如果节点存在社区结构,那么社区内的节点就可以共享社区的bit位码,可以得到更小的平均比特,所以社区划分的越好,那么表示任意一条随机游走的路径所需的平均比特就越小。如果我们能够计算出每个节点的到达概率,就可以依据信息熵的公式来量化平均比特了:怎么计算每个点的到达概率呢?一个暴力的办法是在图上进行长时间的随机游走,最后统计每个节点的出现概率。太暴力了。利用pagerank思路,初始化了每个节点的到达概率之后,就可以不断地迭代更新每个节点的到达概率,这个结果会很快趋于收敛。其实这过程就是一个马尔科夫随机过程,随机初始化起始值,然后随机游走就相当于不停地用概率转移矩阵相乘,最后就可以达到马尔科夫稳态。把随机游走事件归为三类:进入某个社团,离开某个社团,再社团内部游走。定义清楚各类事件的发生概率,依据信息熵公式,就可以得到此时编码所需的平均比特了,其本质就是从信息论的角度出发。Infomap算法的迭代过程初始化,对每个节点都视作独立的社区;while平均比特的值不再下降;参考链接Themapequation\h/apps/MapDemo.html\h/s/qUxMesQA-edSyHeudQRRGADEEPGRAPHINFOMAX阅读笔记/p/58682802GraphembeddingsDeepwalk使用随机游走(RandomWalk)的方式在图中进行节点采样获得节点共关系,skip-gram1中生成的节点序列学习每个节点的向量表示。skip-gram就是根据给定输入的节点,预测上下文节点。Deepwalk有多不足,比如泛化能力,有新节点加入时,它必须重新训练模型以表示该节点。其中一个就是采样,从其邻居中随机采样节点作为下一个访问节点,是一种可重复访问已访问节点的深度优先遍历算法。node2vec是一种综合考虑DFS邻域和BFS邻域的graphembedding方法node2vec优化目标:条件独立假设:特征空间的对称性:优化目标:计算量非常大,所以论文采用负采样(negativesample)进行近似计算。这个node2vec优化目标函数,因为它跟大名鼎鼎的word2vec是一样。我们最初是用一个Python写的包,跑一遍算法需要一周。后来想,既然优化目标是一样的,那能不能用word2vec包,因为word2vec用c写的,而且还采用了HierarchicalSoftmax,negativesampling加速。然后在网上找到了一个套用word2vec实现的node2vec包,速度快很多。随机游走的方式复杂网络处理的任务其实离不开两种特性,前面也提到过:一种是同质性,就是之前所说的社区。一种就是结构相似性,值得注意的是,结构相似的两个点未必相连,可以是相距很远的两个节点。能不能改进DeepWalk中随机游走的方式,使它综合DFS和BFS的特性呢?所以本文引入了两个参数用来控制随机游走产生的方式。Z是分子的归一化常数如果已经采样了(t,v),也就是说现在停留在节点v上,那么下一个要采样的节点x是哪个?作者定义了一个概率分布,也就是一个节点到它的不同邻居的转移概率:直观的解释一下这个分布:如果t与x相等,那么采样x的概率为;txx1;txxp、q的意义分别如下:返回概率p:DataFunTalk成就百万数据科学家!如果pmaq,)t。如果p<q,),那么采样会更倾向于返回上一个节点,这样就会一直在起始点周围某些节点来回转来转去。出入参数q:如果q>1,那么游走会倾向于在起始点周围的节点之间跑,可以反映出一BFS特性。如果q1DS特性。p,q1DeWak简而言之:参数p控制重复访问刚刚访问过的顶点的概率,q控制着游走是向外还是向内,若q>1,随机游走倾向于访问和t接近的顶点(BFS)q<1t的顶点(DFS)。缺点慢embedding再聚类,感觉这两个过程很割裂!!融合一下comEGraphembedding得到向量后,可以做很多事情,在我们这个主题可以简单的通过聚类来讲节点分组。但是这个过程比较割裂,先优化node2vec,然后再优化聚类。能不能整体上一次性优化完呢。comE这个算法优化目标中加入了社区的检测和嵌入。通过一个混合高斯模型将节点划分开。优化目标中前面两项跟LINE定义的相似度相似:/u012151283/article/details/87013915LearningCommunityEmbeddingwithCommunityDetectionandNodeEmbeddingonGraphs/p/36924789Lea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论