


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
异质信息网络中离群点检测方法研究异质信息网络是无处不在的。挖掘隐藏在异质网络中偏离正常数据对象的离群点是数据挖掘领域的重要任务之一。离群点检测在入侵检测、欺诈检测、预测恐怖袭击、预测可疑事件和数据去噪等领域都有着广泛的应用。研究表明,挖掘偏离正常对象的离群点比挖掘周期性出现的数据更能给用户带来有价值的信息。本文从静态网络离群点检测、动态网络离群点检测和挖掘离群点对等方面对离群点检测技术进行深入研究,具体研究工作如下:1)针对静态异质信息网络提出了一种基于元路径的离群点检测方法。该方法通过分析网络结构中的链接关系得到源对象与目标对象特征间的相关程度,进而计算对象间的语义相似度。结合元路径及对象间的相关程度度量不同类型对象之间的可达概率,最后通过可达概率和路径长度计算任意两个节点间的离群程度。另外,每个节点都被赋予了一个可信度权值来提高准确率。我们在真实数据集和模拟数据集上对该算法进行测试,实验结果表明,该方法在结合节点语义信息的前提下,能够有效地识别静态网络中的离群点;2)聚类作为数据挖掘领域最重要的信息获取方法之一,在异质网络离群点检测中也有广泛的应用。大多数传统的聚类方法在插入新数据的过程中需要重新计算整个数据集而不是增量更新一部分数据。针对上述不足,本文提出了一种自底向上的增量聚类方法并将其用于异质网络的动态离群点检测过程中。进行聚类前,每个节点都作为单独的聚簇。此外,定义了一个新的度量标准CV(comparisonvariation),来迭代判断距离最近的两个聚簇是否能进行合并或当聚簇发生变化时已有聚簇是否能被分裂,并通过调节参数λ来动态控制聚类的严格程度。该度量标准不需要提前确定聚类个数,可以根据不同的数据集大小和数据质量动态确定最适合的聚类个数。实验结果表明,该聚类方法可以有效地进行聚类并且增量地更新数据;3)针对动态异质信息网络提出了一种基于张量表示的离群点检测方法。该方法根据张量表示的高阶数据构建张量索引树。通过搜索张量索引树,将特征加入到直接项集和间接项集中。根据基于短文本相关性的聚类方法判断数据集中的数据对象是否偏离其原本所在聚簇来动态检测网络中的离群点。该模型能够在充分降低时间和空间复杂度的情况下保留异质网络中的语义信息。实验结果表明,该方法能够快速有效地进行动态网络环境下的离群点检测;4)为了深入研究并分析异质网络中链接结构相似度与语义关系相似度间的差异带来的影响,本文还提出了一种基于链接结构与语义关系的差异性来检测离群点对(outlierpair)的方法。首先,构造目标对象间的链接结构相似度与语义关系相似度的邻接矩阵,分别通过分析链接结构和语义关系来得到对象间的相似程度。分析对象在结构上的关联关系,得到目标对象的链接结构相似度。提出k-步索引方法来得到目标对象的特征表示,从语义关系的角度计算目标对象的相似度。最后,利用矩阵的线性变换得到任意目标对象对在链接结构和语义关系上的差异,较高差异值对应的对象对被视为离群点对。实验结果表明,该方法可以有效地识别异质网络中存在的离群点对;5)为了能够增量检测离群点对,本文还提出了一种基于元组的增量离群点对检测方法。利用三元组的形式来表示异质网络中的数据,存储了目标对象以及对象间的链接权值,通过合并及镜像过程得到对象间的结构相似度。定义了前驱节点、后继节点以及覆盖率的概念,在减少参数个数的同时可以高效计算基于内容的相似度。结合基于结构相似度与基于内容相似度来计算离群分数。最后,说明了如何通过对三元组进行插入和删除操作来更新对象对的结构相似度以及内容相似度,进而更新对象对间的离群分数。增量更新离群分数可以有效降低时间及空间复杂度。实验结果表明,用元组形式表示异质网络中的数据可以动态更新离群分数,很大程度上提高了效率。本文对离群点检测的研究主要包含两个方面,首先,是对于单个离群点检测的研究;其次,是对于离群点对检测的研究。对于这两方面的工作,本文分别提出了两种检测方法:1)对于单个离群点检测,分别在静态网络、动态网络的环境下通过基于元路径和基于张量表示的方法对异质网络中的离群点检测进行深入研究;2)对于离群点对检测,分别提出了基于链接结构和语义关系的离群点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 液压与液力技术在健身器材中的应用考核试卷
- 社交心理学在决策制定中的应用考核试卷
- 电池充放电特性与循环寿命考核试卷
- 纺织原料与绢纺质量控制考核试卷
- 渔业机械人机工程学应用考核试卷
- 纤维素纤维在鞋类产品抗滑性与耐磨性改进考核试卷
- 矿山机械故障案例分析与预防考核试卷
- 天津艺术职业学院《细胞与组织工程》2023-2024学年第二学期期末试卷
- 山东省泰安市第一中学2025年高中毕业班第二次统测物理试题含解析
- 山东省枣庄树人中学2024-2025学年初三化学试题5月模拟试题含解析
- 基于全生命周期的绿色建筑成本影响因素研究
- 2025年普法知识竞赛题库及答案(共80题)
- 碎石外包合同协议
- 心力衰竭护理查房 课件
- 【课时练基础作业】人教版四年级数学下册第四单元《期中计算能力测试》(含答案)
- 2025年第三届天扬杯建筑业财税知识竞赛题库附答案(1001-1536题)
- 2025科技辅导员培训
- 树木修剪合同协议
- 新疆维吾尔自治区2024年普通高校招生普通类国家及地方专项、南疆单列、对口援疆计划 本科一批次投档情况 (理工)
- 智研咨询发布:2025年纸浆模塑餐饮具行业市场规模及主要企业市占率分析报告
- 2025年CCAA《管理体系认证基础》考前必练题库500题(含真题、重点题)
评论
0/150
提交评论