《基于网络敏感信息敏感词违法犯罪线索研究》9500字(论文)_第1页
《基于网络敏感信息敏感词违法犯罪线索研究》9500字(论文)_第2页
《基于网络敏感信息敏感词违法犯罪线索研究》9500字(论文)_第3页
《基于网络敏感信息敏感词违法犯罪线索研究》9500字(论文)_第4页
《基于网络敏感信息敏感词违法犯罪线索研究》9500字(论文)_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于网络敏感信息敏感词违法犯罪线索研究摘要随着21世纪信息技术的不断研究和发展,促使着互联网科技在不断的强大和扩展,以及网络上的信息量也在迅速增加,并且相应信息的内容也变的多元化。各类社交网络平台新闻网站、微博、社交网络等,已成为公众了解现实社会的主要信息来源。因此,公安部门需要一种方式来获取众多网络平台的核心内容。话题检测技术可以帮助人们从海量的网络数据中发现有价值的线索。与以往的网络传播方式不同,专题参考文献分布在不同的网络平台上。一方面,在目前的情况下,各个平台的线索特征是不同的。因此,传统的主题识别方法只能依赖于信息文本的特征,不能完全应用于各个网络平台。另一方面,专题是描述不同层次主题内容的报告。因此,本研究成为一个热门话题,执法机关如何协助刑事犯罪的分类及相关犯罪信息的来源报告。基于敏感词的语义和时间特征。首先,将语义特征与时间特征相结合,提出了一种计算敏感词元素权重的方法。在此基础上,提出了一种基于多矢量文本模型的子主题检测模型。该方法在捕获单个主题的过程中优于其他算法,能有效提高证据的准确性。从子主题识别的角度,研究了捕获混合主题的子主题过程。关键词:跨网络平台;话题检测;特征选择;词性目录TOC\o"1-3"\h\u32738摘要 绪论1.1课题研究的背景和意义1.1.1选题背景随着互联网发展规模的不断扩大,数据的更新速度和信息量的增长速度不断提高。作为互联网上各种信息的载体,新闻网站、微博等各种网络平台层出不穷。社交网络和视频分享网站导致人们对现实世界的认知不断变化,就在Web2.0时代到来之际,互联网已经成为社会各个领域获取信息、发布信息、评论信息、传播信息的重要渠道,而现实世界中的公共事件和热点话题也在互联网上迅速传播。面对如此庞大的网络信息,公安人员需要一种方式,网络话题能够描述网络平台与现实社会之间的互动信息,帮助执法部门了解当前各类社会动态。1.1.2选题意义网络平台上的数据是最新的,每个平台上的报告内容会随着时间的推移而变化。对某一特定主题的报道总是侧重于描述事件的最新动向,使主题呈现动态发展的现象。是研究主题动态发展的基础。分主题侦破的任务是:在现有的主题中发现隐藏的分主题,协助公安人员厘清违法犯罪信息。然而,目前的检测研究存在两个不足。一方面,现有的研究主要集中在单一的网络平台上,而对网络平台的研究却很少提及;然而,现有的研究并没有充分考虑到不同平台文本特征的特点,仅仅依靠改进的算法来提高主题识别的准确率,针对上述问题,本文拟直面新闻和微生物学两大网络平台,充分分析不同语言特征对犯罪信息侦查的影响,分析了词特征随时间变化的特点,提出了一种基于多向量文本模型的子主题检测方法,并结合LP的聚类算法提高了子主题化的准确率。1.2国内外研究现状美国国防部提出一项要求,要求实现一种能够自动识别新闻中隐藏话题的技术。然后由不同的研究机构共同确定TDT的相关研究任务,这些评估任务称为TDT试点。话题检测是TDT评价任务的一个子任务,其主流方法来自Allan等人,研究人员建立了一个在线识别系统来验证报道流中是否有新的话题。2000年以后,国外研究机构也参与了TDT专题发现和评价任务。鉴于资金问题,2004年以后的TDT评价可能没有继续进行,但对TDT的研究还没有结束。loulwah等人提出了一种基于LDA模型的新闻数据在线主题检测方法,并取得了良好的实验结果。同时,Wartena等人提出了一种基于关键词聚类的主题检测算法。2014年,薛等对不同媒体平台的主题识别进行了研究,研究对象不再是传统的新闻媒体平台,国内对TDT的研究起步较晚,而早期的研究来自贾紫妍等人,提出了一种结合中文自然语言处理技术的动态演示模型,实现中文新闻流的主题识别。Twitter是国外成熟的网络平台。其传播手段和内容结构与中文微博相似,因此可以算是英文微博。Sakaki等人通过实时分析Twitter用户的更新状态来进行地震预报,提取相关事件的属性,并使用分类算法对所有监测到的用户状态进行分类。将每个用户视为一个传感器信息源,通过滤波方法找到可能的震源。然而,本研究只能关注特定事件,不能完成主题识别的任务,即在主题内容未知的情况下不能自动删除主题信息。1.3研究内容本文通过三个实验考察了一个词性对两种网络平台的主题识别的影响。微博客和新闻的汉语词汇是否一致,选取语言标记的单个部分作为文本特征,考察不同语言部分对两个网络平台主题识别的影响。最后,根据前面实验的分析结果,选取语言组合中的部分作为特征和语言组合中的最佳部分,实验表明不同的语言特征在两个平台上有不同的主题识别方式。本文对新闻微博平台的子主题检测进行了研究,根据特征的语义和时间特性,设计了一种多向量文本模型的子主题检测方法。实验表明,该方法在检测的情况下优于现有的检测方法。2相关研究理论基础介绍2.1跨网络平台话题检测的定义与过程在主题识别过程中,演示模型的设计必须保证每个主题都是预先未知的,即模型不能独立于某个特定的主题,一个主题由多个报告组成。只要报告与种子事件的问题直接相关,就假定报告与主题相关,如图2-1所示,首先是确定当前网络报告的主题,而本报告的目的是:识别现有网络报表数据库中隐藏的主题。图2-1话题检测流程2.2文本预处理方法在主题识别过程中,首先应当对文本内容进行预处理,通过建立文本的形式进一步表示模型。TDT任务要求主题识别过程必须独立于文本的语言,但不同的语言有不同的预处理方法。国内的话题识别研究才刚刚起步,早期的研究大多是以英语语料库和少量其他语言语料库为标准数据集,但中文文本的数据处理过程不同于其他语言,导致一些证据算法在中文语料库上的评价结果不理想。分词是中文文本预处理过程中最重要的一步,也是文本特征选择的基础。分词的准确性直接影响到主题识别的最终结果。目前常用的分词方法有几种1)常规方法基于规则的方法是指系统字符串适应特定监管策略的方法。这条规则通常指的是一本完整的词典。系统将单词处理过程中的单词元素与词典中的单词相匹配。如果匹配成功,单词元素将被视为文本的特征元素。2)统计程序基于统计的方法是指系统计算文本中相邻单词同时出现的概率,并考虑获得由两个或多个单词组成的附加单词的最佳概率。因为两个或更多的单词同时出现的频率越高,它们就越有可能形成单词。如果概率值大于阈值,则可以将这两个词组合为一个附加词。3)以理解为导向的方法该系统利用语义信息对文本中的单词进行评价。这种方法是基于多种自然语言技能的,因此又称为基于知识的方法。该方法以词典和知识库为分词基础,以推理机为分词评价工具。期望分词结果尽可能与原意保持一致。2.3文本表示模型文本表示模型的主要方向是计算属于同一主题的两个报表的相似度。主题检测的面向对象研究对象是文本数据,也是这个原因需要基于文本表示模型设计主题检测模型,下面详细介绍一些常见的模型:布尔模型BooleanModel,中文:布尔模型是一种相对简单的主题发现模型。该模型以布尔代数和集合论为基础,整体框架直观十分便于理解,也是这个原因经常被使用于早期的主题检测以及搜索引擎系统之中。在布尔模型中,如果两个文档之间同时出现更多的特征,则两个报表的相似度会更高。该方法虽然相对简单,但在计算共现特征时会丢失大量的文本信息。它只适用于少数特征项的情况,很容易造成只有部分特征项使用同一个词来描述属于同一主题的不同主题的两篇报道。因此,不适合使用表示模型作为独立的方法来计算两个报表之间的相似度。布尔模型是早期提出的一种相对简单的主题发现模型。该模型以布尔代数和集合论为基础,框架直观易懂,因此在早期的搜索引擎系统和主题检测中经常使用。在布尔模型中,两个文档之间同时出现的特征越多,两个报表之间的相似性就越高。该方法虽然简单,但在计算共现特征项时会丢失大量的文本信息。它只适用于特征项个数较少的情况,很容易造成只有部分条目用同一个词来描述属于同一主题的两篇不同主题的报道。因此,不适合将表示模型作为独立的方法来计算两个报表之间的相似度。2)向量空间模型Salton等人提出向量空间模型(VSM),首次应用于智能信息检索系统。在介绍向量空间模型之前,为了便于解释,我们首先介绍以下基本概念特征项:由字、词或者词组等构成的模型最小语言单元。一篇报道S由多个特征项组成,可以表示为S(t1,t2,…,tn),其中ti代表特征项。项的权重:表示特征项在文档中重要程度的数值。每一个特征项ti都会以某种规则设定权重值wi,一篇报道S可以用S(t1,w1;t2,w2;…,tn,wn)表示。每一篇文档按照上述的概念表示后可以看作n维空间中的一个向量,因此被称作向量空间模型。设报道S1和S2分别表示为空间模型的两个n维向量:S1=S1(w11,w12,…,w1n) (2-5)S2=S2(w21,w22,….,w2n) (2-6)设这两篇报道的相似度为Sim(S1,S2),可以借助空间中两个向量间的距离公式来计算相似系数,常见的方法有向量内积法与余弦定理法。3)文档主题生成模型文档主题处于话题检测之中,会被设计成三层贝叶斯概率模型,生成LDA(全称:LatentDirichletAllocation),同时涵盖报道、话题词和特征的三层结构,在这之中从报道递进至话题比较于话题递进至词特征全都需要遵从多项式分布。这种设计模型不对文本中的语法结构以及语序成分进行考虑,而是将主题空间和文本之间的映射关系实现至话题识别的程度。对于报道库中的每篇报道,这种模型可以将每一篇处于报道库之中的报道规范成为以下的过程:1.首先在报道集文档中随机抽取的一篇文档,在主题分布的空间之中随机获取一个主题;2.进一步将被随机抽到的主题中包含的词特征分布之中随机获取一个词语;3.最后重复以上的两个步骤直到报道集中的每一个词特征都被遍历到。整体模型的创建过程,如下图2-1所示:图2-1LDA模型

3敏感词的违法犯罪线索发现方法研究特征选择是在整个文本挖掘技术里的一个十分关键研究领域。文本挖掘的结果可能被不同的特征选择方法直接影响到。新闻报道以及新浪微博是当今社会流行的在线平台。在其服务平台上发布的文本内容具有很大的科研价值。它是每个人快速了解社会焦点的关键信息内容的来源,因此讨论了该主题。大多数研究日常任务的研究主题都针对两个在线平台,即新闻报道和新浪微博。主题讨论测试是文本挖掘日常任务的一种表达方式,必须选择讨论不同主题的能力的特征作为主题讨论测试的基础。众所周知,不同在线平台上的文本内容通常具有不同的特征。传统的数据预处理方法无法满足所有服务平台上话题讨论和挖掘的日常任务,因此考虑不同服务平台特征和讨论话题的能力是科学研究讨论和测试话题的关键问题。跨在线平台。本章重点关注词性特征部分对讨论两个在线平台主题的危害,回顾词性特征各个部分区分主题讨论的能力,并找到适合于这两个服务平台的最好的词性构成部分。3.1文本特征对跨网络平台话题检测的影响介绍3.1.1新闻和微博网络平台的报道特点在线媒体和微博网站上的报道内容是每个人的认知能力受到社会关注的关键来源。不同服务平台上的报告内容具有不同的特征。如表3-1所示。从长度的角度来看,新浪微博限制为140个字符,但新闻报道没有此限制。从词序的角度来看,新浪微博的语序不同于一般的语序,而新闻报道的语序是有序的;从叙事方法来看,微博大多是网民的主观描述,而新闻则是专业记者撰写的客观报道。此外,新闻内容中包含标题,微博中还会包含一些特殊符号、URL链接、表情符号等新闻语料库中很少出现的字符。新闻微博网络平台文本内容的特点有助于区分两个平台的报道,了解报道的来源。但由于话题线索分布广泛,同一话题的报道分散在不同平台,不同平台内容特征的差异会增加跨平台检测的难度。因此,我们需要在不同的网络平台上找到文本的一个共同特征,而这个特征对话题的区分能力不受网络平台来源的影响。该特征被选择为新闻和微博网络平台的主题检测特征,为跨网络平台的主题检测奠定了基础。表3-1新闻和微博网络平台的报道特点总结文本特点微博新闻字数限定140字以内无字数限制标题无标题有标题词序较少词序排列与正常词序不同正常词序排列错别字与变异字较少很少特殊符号较多内容存在@、#等特殊符号很少URL链接较多,例如\h/zQovRXU等很少中英文交叉出现较少很少表情较少,例如[高兴][怒][汗][囧]等无描述方式较多主观描述较多客观描述3.1.2词性特征对话题检测的影响文本特征选择是文本挖掘的一个重要步骤。不同的特征会严重影响文本挖掘的结果。作为文本特征的一种常见形式,词性特征是许多研究中文本挖掘的标准特征,特别是在文本分类和文本聚类领域。主题检测作为文本挖掘的一个分支,通常采用文本挖掘技术中的特征选择方法来实现检测任务的各个步骤。在描述话题的时侯,特征词的不同词性作用会完全不相同的。例如,动词能够描述话题事件的整体或部分发展过程,形容词能够将话题中事件的发展状态以及社会性质进行刻画。名词则能够扮演话题中的地点、主要参与者等一系列事件对象,词性标注与数据处理方法3.2.1词性标注方法实验的第一步是选取词性标注集。目前,中国科学院、北京大学以及复旦大学拥有较为权威的标注集。表3-2合并后的根据数据集的规模,本文选择复旦大学汉语文本词性标注集标记新闻语料和微博语料。为了能全面地观察不同的特征词对话题检测的影响,本人将上述的词性进行了合并处理,合并后的词性如表3-2所示。3.2.2数据处理过程经过语料库预处理后,如图3-1所示,实验为这两类语料库构建了两个词性空间。在数据处理的过程之中,首先利用复旦NLP对两个数据集中的每个报表进行分段,去除文本中没有特殊符号的标点符号、表情符号和运算符号,构建两个,数据集中的报表词集。下一步,实验根据表3-2中的组合词性对报告词集中的词进行标注,形成已经将词性标注好的两个语料库。图3-1 闻微语处过程为了能准确地观察单一词性特征在两种数据集的分布情况,本文在数据预处理时并没有进行停用词处理,尽量保持了文本语料的原貌。3.3实验结果与分析3.3.1实验数据集本章从新闻和微博两个网络平台收集数据,包括搜狐、腾讯、凤凰网、新京报、21cn、新浪微博等十余个新闻网络平台。其中,主要收集“3.8马航失联”和“4.30乌鲁木齐火车站恐怖袭击”和“6.25陈光标世界首善事件”的相关报道。在对数据进行初步处理后,我们对数据集的具体信息进行了统计。由于所收集的数据完全来自于现实世界,且报表数量庞大,因此数据集可以检验本章提出的方法在实际应用中的效果。3.3.2不同词性特征在两种数据集上的分布结果与分析基于特征语义和时间特征实现了主题检测。通过动词触发话题的特点,可以找到标记话题发生的词项。分析了词项的时间突发性和连续性对话题识别的影响。采用多向量表示模型来削弱谜题效应对话题检测的影响,本文选取新闻和微博的话题数据作为研究对象,结合前一章词性特征的实验结果,在这两个平台上进行话题检测研究,实现了一种适用于跨网络平台的子主题检测方法。与已有研究相比,本文的研究有两个优点:一是考虑到主题线索分布广泛,可以克服不同网络平台上文本结构不一致的问题;二是找到主题敏感词元素并设计权重计算方法,充分考虑词特征在子主题检测中的作用,提高检测效果。首先统计两组语料的词性分布,统计结果如表3-3所示。我们统计了两组数据的字数、字数比例、每篇报告的平均字数和每篇主题的平均字数。通过对词所占比例的统计结果可以看出,在这两个数据集中,名词所占的比例最大,其次是动词特征和副词特征,其他词性特征所占的比例不到10%。如果我们比较两个数据集中每个词类的词数所占的比例,如图3-2所示,我们可以看到新闻数据集中定位词、数字和量词的词数所占的比例高于微博。这是因为新闻报道会尽可能详细地描述事件,所以上述描述事件发展过程的词语会反复出现。助词、介词和连词是新闻报道中保证句间和句内连贯的词性特征。由于微博报道的字数限制,用户往往用简洁的单句来描述自己对事件的主观看法。因此,这三种词性特征在新闻报道中所占的比例要高于微博报道。微博数据集中形容词的比例略高于新闻中的比例。这是因为微博文字的大部分内容都是用户对某一事件阐述自己的观点,所以他们经常使用形容词来表达对该事件的看法,而新闻大多是从第三方的角度客观地描述某一事件的发展过程,所以形容词的数量略少。此外,微博报道中出现了特殊的符号和网址,这是微博文本结构的结果。其他词性特征的比例没有显著差异。表3-3 两语中词性征计表新闻数据集 微博数据集词性词数比例/%每篇报道平均词数每类话题平均词数词数比例/%每条微博平均词数每类话题平均词数命名实体181254.4719168144365.073902名词13534833.3614212539410733.07225882动词7793219.21827225961820.95143726形容词90902.24108477852.742487副词4291510.5845397267259.3961670代词88982.1998260622.131379定位词112012.761210446891.651293连词41591.0343923300.821146介词152463.761614183082.922519助词203785.022118995053.342594数词260286.4227241120324.233752量词169004.171815686963.062544时间短语63951.5875969932.462437网址600.010115510.55097特殊符号2580.060235341.241221其它词性227275.6024210141834.983886符号81552.01976184126.4741151总词数405690100.004263756284530100.006717783图3-2不同词性特征在新闻与微博语料上的词数比例对比图图3-3每类话题平均词数在新闻与微博语料上的比例对比图将两个数据集进行检测,可以得出以下结论:1)动词对新闻话题发现的影响较大。这是因为新闻报道是客观描述事件过程的文献,动词是用来描述或表达各种行为的词语,是描述事件过程的关键词。从内容上看,微博是用户对事件发展过程的主观评价,对事件发展过程的描述并不多。因此,动词辨别微博话题的能力不如新闻话题。2)数字和量词对新闻话题检测的贡献略高于微博。这是因为当新闻客观地描述事件时,为了通过文字准确还原事件过程,需要大量的数字量词和形容词来描述事件的发展过程。在微博数据集上,人们往往关注一个或多个关键数据,如“高温持续7天”、“政府救助灾区1.5亿人”、“今天”日表面温度达到60℃.因此,数字和量词对微博话题检测有一定的贡献,但由于数据量小,对话题的辨别能力略弱于新闻。3)新闻报道中时间短语的话题检测值高于微博。这是因为新闻网站的编辑在撰写新闻时通常会写下具体的日期,比如“北京时间4月22日凌晨,2007年联邦杯女子网球队比赛四分之一决赛第一天结束”,注明这则新闻中描述的事件发生的时间。然而,微博用户在描述事件时喜欢使用“最近”、“今天”、“明晚”等时间短语模糊地描述日期,因此单时间短语词性词的话题检测时间价值不高。4)形容词可以表达事物的形状、性质和状态。它对微博话题检测的贡献略高于新闻,这是由于网民对事件主观描述的特点。比如,“夏天,杭州一步步走过桑拿、烧烤、蒸笼,现在进入‘抗日’模式,实在太热了!”。由此可见,微博中的形容词“热”可以帮助微博区分热点话题。同时,通过统计表中的数据可以看出,形容词也具有很好的新闻话题辨别能力。5)网址和特殊符号具有区分微博数据主题的能力。微博平台转发其他网络平台的报道,微博内容中经常出现其他网站的链接。两个链接相同的微博可以判断其内容有很强的话题联系。由于微博内容的特殊文本结构,特别括号内的内容一般是话题的一般信息,因此特别括号内的内容可以在一定程度上区分话题。符号@后的大部分内容是指定用户的姓名,表示微博中描述的内容与指定用户有关,希望被指定用户看到。如果有两个微博有相同的指定用户,则表明两个微博讨论的事件与指定用户有关,因此两个微博有可能描述相同的话题。由于新闻数据中没有类似微博的文本结构,内容中的url和特殊符号数量很少,因此不具备区分新闻主题的能力。6)命名实体和名词对两个数据集的主题检测都有很高的贡献。这是因为命名实体和名词都是话题检测领域中话题事件发展的主要对象,是区分话题能力最强的两个词。4相关研究应用前景以及进一步展望4.1相关研究应用前景敏感话题在互联网的日常中很大程度的可以反映甚至引发一段时间的社会各领域的关注焦点。从近期国际国内一些重大事件的报道和反应来看,网络在传播速度和规模、地域影响范围、媒体表现等方面都远远超过了以往的大众媒体,网络给当代社会的方方面面带来了巨大的影响。由此产生的网络内容安全问题对社会乃至国家政治都是不可估量的。为了对网络敏感词进行全面管理,发现相关犯罪的研究线索,及时准确地识别网络中的敏感信息,进行控制或预警,研究犯罪现象并予以消除势在必行。未来将朝着数字化、网络化方向发展。然而,随着网络信息的爆发,发现平台对效率和准确性的要求越来越高。系统的可靠性和稳定性越来越重要,相关技术的发展也越来越迫切。4.2展望(1)然而,全面的敏感信息分析和管理还有很长的路要走。其他相应的功能需要进一步的研究和实现。(2)信息处理过程的每一部分都对结果有很大的影响。对整个敏感信息发现过程进行改进和集成,可以达到最佳的整体处理效果,从而进一步提高系统的可用性和易用性(3)深入研究了基于语义的敏感词识别方法。目前,基于语义的Web信息发现的研究还处于理论阶段,尚未应用到实践中。基于四字哈希机制的词典还有待进一步的研究和实验。在工艺优化的同时,还应进行实验,比较其效果和性能。在实际应用中,需要考虑诸多因素,通过不断的探索和实验,达到优化效果。(4)随着网络中图像和音视频信息的增多,相关的敏感信息发现技术也是我们研究的重点之一。总结随着互联网时代的不断发展,信息分散在各种网络平台上。人们需要利用话题检测技术从大量的网络数据中发现有价值的话题线索。然而,传统的话题检测技术已经不能满足实际

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论