版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于机器学习的文本情感分析在社会类突发事件处理中的应用摘要:网络信息服务的范围在逐渐拓展,表现出鲜明的智慧化和精细化特点。互联网上的频繁行为产生了海量信息,造成了网络信息量巨大而难以解决;网络空间以其开放性,强交互性,高隐蔽性和快速传播速度成为不法分子实施危害社会公共安全行为的主战场,这对于网络治理模块中国家安全部门的应急处理策略与手段也有了更高层次的要求。针对上述情况,本研究提出基于机器学习文本情感分析方法并对该方法在社会类突发事件敏感信息采集与处理方面的应用进行了分析。关键词:机器学习;文本情感分析;社会类突发事件信息收集引言网络信息服务的范围逐渐拓展,涉及金融,医疗,旅游,环保等各个方面,互联网络表现出鲜明的智慧化和精细化特点。短视频应用快速兴起,电子商务和移动社交应用深度结合,移动支付软件大范围应用,这些都显示了互联网应用所带来的便利。同时,互联网中的频繁互动会产生海量的数据,导致相关部门对数据的处理的难度大增。近年来社交用户隐私泄露,遇到网上诈骗,设备内病毒或者木马问题突出,同时也出现了不实信息恣意扩散的情况,所以网络综合治理还有待加强。网络空间具有高度开放性,强烈交互性,高度隐蔽性和传播速度快等特征,互联网络已经成为社会类突发事件应急预防处理的主战场,对网络治理模块中国家安全部门的应急处理战略和手段也提出了更多的要求。社会类突发事件情报工作始终面临着对文本信息进行分析和加工的困难。文本信息本身存在着一词多义,歧义和断句不清的现象,这给文本分析和处理时带来了很大的噪声干扰,再加上网络空间信息流速较高,使得社会类突发事件情报部门无法快速地获取信息或截获情报,难以从这些情报中解剖到大量宝贵而可用的情报。与大数据技术和传统机器学习方法相比较,深度学习算法激励采集大数据集,并可通过培训完成数据深层特征抽取。1、机器学习发展历程1.1机器学习发展历程机器学习作为人工智能的一个重要分支,其发展历程可追溯至20世纪50年代。早期研究主要基于神经网络和统计学习理论。1957年,FrankRosenblatt教授提出了感知机(Perceptron)概念,成为神经网络模型的开山鼻祖。1959年,IBM公司的ArthurSamuel设计了一个具有学习能力的跳棋程序,标志着机器学习正式进入发展期。20世纪60年代至70年代末,机器学习发展相对缓慢,处于所谓的“冷静时期”。但在这期间,基于逻辑表示的符号主义学习技术开始蓬勃发展,如结构学习系统、基于逻辑的归纳学习系统等。进入20世纪80年代,机器学习迎来了复兴时期。1986年,机器学习成为新的边缘学科并在高校形成一门课程。此时,机器学习理论基础得以巩固,多种形式的集成学习系统研究兴起,如连接学习符号学习的耦合。此外,机器学习与人工智能各种基础问题的统一性观点开始形成。随着计算机技术的飞速发展,机器学习进入了一个新的阶段。特别是近年来,机器学习在图像识别、自然语言处理、推荐系统等领域取得了显著成果。如今,机器学习已成为许多行业的核心技术,如自动驾驶、医疗诊断、金融分析等。同时,机器学习也在不断探索新的理论和方法,以应对未来可能面临的挑战。1.2机器学习的关键技术机器学习是一门由统计学、概率论、凸分析、算法复杂度理论等多个学科组成的交叉研究。它是人工智能的关键所在,是一种以模仿和实现人的学习行为来获得知识和技术,并且通过对现有知识的不断重组来提高自己的能力。机器学习可以分为如下图几个方面。图1机器学习的内容有监督学习是使用已带标签的样本数据去训练一个分类器模型,再利用这个模型把所有输入的数据转换为相应的标签输出,这便可以实现未知数据相应的预测和分类功能。有监督学习中的数据是提前做好标记的,已知数据的分类情况,相应的训练集数据是包含特征和标签信息的,根据训练集对分类器的训练从而得到测试集相应的输出。无监督学习所使用的训练集包含的数据的标记信息不是提前知道的,它可以从没有标记的数据中发掘出数据的本质和关系。无监督学习无论是研究范围还是应用范围最大的都是聚类。半监督学习则处于有监督学习和无监督学习的中间,它所使用的训练集数据有一部分是带标签的,但其中无标签数据的数量远大于有标签数据的数量。半监督学习方法的优点在于它能显著降低模型对标签数据的依赖性,同时,由于未标记数据更易于获取,因此可以带来更多的应用价值。1.3深度学习深度学习从本质上讲是一种通过加入各种算法、构建多样化模型模拟人类神经系统、再通过大量数据训练所构造的多层隐藏层、提取图像抽象特征、分类整合等方法以提高分类和预测精度的一种算法。深度学习凭借自身优越的性能和前景,从机器学习中崭露头角并发展为新兴分支,对于促进人工智能发展至关重要[1]。深度学习就是模拟与人脑深层相似的神经网络对各种数据拟合的机器学习方法,利用多层次图像空间位点的特征学习形成树状操控模式并对其进行深层次识别。深度学习过程可看作是一个从底层向高层逐层对输入信号进行处理,以实现与输出目标关系并不密切的原始输入表示向与输出目标关系较为密切的表示特征的学习,这种从下到上对信息进行分层处理的方法有助于得到较为抽象,歧义较小以及鲁棒性较强的特征。深度模型对问题的处理能力主要取决于它的模型复杂度,隐层神经元个数的增加促进了模型复杂度的提高,增加水平越高精度越高,显着改善了模型性能[2]。1.4文本特征提取文本特征选择以文本描述主体与表现形式为主线,贴近语料背景进行研究,既要兼顾文本本身的特点,又要避免一词多义以及特征代表性不强的问题,原则在于去除无关特征项以及冗余信息以实现降维表示。传统文本特征的选择是以统计方法为基础进行的,即将文本中有代表性的高频词选为特征单元,利用统计方法来计算特征权重需要消耗大量的人力和物力,同时由于人为参与比较大,会产生很大的噪声与错误,忽视上下文语义结构以及多词汇语义连贯性等问题,使得特征提取不够精确,文本分类不够全面。随着互联网络的迅猛发展和数据爆炸式增长,人们对特征选择方法的需求越来越大,出现了基于自然语言处理和深度学习的文本特征选择方法,语义连贯性和数据处理高效性得到了显着提高[3]。文本特征的主要选取方法见表1。表1主要特征选择方法简介2、基于机器学习的网络敏感信息界定2.1网络敏感词类别本研究中的网络敏感信息专指敏感性质文本信息,具体地说就是政治色彩鲜明或隐蔽的词汇,攻击性或威胁性词汇,也可以指恶意宣泄不愉快情绪而对网络空间环境造成冲击的词汇。根据敏感词归属的语义及环境特征将网络敏感词划分为6个范畴,即宗教信仰范畴,时事政治范畴,国际事务或者国际关系范畴,本国领土主权范畴,法律范畴和社会生活范畴。网络敏感词汇的所属范畴和相应标志性词汇示如图1.在实际敏感词汇的识别中,各种范畴中所含敏感词都会出现反复[4]。图1敏感词类别及对应示例2.2敏感词表现形式网络信息中所含敏感词的表现形式多种多样,这与其中文汉字及拼音的构造及表现形式密切相关,从中可以看出敏感词往往呈现出拼音形式,简称形式及拆分形式等。为逃避网络平台的监视和辨认,部分网民会选择用字母来表述自己的意思。比如,在最近一段时间里,大家都在讨论新冠病毒的控制问题,许多人都将怒火发泄到了武汉市政府身上,一些人在网上留言的时候,都会用“WHZF(武汉政府)”来表达自己的不满。又比如,当我们看到一些名人的图片或者录像时,很多名人的粉丝都会用到"awsl(啊我死了)"这样的夸张词语,来表示自己对名人的喜欢。中文最常用的表述方式为简称或简称。人们习惯用最少的文字来精确地表达自己的意志,例如“犯罪嫌疑人”往往被表示成“嫌犯”。这种简称更多地用于人们的日常生活,法律条款的表达,新闻报道等方面[5]。3、基于机器学习的网络敏感信息感知必要性3.1大规模数据加大敏感信息感知难度无论危害公共安全的行为地点是选择在真实的地区还是抽象的网络平台上,都会产生几何级数增长的数据,包括与组织相关的人员信息、地理位置、活动范围和运营策略。数据显示,全球的数据总量正在快速增长,在二零一九年数据市场已经达到了一千八百七十亿美元[6]。就大数据的类型而言,一般有四类:政府数据、企业大数据、互联网大数据和个人大数据。详见图2。图2敏感信息与个人信息的关系敏感信息和智能数据来源于外界,其中既有政府机关提供的信息,也有犯罪嫌疑人的日常活动,如财务、交通、通讯等,还包括互联网等。伴随着科技的不断发展,各种有计划、有预谋的非法组织将战场转移到了互联网上,情报机构也适时地将自己的阵地转移到了互联网上,并对互联网上的信息展开监测、跟踪、处理和分析,以确定目标,这说明了情报工作的结果。与此形成鲜明对比的是,互联网上的个人信息已大量占用了人们的工作和娱乐时间,而身份、婚姻状态、社会偏好、地理位置等信息则被大量曝光,极易被社会类突发事件部门所利用。由于数据量太大,情报机构不能精确地过滤掉无关的信息,也不能排除公民个人信息,这无疑使敏感信息的处理变得更加复杂。3.2敏感信息采集与处理技术易造成隐私信息泄露数据信息安全和大数据分析有着千丝万缕的联系,甚至能够把二者划上等号。大数据环境下情报采集的路径大致有网络监控,新闻媒体报道,专项情报数据库的建立,人工情报采集和政府部门等产业的情报采集。毫无疑问,许多大数据处理技术都是有针对性的,能够有效地解决绝大多数的网络安全问题。从现实需求出发,大数据处理与分析技术的确应当被用于信息安全与情报工作,但并非完全安全。以数据挖掘技术为例,它包括了数据采集、预处理、数据分析与利用、知识应用(见图3)。图3大数据处理过程中的隐私泄露数据获取包括用户不了解数据源的选择,从而带来潜在威胁;预处理要求滤除无关或者关系不是很好的信息,而用户又不能了解信息是否得到了妥善处理或者抛弃或者破坏,即使进行了二次利用或者违规利用也会造成最大的影响。数据分析和使用意味着对有用信息的处理,一般来说,数据会被去掉身份,但这并不是100%的安全,因为去掉身份的数据信息可以和数据库中的其他信息联系起来,在受到恶意攻击的情况下,用户信息仍然可以被恢复。数据挖掘的终极目标在于挖掘蕴藏在数据中的宝贵知识,情报机构可将获取的信息用于对将来可能出现的以公共安全及有关人员为对象的事件进行预测。若现阶段信息未被有效储存,从而造成信息泄露,无疑会给个人数据带来巨大的威胁。由此可见,用于敏感信息采集与加工的大规模数据处理与分析技术并不是绝对安全的。重视数据处理中缺乏严格监督与管理程序、如何保证各项数据都能得到适当的保存与保护等问题是今后的工作方向。4、基于机器学习的网络敏感信息感知框架构建4.1网络敏感信息感知影响因子根据网络敏感信息产生的外部环境和自身因素,分析网络敏感信息结果如图4所示。图4网络敏感信息感知影响因子从外部环境出发,可依据敏感事件时网络环境状态,敏感词出现与出现时间及目前网络监管水平等因素来分析。事件环境:敏感词必须取决于对某个事件的评价,或者是由这个词所导致的一系列网络事件;在上述两种情形中,事件处理网络环境影响了敏感信息感知。事件发生的时间:主要考虑是需要检查的资料是否出现在关键时期,即所谓特殊时期。特殊时期通常会引起人们对于事件的大量讨论或者是没有根据的推测,在这一过程中敏感信息的出现是非常可能的。词汇在文本中的位置:互联网文本信息采集分析效率与其关键词所处位置紧密相关,实际数据表明敏感词发生在正文起始处,其对全文的影响大于发生在正文末尾。词汇在课文中的出现频度:所考察信息在课文中所起的作用与其频度成正相关、频度高、敏感性高。词汇呈现方式:前一节中提到敏感信的呈现方式会影响敏感信息的发现与感知过程,且呈现方式越繁杂,工作进展越易受影响。对文本的意义:敏感词为文本做出贡献,可综合考虑该词语在文中出现频率,字符长度进行计算。4.2网络敏感信息感知框架构建由于网络中敏感信息难以被察觉和认知,且难以避免与私人信息产生冲突,所以需要在保证深层次敏感信息精确抽取的前提下降低情报机构工作负荷和难度,提升情报分析准确性、及时性。基于此,互联网敏感信息(危及社会公共安全)检测框架见图5。图5基于深度学习方法的网络敏感信息感知框架由于在互联网上跟踪和发现敏感信息的具体过程,严格控制数据来源是重中之重。在互联网广泛普及,视频监控与跟踪,图像识别等技术广泛应用,数据传输速度日益加快的情况下,网民的线上线下行为极可能得到时刻监测。互联网中的大部分敏感信息都源于对人日常生活特别是其在线行为的监测。该流程隐蔽性强,为国家网络监控部门对网络空间进行净化所必需,这些数据信息通常由当事人不了解。为避免冲突,首先要在数据源中尽可能精确地采集有用信息,以免对非敏感信息产生无效的获取与利用。这需要情报人员能及时地发现问题并锁定目标区域及人群,同时对网络监测系统的设计提出更高的需求。对数据处理技术而言,如何在海量领域与影像中对敏感词汇进行快速捕获与精确监控具有挑战性。5、网络敏感信息感知系统下社会类突发事件应急处理进程优化在社会类突发事件爆发之前,若不掌握情报就盲目开展活动,不仅不能抑制社会类突发事件,而且还会浪费很多人力、物力、财力,更会加剧社会类突发事件所带来的危害,因此这时的观测应属于广义上的观测与防范。社会类突发事件发生后,武警现场指挥员要想确保应急处理进程更加顺利,就必须在有效的时间里获得更多的情报,可通过公安“天网工程”“雪亮工程”以及大数据平台来获得社会面治安状况等信息,并通过网络敏感的信息感知系统来了解竞争对手的情况,民情社情,天候地形,电磁环境以及舆论情况等等,这样才能更早地一步了解社会类突发事件的导火索到底是什么,给民众造成的威胁有多大,又能得到谁的支持,怎样配合协同应急处理,才能在社会类突发事件应急处理中取得突破。这一阶段是用来搜集能有助于问题解决的多种有关资料,并为进一步分析判断奠定所需数据基础。社会类突发事件行动中武警部队应加快高新技术的信息化和现代化建设,运用网络敏感信息感知系统增强信息化应急处理优势。武警指挥员应善于运用信息化通信技术手段和无人化智能化新型装备来丰富多种观察,判断和决策手段,极大地缩短任务部队应急处理实施时间,并在应急处理过程中切实提髙容错率,以实现最终制胜。另外,还应加上社会类突发事件信息的搜集,建立有效的社会类突发事件怖活动预警体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车电器与电控技术 课件 15 故障诊断测试
- 《hiv的检测和治疗》课件
- 2024年新高一英语初升高衔接《语法名词短语、形容词短语、副词短语》含答案解析
- 《GO软件的使用》课件
- 照明用发光管产品入市调查研究报告
- 《销售人员的培训》课件
- 耳套服装市场发展预测和趋势分析
- 牙齿预防课件
- 福建文化课件
- 科学装置用隔膜产业规划专项研究报告
- DB43 3001-2024 工业废水高氯酸盐污染物排放标准
- 厂区保洁服务投标方案【2024版】技术方案
- 包装饮用水生产风险清单范例
- 税筹合同范本
- GB/T 19633.2-2024最终灭菌医疗器械包装第2部分:成型、密封和装配过程的确认的要求
- 养老机构照护机构长期护理服务安全风险评估、风险防范记录表1-3-5
- 信息化工程分包合同范本
- FZ∕T 71006-2021 山羊绒针织绒线
- 慢性创面的治疗及护理课件
- 第9课发展全过程人民民主(课件+视频)(高教版2023·基础模块)
- 高考高中语文必背古诗文72篇-必考古诗词全总结
评论
0/150
提交评论