版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
[11]。1.5研究内容本文采用了基于Word2vec模型的主题识别算法,和文献计量学的研究手段,首先对我国网络安全领域最近三十年的研究现状进行基础分析,分别从不同时间段文献产出量、核心作者及合作情况、核心期刊、核心研究机构等多个方面对其进行文献计量学上的分析。最后对文本进行处理,构建Word2vec模型,最后通过K-means算法进行聚类,共分成四个章节,主要内容有:第一章,绪论。是本文的基础性内容,主要包括本文研究背景,分别对国内和国外的研究现状进行综述,然后对本文的研究目的和研究意义进行论述,最后介绍了本文将用到的统计数据和将要使用的具体方法。最后整体描述进行本文研究内容和框架。第二章,我国网络安全领域研究现状的文献计量学分析。为了保障数据的全面性和准确性,本文选择中国知网数据库(CNKI)中的数据库作为研究的数据来源。以检索式:主题=网络安全或者题名=网络安全或者v_subject=中英文扩展(网络安全)或者title=中英文扩展(网络安全)或者主题=同义词拓展(网络安全),并对数据进行了预处理,去除明显与本研究不符的文献,在此基础上对其进行文献计量学上的分析。第三章,研究热点主题识别,通过上一步的结果,通过Word2vec算法构建矩阵,再通过K-means聚类算法进行研究热点的聚类。研究热点的主题识别是文献计量学中重要的领域。当前学界一般都采用共现关系使用社会网络分析的方法来进行矩阵的构建或关系的刻画,而本文采用一种新方法——Word2vec模型来进行构建矩阵,它对主题识别的精确性有所提升。之后再使用K-means算法对进行主题聚类。最后得出该领域的研究热点,相对而言可以对我国网络安全领域的的研究主题进行更精确的识别。第四章,总结与展望。对论文以上研究内容进行系统的总结,首先是阐述本文的主要难点和创新点,以及研究中得到的结论和启发。其次是对本文研究内容方面的不足进行论述和反思,最后结合本文的研究内容对我国网络安全领域进行展望。1.6研究方法1.6.1文献研究法文献研究方法是为了解决某些研究问题或是根据某些目的,通过查阅文献(包括纸质文献和电子文献)获取信息的一种方法,从而能全面、合理地了解和掌握所研究课题的脉络,该方法广泛应用于不同的学科,其主要作用首先是了解其研究历史和研究现状,从而可以让研究者以高屋建瓴对研究内容进行谋篇布局,确立自己研究的重点和创新点。其次是让研究者对其有初步印象,避免研究时出现“两眼一抹黑”的情况,同时可以与自己所得到的第一手资料进行对比,针对两者之间的共性和差异进行思考。最后我们可以充分了解研究内容的全貌,可以“站在巨人的肩膀上”,从而在前人的成果上更进一步。1.6.2文献分析法文献计量学是一门运用数理统计方法定量分析所有知识载体的交叉学科,其交叉的学科有数学、统计学和文献学,是一个广泛的数学知识体系,文献计量学的对象包括文献数量(包括多种出版物,特别是期刊论文和引语)、文献作者(个人或研究机构)、词汇数量(包括词频和共现情况等),在对其进行定量的分析之后,由研究者对其进行定性的分析。
2我国网络安全领域的计量分析2.1数据来源与预处理2.1.1数据来源及预处理因为本文主要研究我国网络安全领域,而且选择的期刊为核心期刊,所以本文的数据库选择中国知网(CNKI)数据库作为数据库来源,检索条件设定为:主题=网络安全或者题名=网络安全或者v_subject=中英文扩展(网络安全)或者title=中英文扩展(网络安全)或者主题=同义词拓展(网络安全),同时选择同义词拓展,检索日期为2020年12月31日,时间跨度为1992年到2020年,共得到相关的中文文献11243篇,对检索结果进行人工逐篇筛选,删除新闻、访谈、法律条文、会议征稿、考题、贺词、通知等非学术性文献和作者信息不全等无效性文献,最后得到10280篇有效文献。对中国知网(CNKI)的数据以Endnote格式导出txt文件,在使用COOC软件和excel进行分析时需要将Endnote格式的文本转化为excel常用的xlsx格式,本文通过COOC自带的数据提取模块进行转化,COOC支持Endnote格式的txt文件转化,生成excel表格后,再使用其的数据清洗模块对数据进行去重,可得到年份、全部作者、期刊、关键词、机构、标题和摘要的字段信息,2.2研究基础计量分析2.2.1文献数量分析通过对1992-2020年国内网络安全领域在中国知网(CNKI)数据库中的核心期刊的论文发表数量,可以很好地从时间维度上刻画我国在该领域发展状况,如下表2.1所示:表2.11992-2020年我国网络安全领域在核心期刊上论文发表量年份数量占比年份数量占比199250.05%20076025.86%199380.08%20084664.53%199490.09%20095235.09%199570.07%20105255.11%1996180.18%20114884.75%1997260.25%20124944.81%1998380.37%20134974.83%1999780.76%20144644.51%20001591.55%20154564.44%20012492.42%20165735.57%20023493.39%20175805.64%20034554.43%20184083.97%20044194.08%20197146.95%20054724.59%20206956.76%20065034.89%图2.1论文发布年代分布情况从图2.1可以看出,21世纪之前论文发表数量还比较少,侧面说明当时我国对网络安全领域关注度较低。在2000-2020二十年间,我国网络安全领域的论文数量总体呈上升趋势,虽在中途有一段时间的波动,在2007达到第一个小高峰,通过查阅资料可得知,在2006年底,名为"熊猫烧香"的病毒爆发,数目众多的计算机遭到攻击,造成了不小经济损失,这是我国互联网历史上有关网络安全的一场标志性事件,让我国很多人认识到网络安全的重要性。同时调查也显示:2006年以来的新病毒中其中大部分具有明显的逐利性质,这也意味着病毒生产者的目的由最初的玩乐、炫耀或学习心理转变为从受害者手中非法牟取经济利益为主,因此在第二年,也就是2007年,网络安全有关研究出现井喷,出现第一个小高峰;第二个小高峰出现于2016年、2017年,原因在于2015年我国正式公布并施行了新的《国家安全法》,相比于1993年的《国家安全法》有很多修改,其中第二章第二十五条规定“维护国家网络空间主权、安全和发展利益”,从顶层设计的角度为网络安全领域发展保驾护航。2016年《网络安全法》标志着我国从立法层面上对网络安全问题进行规范和管理,标志我国网络安全管理走向正规化。而最近一个高峰是2019年和2020年,一方面是因为我国科研水平不断提升,另一方面也是因为2018年,全国网络安全和信息化工作会议召开,习近平总书记系统阐述了网络强国战略思想,引发学界对网络安全的持续关注。这一系列说明我国对网络安全领域的研究非常活跃,但同时也从另一个角度证明了目前随着时代发展,网络安全领域发现不少问题,学术界也对此进行持续关注和研究2.2.2核心作者分析作者是文献的创作主体,通过对其进行分析可以有效地了解学科发展的脉络。根据普莱斯定律,判断一个领域的核心作者所需要满足的数量关系:为核心作者群发文总数大约为该领域全部论文数的一半,由此我们可以倒推核心作者的最低发文量为即M=0.749∗其中NMAX为该领域核心作者的最高发文量。经过对我国网络安全领域的全部作者(总)发文量进行统计,得出个人发文量最多的是马建峰,共发表论文55篇,将55带入以上的公式,得到M≈5.555≈5,即在该领域发文量大于等于5篇的作者有资格成为该领域核心作者的候选人。经过统计,发表论文5篇及以上的作者有597人,其论文数量总计4891篇,占文献总量的47.58%,在误差允许的范围内,满足普莱斯定律这最后本文采用CiteSpace对数据进行可视化分析,本文将发文量大于等于5的论文作者进行共现分析,分析时间设置为数据库中发文日期最早的1992年到数据下载前的2020年12月31日,节点类型设为作者,可视化之后再对阈值进行设置。通过查阅指导书,我们可以知道其用了路径寻找(Pathfinder)算法图2.2我国网络安全领域核心作者候选人可视化图谱图中的节点大小代表发文量的多少,在我国网络安全领域发文量排前五位分别是:马建峰(55)、杨义先(48)、方滨兴(37)、云晓春(36)、张玉清(32)。另外,通过深入观察论文作者情况可以发现,国内网络安全领域论文学者合著现象比较普遍,通过查阅有关文献,发现国外网络安全领域作者合著现象也比较频繁,这种共性说明了网络安全领域的特殊性,即网络安全领域跨学科、跨专业的现象很常见,需要作者综合多方面知识进行研究,对作者要求比较高,而通过合作,可以进行合理的分工,使得作者不需要精通每一个领域,从而可以有效地解决这一问题,所以合著现象在网络安全领域较为普遍。2.2.3核心机构分析核心机构是领域发展的重要引擎,一般来说,在一个领域内的核心机构在该领域的学术地位也比较高。经过对机构发文量的统计,结果如表2.2所示,
表2.2我国网络安全领域核心研究机构及发文数量机构所在城市所处地区发文数量国防科技大学计算机学院长沙华南127四川大学计算机学院成都西南97中南大学信息科学与工程学院长沙华南85中国科学院计算技术研究所北京华北81华中科技大学计算机科学与技术学院武汉华中71清华大学计算机科学与技术系北京华北70西北工业大学计算机学院西安西北64哈尔滨工程大学计算机科学与技术学院哈尔滨东北63中国科学院研究生院北京华北60北京科技大学信息工程学院北京华北58从表中可以看出网络安全领域的核心机构都是我国有名的大学和研究机构,可以看出我国在网络安全领域形成了以国防科技大学、中南大学以及四川大学等文献数量和质量都很优秀的研究机构。而且集中于北京、长沙、哈尔滨、西安,形成了四个主要的研究机构城市群,说明我国网络安全领域核心研究机构地理位置较为集中,这也与网络安全研究需要一定的硬件设施和人才的高度集中有一定的相关性,同时对有关作者合作发文提供了便利。2.2.4核心期刊分析对一个学术领域做期刊分析能够确定该领域的核心期刊,而通过核心期刊的文献的发文数量也可以看出核心期刊的学术地位。经过统计可以得到表2.3表2.3我国网络安全领域核心期刊及发文数量期刊发文数量创刊时间主管单位计算机工程4911975国防科技大学计算机学院计算机工程与应用4411964中国电子科技集团公司计算机应用研究3041984四川省科学技术厅计算机工程与设计2881980中国航天科工集团计算机科学2711974国家科技部西南信息中心可以看出网络安全领域的核心期刊主要是计算机相关领域的期刊,同时从创刊日期可以看出主要的核心期刊主要创立于八、九十年代,当时我国计算机领域方兴未艾,它们具有一定的先发优势,这也说明一个领域内的核心期刊需要时间的沉淀和积累。且主管部门相比于其他领域主要由大学主管,我国网络安全领域主要为政府相关部门和与军事方面联系较紧密的大学主管,权威性较高,同时也是由于其关系国家安全和利益的特殊性。2.2.5共现矩阵分析我们需要构建高频关键词的共现矩阵,本文通过COOC软件统计关键词发生两两共现的频次,可以得到高频关键词的共现矩阵。表2.5关键词共现矩阵(部分)检测攻击算法协议治理安全性社会……电子商务检测0510455146415315……6攻击5100372248930535……8算法4553720161226713……6协议1462481610331312……19治理492302229……5安全性1533052673132026……41社会15351312229260……21认证351328523832288……21无线8418716318202123……2防御16727912054189125……2通信106137132169820213……4平台76684562418260……22传感器7914113313301483……1神经网络10144137402312……0中国6173619712140……14服务47995967418651……11路由5813410817301221……0密钥181069615701901……6……………………电子商务6861954121……0基于高频关键词的共现矩阵,我们可以在之后通过共现网络探究网络安全领域的研究热点主题,与本文所提出的通过Word2vec模型构建的关系,这部分在第四章将进行详细分析。3我国网络安全领域研究热点主题识别及实现3.1研究热点主题识别实现及分析3.1.1构建Word2vec模型在以往文献计量学的研究中,研究热点主题识别是是一个不可或缺的领域。首先它要基于一个矩阵或一种关系来对主题进行识别;那么要解决两个问题:一是如何构建矩阵或如何刻画关系,二是用什么方法从矩阵或关系中确定主题。第一个问题当前学术界一般都是基于共现关系使用社会网络分析的方法来进行矩阵的构建或关系的刻画,但这种方法也不是十全十美的,由于该方法本身所具有的局限性,所以在对文本的矩阵构建中,它的矩阵具有稀疏性,对聚类的结果有一定的影响。而本文采用一种较新的方法:Word2vec模型来进行构建关系矩阵,它可以抓住语义关系,构建一个低维的矩阵,这个矩阵相对而言是不稀疏的,对主题识别的精确性有所提升。而之后再使用K-means算法对主题进行聚类。最后通过设置阈值,得出一个时间段内该领域的研究热点。有利于对我国网络安全领域研究的研究热点主题演化进行更精准的识别。Word2vec是一个用来产生词向量的相关模型。该模型主要作用是用来训练重新建构词的属性,它是一个双层神经网络。该网络以词作为连接节点,同时可以猜测相邻左右位置的输入词,Word2Vec的一大特点,也是其与词袋模型最大的不同是词的顺序相对而言影响更低。当Word2Vec模型训练完成以后,可以获得一个拥有设定维数的词向量,向量代表着词与词之间的关系,词向量也叫该神经网络的隐藏层。Word2Vec模型有两种算法:分别是连续词袋模型(CBOW)和Skip-Gram模型。前者跟常见的词袋模型有一定相同之处,它通过创建每个单独词语的特征向量来构建该词语的单词向量,其步骤为先创建一个动态、可移动的窗口,然后从给定文本中目标词语附近的词语来进行神经网络构建,最后对其进行预测。然后我们就将其作为特征向量,并存在其对应的窗口中。在训练完成以后,特征向量就会成为该词语的单词向量。后者在形式上恰好与后者相反——即我们将采用其中一个已经确定的单词预测其附近单词,毫无疑问其难度更大,所以需要耗费的时间和算力也更加庞大。但是其也有优点,也就是对于一些少见的词语或数量比较小的数据集,其准确度相对于前者更高。首先为了得到一个符合我们需求的Word2vec模型,那么需要先对下载下来的数据中的文本进行分词,在这里我们选取的是将一篇文献的标题及摘要作为文本的选取目标,这也是文献分析学中对文本分析较常选取的文献部分,然后因为我们所研究的目标词语主要是中文和英文,所以将其中的标点符号删去。同时保证同一篇文献的标题和摘要在同一行上,避免对后续结果造成影响。然后我们对文本进行分词,在这里我们采用的是jieba分词,它是一个中文分词,可以用来对中文文本进行分词(有多种模式)、判断词性等功能,其特点是可以添加自定义词典。本文使用精确模式对文本进行分词,但观察分词结果我们也不难发现,所得到的文本有许多与研究内容无关的词语,如语气词、量词、部分副词和形容词,如云云、云尔、人们等。同时有许多网络安全领域的专有名词被分开。为提高分词的准确度,本文的停用词使用了以哈尔滨工业大学和百度公司公开的停用词表为主,同时通过jieba分词自带的词性分析,人工进行补充,最后结果达到10000个词,之后又补充网络安全领域专有名词加入自定义词典中,这大大提高了分词的准确性。最后对文本进行Word2vec模型的训练,本文调用了sklearn包中所带的Word2vec,其中参数设置为sg=1,表示因为数据量的原因使用Skip-Gram模型进行训练,当前词与预测词在一个句子中的最大距离设置为10,词频门槛设置为50次,得出的结果向量维度为100,最后得出来的Word2vec模型(部分)如下图所示。表3.1Word2vec模型词语及其维数词语/维数123456…100检测-0.53110.421359-0.04533-0.098160.027157-0.24618…0.555707攻击-0.4757-0.247740.493668-0.130350.441392-0.32968…0.028761算法-0.348090.150490.261222-0.546590.241454-0.08297…0.052867协议-0.532670.1474970.484934-0.269340.1475390.08672…0.04682治理-0.03312-0.239960.2830420.1887230.00871-0.32984…-0.08085安全性-0.42254-0.080910.423337-0.440430.2638640.05572…0.13481社会0.128743-0.263340.3003820.07661-0.2042-0.07083…-0.32217认证-0.275560.1227590.466344-0.401810.3994880.247974…0.11009无线-0.381210.1859820.758464-0.099790.1998540.112995…0.326804防御-0.58865-0.054330.178287-0.233690.37413-0.31469…0.344163……………平台-0.326220.419522-0.245710.0487280.270672-0.16799…0.0410643.1.2使用K-means算法进行主题聚类K均值聚类算法是一种半监督聚类算法,一般认为,半监督聚类在使用类标签的数据集的信息帮助下相比于只用无类标签的数据集可以得到的相对更好的簇,提高聚类的准确度REF_Ref66475254\r\h[12]。K-means通过对数据集中的数据进行距离的计算(一般采用欧氏距离),两个目标之间的距离差距越小,就认为其相似度越高,从而聚类在一起的可能性越大。K-means的算法步骤如下:第一步是选择对数据进行预处理,进行初始化,随机选取k个对象作为初始聚类中心a=a1,a2,⋯ak;第二步,计算数据集中每个样本x其优点有原理简单,相对而言容易理解,算法复杂度低。收敛速度快,聚类速度也较快,聚类效果较优,虽然是局部最优,但一般情况下,局部最优也是全局最优。而且当K值近似高斯分布时,效果很好。同时伸缩性好,无论是对数据较小或是数据较大的数据集都能保证其伸缩性。缺点有K值是人为设置的,而且十分敏感,K值的变动对聚类结果影响较大。对噪音、异常值比较敏感,最好对数据进行一定的预处理。一个样本只能分配给一个类,无法满足多分类需求。对数据有一定要求,不适合离散程度高的数据集、样本类别差距较大的数据集、非凸形状的数据集(较难收敛)。要进行K-means聚类,首先要确定K值,在本文中,采用的是CH分数(CalinskiHarabaszScore)来评价聚类效果的优劣,由此来倒推最合适的K值,其数学公式为:s其中Bk代表簇间色散平均值,wwBCalinski-Harabasz分数与内部协方差呈负相关,与类别之间的协方差呈正相关,也就是说在不知道真实标签的情况下,其分数越高,代表聚类效果越好。根据测试,其Calinski-Harabasz分数最高的K值为7。其Calinski-Harabasz分数如下表所示:
表3.2K值及其对应的Calinski-Harabasz分数K值Calinski-Harabasz分数1896.72895.73933.54935.65907.96938.27939.88925.39914.510909.9最后我们将K=7代入K-means函数中,得到的散点图如下图所示(已使用PCA进行降维)其中心词以及中心词坐标如下表所示:(坐标保留四位小数)表3.3中心词及其对应坐标中心词坐标认证(-0.5388,-0.7791)治理(1.5812,0.0666)神经网络(-0.7534,1.0380)防御(-0.2374,0.2298)信息化(0.5902,-0.4877)舆情(0.7101,0.7176)检测(-0.9590,-0.0826)3.2我国网络安全研究领域研究热点主题分析但此时我们还无法确定这些类的标签,这时我们使用Word2vec构建模型的优势就展现出来,我们可以读取与中心词词向量最接近的几个词(在这里统一选择五个词,相似度保留四位小数),就可以判断每个类的标签和相关领域3.2.1认证服务领域与中心词“认证”相关度最高的五个词如下表所示:表3.4按照相关度进行排名的相关词语及其相似度相关度排名相关词语相似度1漫游0.74682私钥0.69923公钥0.68454协议0.67545身份认证0.6690“漫游”“私钥”“公钥”“协议”“身份认证”代表该类是属于认证领域。认证在网络安全领域一般指通信的双方通过约定好的协议互相确认对方身份,从而保证信息安全三要素中的保密性,保证信息不被泄露给非授权的用户,从而保证信息的安全。在如今的信息化社会中,信息价值日益重要,如网上购物的兴起,企业和政府办公信息化导致很多个人、企业和国家的重要信息都通过网络进行传输,这成为很多不法分子窃取从而牟利的目标。在网络安全领域,身份认证是三个主要保密目标之首,不同的身份拥有不同的权限,也是各个主体判断用户合法性的来源,由于其在网络安全领域拥有重要的地位,所以近些年来我国网络安全领域也持续关注认证服务领域,如“协议”一般是通信双方进行认证的方法,而“漫游”也是最常使用认证服务的工具之一,如消息漫游等,都需要用户进行验证,当然这也是他人窃取信息的重要来源之一。“公钥”和“私钥”则是现代密码学中不可或缺的产物,也是认证服务领域常用的专业术语,所以这也证明认证服务领域已成为研究热点之一。3.2.2社会治理领领域与中心词“治理”相关度最高的五个词如下表所示:表3.5按照相关度进行排名的相关词语及其相似度相关度排名相关词语相似度1法治化0.82172社会治理0.80763综合治理0.78184法治0.75565非传统0.7521网络安全领域虽然是偏向自然科学方面的研究领域,但由于网络越来越深入我们的日常生活,所以网络安全问题也成为一个社会问题,是我国政府乃至于全世界政府都要面临的一个社会治理问题,这也理所当然的成为学界研究热点之一。从“法治化”“社会治理”“综合治理”“法治”“非传统”等相关词语我们可以看出,学界对网络安全问题衍生而来的相关社会问题,一般关注法律和综合治理的作用,这也不难理解,网络安全领域是一个新兴领域,无论是立法层面还是政府监督方面在以往都处于空白期,只靠行业和个人的自律必然无法解决网络安全问题,几年之前国家发布《网络安全法》和《国家网络空间安全战略》,从而让网络安全领域“有法可依”。学者们在相关法律法规出台前研究社会现状,提出立法建议,在其出台后研究其落实现状,提出自己的改进意见和方向,也为我国政府治理能力现代化做出卓越贡献。同时由于网络安全社会问题的多主体性和复杂性,它又是非传统和综合的,往往需要多方合力才能妥善解决相关的社会问题。3.2.3机器学习领域与中心词“神经网络”相关度最高的五个词如下表所示:表3.6按照相关度进行排名的相关词语及其相似度相关度排名相关词语相似度1BP0.84342RBF0.75353人工神经网络0.74834训练0.73935拟合0.7218“BP”“RBF”“人工神经网络”“训练”“拟合”等表明机器学习应用在网络安全领域已成为我国网络安全的重要分支之一。机器学习是一门交叉学科,主要是为了让计算机模仿或实现人类的学习行为,以获取新知,我们也可以在其相关词语看到“BP”“RBF”等机器学习中常用的神经网络,其中BP神经网络是目前应用最广泛的神经网络之一,理论和实际应用都比较成熟,RBF神经网络又叫径向基神经网络,其实属于BP神经网络,但相比于由于使用了全局逼近而导致速度较慢的BP神经网络,其使用的是局部映射(也叫局部逼近),更能满足一些对演算速度和实时性要求较高场景,其在网络安全领域常应用于风险评估方面,如一个主机或系统的网络安全态势的评估,为网络安全专家提高系统的安全性提供参考。而训练和拟合则是机器学习中调整参数常使用的术语之一。3.2.4网络攻防领域与中心词“防御”相关度最高的五个词如下表所示:
表3.7按照相关度进行排名的相关词语及其相似度相关度排名相关词语相似度1拟态0.56442主动防御0.56253密网0.55354诱骗0.54915APT0.5178“拟态”“主动防御”“密网”“诱骗”“APT”等属于网络攻防领域的范畴。如拟态一般是指就是不久之前提出的网络空间拟态防御(CMD),由国内研究团队提出,针对目前网络安全“易攻难守”的网络形势,构建一套动态变化的并行架构保护网络安全,也就是说它是一套可以主动防御的方法,可以说是具有革命性的新方法。密网也是一种主动防御措施,有点类似于钓鱼的“鱼饵”,为了保证自己的重要信息不被攻击和窃取,预先设好“陷阱”,等待攻击者上钩,然后根据攻击手段调整防御策略,从而保护真正的重要数据的安全。而APT就指即高级可持续威胁攻击,值对特定对象进行高强度、持续的攻击以获取利益。在网络安全领域,黑客与网络安全专家之间的网络攻防是学界研究的重要内容。黑客采用多种方法如研究漏洞,获取系统的信任以提高权限等进行网络攻击,为的是获取利益或炫耀自己的技术;而防御者们则运用防火墙、监控等方式保障系统的安全,而有时候为了“知己知彼”也会对黑客的攻击手段进行研究,围绕着网络攻防之间的研究也就成为了学术界核心研究热点之一。3.2.5社会信息化领域与中心词“信息化”相关度最高的五个词如下表所示:表3.8按照相关度进行排名的相关词语及其相似度相关度排名相关词语相似度1现代化0.62752财务管理0.59473经济社会0.59264管理制度0.59135宣传0.5749“现代化”“财务管理”“经济社会”“管理制度”“宣传”等都是社会信息化建设领域的研究对象。信息化常常与现代化共同出现,可以说,在信息社会的今天,社会的信息化也是现代化的重要一环。信息化是“万物皆数”的一个过程,通过将工作生活中得到的数据传输至数据库,以辅助人们在工作、学习、决策中提高效率,降低成本,推动社会的进步。如财务管理和管理制度改革领域如果能合理利用社会信息化红利,那么就能大大提高了人们的生产效率,但这些数据传输时也会遇到网络安全问题,这成为当今学术界研究的热点之一。3.2.6.网络舆情领域与中心词“舆情”相关度最高的五个词如下表所示:表3.9按照相关度进行排名的相关词语及其相似度相关度排名相关词语相似度1食品安全0.69882网民0.68423突发事件0.66454食品0.66345微博0.6465“食品安全”“网民”“突发事件”“生态”“食品”“微博’属于网络舆情管理的范畴。网络安全并不局限于个人与企业、个人与国家之间的网络对抗,也有可能伴随着国家与国家之间的对抗,当一场争议性较高的突发事件(如食品安全事件)引发网民热议时,如何进行舆情管理,及时公开信息就成为政府治理能力现代化的必修课。而不可否认,很多境外反华势力利用舆论进行造谣,这也是网络安全的一个重要组成部分,也成为学术界研究的热点之一。3.2.7无线网络安全领域与中心词“无线”相关度最高的五个词如下表所示:表3.10按照相关度进行排名的相关词语及其相似度相关度排名相关词语相似度1传感器0.76712WSN0.75893有线0.69544簇头0.67845ZigBee0.6756“传感器”“WSN”“有线”“簇头”“ZigBee”都属于无线网络领域的相关内容。传感器是将现实生活的数据转化信息不可或缺的一部分,目前日常生活的传感器传输数据时为了美观和方便一般采用无线传输。WSN是无线传感网络的英文缩写,一般为分布式网络。簇头是无线网络传感器的重要组成部分。ZigBee又称紫蜂,适用于短距离,能耗低,对速度要求不高的一种无线网络协议。相比于其他其他无线网络协议,其在安全可靠性和速度能耗之间取得了较好的平衡,所以也成为网络安全领域关注的重点。随着便携式移动设备普及程度的提高,以往常用的有线网络已经无法满足人们不受时间地点限制的通讯需求,无线网络也横空出世。由于无线网络中最常见的协议IEEE802.11本身的安全性不高,导致很多因无线网络安全问题造成损失的事件层出不穷,为了提高无线网络传输的安全性和质量,一些学者对WEP协议进行完善,也有不少学者提出了新的无线安全协议方案,比如分布式方案等。这也证明社会经济需求会指导研究热点方向,而研究成果又会反过来推动社会的进步。4总结和展望4.1总结与创新本课题重点在于对我国网络安全领域研究热点的主题识别和实现,明确网络安全在我国总体安全观和新时代信息社会的重要地位,以中国知网我国网络安全领域在核心期刊上发表的文献为数据库,以我国网络安全领域的研究文献为重点,为我国网络安全领域治理和研究提供一定的理论支撑。在研究过程中难点在于对研究热点的主题识别和实现,关于主题识别,首先要解决的是如何进行矩阵构建和关系刻画,其次是用什么方法在矩阵和关系中找到主题,本文则是通过jieba分词先对文本进行分词,之后构建Word2vec模型,最后再使用K-means进行研究热点主题聚类,得到了我国网络安全领域近三十年的研究热点主题,分别是:认证服务领域、机器学习领域、网络攻防领域、社会治理领域、社会舆情领域、社会信息化领域和无线网络安全领域这七个研究热点,通过准确识别确定研究热点主题,不仅对有利于了解我国网络安全领域的基本研究现状,也能给有关个人和组织提供一定参考价值。本文创新点在于首先研究内容创新方面,以我国网络安全领域为主要研究对象,选取质量较高的核心期刊发表文献为数据库,可以更好地刻画我国网络安全领域的研究热点,同时根据我国有关政策和事件进行分析,更贴合实际。其次研究方法创新方面,使用基于Word2vec模型的主题识别方法,可以更好地提高对我国网络安全领域研究热点主题识别的准确性。4.2不足与展望本文对我国网络安全领域接近三十年来的研究热点进行了定量和定性的研究分析,但在研究过程中也存在不少不足之处:(1)分词结果仍有改进空间。由于本文涉及网络安全领域,有很多行业专有名词,同时又由于有些专有名词中英结合或数字与文字结合,所以选择停用词和自定义词典时需要人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44758-2024工业用硝酸银
- 租房中介费合同范本3篇
- 全国赛课一等奖人教版数学六年级上册《位置与方向(二)描述简单的路线图》课件
- 铝电解槽2024年度购销合同
- 影视剧制片人聘用合同合同范本
- 物流转让合同2篇
- 2024年度建筑工程钢筋采购供应合同4篇
- 银行账户使用协议书
- 钢结构房屋工程保险服务合同(二零二四年度)3篇
- 建设工程设计合同协议书
- 国有企业薪酬专项审计报告
- 通用办公室文员劳务合同
- 小学美术-13《小导游》课件
- 外观检查记录表
- 急诊科临床诊疗常规技术操作规范
- 维修电工日巡检、修维记录表
- 菌糠的利用课件
- 华北理工大学中药学教案(64学时-田春雨)
- 四年级上册数学课件 -9.1 平均数 ︳青岛版(五四学制)(共21张PPT)
- 药品生产质量管理规范(2010版)(含13个附录)
- 小学数学苏教版六年级上册《长方体和正方体整理与复习》教案(公开课)
评论
0/150
提交评论