KNN算法在敏感信息识别中的应用研究 计算机管理专业_第1页
KNN算法在敏感信息识别中的应用研究 计算机管理专业_第2页
KNN算法在敏感信息识别中的应用研究 计算机管理专业_第3页
KNN算法在敏感信息识别中的应用研究 计算机管理专业_第4页
KNN算法在敏感信息识别中的应用研究 计算机管理专业_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEIPAGEKNN算法在敏感信息识别中的应用研究摘要:科技的进步虽然帮助我们更快更多地获取到信息,但同时信息量的爆炸也给不法分子留下了可乘之机。不法分子在网络上大肆传播不良信息,这也给公安工作中的敏感信息研判带来了困难。KNN算法是一种文本分类算法,具有容易理解,易于实现等优点,常常被运用于文本的分类及预测。本文试通过简述KNN算法工作原理,优化KNN算法,加快其对敏感信息的识别速度,提高识别敏感信息的效率,为公安工作中敏感信息的识别提供帮助,节省警力使用,使公安信息工作更加快速、高效,同时为实现智慧警务做一份贡献。关键词:KNN算法;敏感信息;文本分类;敏感信息

SensitiveInformationRecognitionBasedonK-NearestNeighborAbstract:Theprogressofscienceandtechnologyhelpsustogetmoreinformationmorequickly,butatthesametimetheinformationexplosionalsoleftanopportunityforcriminals.CriminalsspreadbadinformationontheInterne,whichalsobringsdifficultiestotheresearchandjudgmentofsensitiveinformationinpublicsecuritywork.K-NearestNeighboralgorithmasoneofthebesttextcategorizationalgorithmsiseasytounderstandandimplement.Itisoftenusedintextcategorizationandprediction.Inthispaper,ItrytobrieflydescribetheworkingprincipleofKNNalgorithmandoptimizeKNNalgorithm.Thispaperaimatspeedinguptherecognitionofsensitiveinformationandimprovingtheefficiencyofidentifyingsensitiveinformation,whichcanprovideassistancefortheidentificationofsensitiveinformationinpublicsecuritywork.Keywords:K-NearestNeighboralgorithm;sensitiveinformation;textcategorization;accuracyrate

目录59341引言 1276431.1研究背景及研究意义 1281031.2国内外研究现状 1135652传统KNN算法 3209842.1KNN算法三要素 3230062.2KNN算法流程 5167952.3KNN算法优缺点 551192.4KNN算法的代码实现 6194303文本分类 7265403.1文本预处理 769763.2特征选择 971093.3特征权重计算 10262333.4性能评估 11160064KNN算法的改进 13304864.1特征项的提取 1340184.2特征项的权值计算 13127124.3非敏感信息文本的阈值 13123774.4算法设计 14201545实验验证与分析 1629885.1实验环境 1657005.2实验验证 16217985.3数据分析 17214216结束语 1824837参考文献 1912006致谢 20PAGEPAGE9PAGE伴随着信息技术的飞速进步,微博、微信等软件的出现使得人们接触信息的方式也愈发灵活多变,各式各样的信息呈爆发式增长。但是,人们在越来越方便快捷地获取信息的同时,接触到有害信息的风险也大大增加。敏感信息的大量出现对社会稳定和经济发展有着不容小视的恶劣影响,对未成年人的健康成长更是十分不利。敏感信息主要包括涉及敏感政治的信息、淫秽色情信息、暴力信息、涉及邪教的信息等等,因其具有普遍广泛性、社会危险性、隐蔽性高等特点,对社会和谐稳定产生了巨大威胁。网络信息多种多样,敏感信息可以以图像、视频、音频等形式存在和传播,这给公安民警有效地识别和分类这些敏感信息带来了困难。现有的文本分类算法有很多,其中经常使用的有KNN(K-NearestNeighboralgorithm)算法、朴素贝叶斯(NB)分类算法和神经网络(NN)算法等。本文提出将KNN算法运用于敏感信息的识别当中,KNN算法作为一种实施简便、不需要对文本进行训练的惰性学习算法,被广泛应用于各个领域。但是,在实际应用中,KNN算法也有很大的不足,在实际应用中往往需要面对海量的数据,而KNN算法需要计算测试样本到每一个训练样本间距离,计算量过于庞大,大大降低了分类效率。为此,本文将从特征项的选择以及特征值权重的计算方法这两方面对KNN算法进行改进,以达到基于KNN算法对网络敏感信息进行识别的效果。最近几年,一些学者对敏感信息识别的新技术做了有关研究调查。其中,李杨,潘泉等撰写的《基于短文本情感分析的敏感信息识别》中,通过设定情感敏感关键词对情感类型进行分析,实现了敏感信息的识别;李城也在其文章《微博敏感信息追踪溯源关键技术研究》中运用WEB爬虫程序对特定关键词下的相关敏感微博进行爬取,实现了对微博上的敏感信息进行识别。近年来,对KNN算法在文本分类中的研究也取得了不小进步。例如,康进峰,王国营撰写的文章《用于色情网页过滤中的KNN算法改进》通过改进权值计算公式以及特征项的选取,有效提高了KNN算法的准确率;郑伟,王若怡等的文章《KNN算法在舆情领域中的应用研究》,在KNN中采用相似度作为权重参与计算,对KNN算法下的网络舆情的识别与分类进行了研究;黄超,陈军华撰写的《基于改进K最近邻算法的中文文本分类》利用DF-卡方统计量法对特征维数进行了有效约减,提升了KNN算法进行文本分类的性能。国外不少学者也对KNN算法很感兴趣,并对其进行了深入研究。文章《Anewextractingalgorithmofknearestneighborssearchingforpointclouds》提出了一种在搜索开始前通过提取最近邻点来减少给定数据集中目标点数量的新策略和相应的算法,避免了提取最邻近点过程中反复计算欧氏距离,节省了时间;文章《KRNN:kRare-classNearestNeighbourclassification》研究了KNN算法面向特定学习算法的局部策略,提出了一种K稀有类最近邻算法,即KRNN算法,通过直接调整KRNN的诱导偏差,解决了数据稀疏性的不平衡问题。在实际应用中,算法的效率往往受到多种因素的影响,例如样本的数量、样本的分布以及实现算法数据结构的选择。因此,严谨公正地比较不同算法在解决同一问题时的效率就显得格外重要。本文通过设计实验来比较经典KNN算法和改进以后的KNN算法在解决敏感信息识别这一问题上的效率。

KNN(K-NearestNeighbor)算法,其核心思想是:在众多的样本种找到和目标样本最近的,并且要找到K个。然后在此基础上分类进行统计找到包含目标样本最多的组合,并且做上标记。输入:目标文本,文本的类别,以及目标文本向量。输出:目标文本所属类别。2.1.1距离度量对于KNN算法而言,挑选出与训练样本距离最近的K个测试样本是整个算法的关键。要想得出测试样本与训练样本间距离,第一步就是选择合适的计算样本之间距离的最优的算法。(1)欧氏距离(EuclideanDistance)欧氏距离是我们接触最早的方法,也是最容易让人理解的,在接受小学教育时,在平面空间中求两点之间的距离的方法就是欧式距离。到了初中和高中,学到了三维立体空间,更是对欧式算法的运用。计算公式相信我们也非常熟悉,如下:假设二维平面上有两个点,其坐标分别为,,两点之间的欧式距离为:维维空间中的两个点的坐标分别表示如下,,欧式距离为:切比雪夫距离(ChebyshevDistance)根据国际象棋的规则中,我们看到将可以走向附近的任意一格。所以,将从格子到格子要走多远的距离呢。这个问题非常值得人思考,将走的距离就称之为切比雪夫距离。其计算公式如下:二维平面上的两点,,间的切比雪夫距离为:N维空间中的两个向量,的切比雪夫距离为:(3)曼哈顿距离(ManhattanDistance)曼哈顿距离,根据名字就可以进行大概、简单的理解,就是从的一个十字路口为起点到下一个十字路口,这之间开车的距离显而易见不可能时直线,所以把这种不是直线距离的两个识字路口的路程称之为曼哈顿距离。公式就是下面所展示的这样:假设二维平面上有两个点,分别为,,这两点之间的曼哈顿距离可以做如下表示:多维空间中的两个点,,,他们之间的曼哈顿距离可以表示如下:(4)余弦相似度(CosineSimilarity)二维空间里,点可以用坐标表示成两个向量,的余弦夹角:类比推理可得,多维空间中的两个向量,的余弦夹角:2.1.2K值的选择K值的选择也是KNN算法中是十分重要的一部分。如果选择的K值较小,就等同于依照较小范围内的训练样本对于测试样本的类别进行判别,使得算法变得过于复杂,则产生的误差也会变大;如果选择的K值较大,就等同于依照较大范围内的训练样本对测试样本进行判别,使得算法过于简单,也大大增加了误差产生的可能。只有选择的K值可以使测试样本与训练样本较为接近时,KNN算法才能充分发挥其作用。一般采用交叉验证法来选取合适的K值。2.1.3分类决策规则看哪个类别中聚集的目标样本附近的临近样本多,则我们找的目标样本就在这个类别当中,这种原理就类似于投票原理的少数人听多数人的一样的道理。(1)就是运用之前分析提到的计算距离的方法计算出每一个训练样本和目标样本之间的距离;(2)将这些距离按照大小以此进行排序;(2)找出K值,将距离目标样本最近的K个训练样本挑选出来;(3)确定这K个训练样本在哪个类别中的个数最多;(4)根据推理和KNN算法的基本原理,得出结论:目标样本也在训练样本最多的那个类别中。KNN算法优点:(1)非常的简答,通俗易懂、便于理解,容易操作,由于KNN算法的核心思想比较简单,其理论推导和算法步骤也相对简单,因此比较容易实现。(2)KNN算法作为一种惰性学习(lazy-learning),其在进行分类时不需要对样本进行训练,只要输入大量的样本,计算机就可以进行分类,再输入一个新的样本,计算机就可以进行识别。(3)KNN算法在进行分类时,其计算时间只与样本的数量有关,计算时间与样本数量成正比关系,即样本数量越多,花费时间越多。(4)由于KNN算法只需要计算测试样本到训练样本的距离,就可以进行分类,计算过程相对简单,所以KNN算法常被用于解决许多现实生活中的分类问题。KNN算法缺点:(1)计算量较大,KNN算法在进行分类时虽然只需要计算每一个测试样本与所有训练样本之间的距离,计算十分简单,但是当样本数量庞大时,KNN算法所需计算量也会比较大,这对计算机的性能也是一种挑战。(2)在运用KNN算法进行文本分类时,如果一种类别里面的样本数量非常多,而另外一个类别中则恰恰相反,包含的样本数量非常少。这时,就说明我们设计的样本类别不合理,需要重新根据数据的分布确定一个新的类别。以此才能缩小目标样本在哪个类别中的范围。我们要做的就是在数量多的哪个类别中重新分类。如果不这样做的话带来的后果将会是导致测试样本大多被分进包含样本数量较大的那个类别的情况,导致错误判断,使得KNN算法进行分类出来的结果将不再具有准确性,且不具有说服力。defknn(k,testdata,traindata,labels):defknn(k,testdata,traindata,labels):#k代表分类数,测试数据,训练数据,所得到的测试结果属于哪一类(labels)traindata.shape[0]#shape返回两个参数(数组),shape[0]得到训练集行数dif=np.tile(testdata,(traindata,1))-traindata#利用numpy中的tile扩展维数后,才能进行计算,列数确定一直,扩展行(行扩展一直,列不变)sqdif=dif**2#对差值的每个元素取平方sumsqdif=sqdif.sum(axis=1)#按行进行计算,得到列向量组,axis=0则得到的是行向量distance=sumsqdif**0.5sortdistance=distance.argsort()#按照升序去排count={}#建立一个空字典foriinrange(0,k):vote=labels[sortdistance[i]]count[vote]=count.get(vote,0)+1#get(5,0)+1,意思是在count字典中出现一次vote值,则对应加1{5:1,,,},多次循环累加sortcount=sorted(count.items(),key=operator.itemgetter(1),reverse=True)#排序依据字典中的第一个词去排序,默认是升序(False)#key指定依据哪个区排,operator.itemgeter(1)指定第一个元素去排returnsortcount[0][0]

如果想要将KNN算法运用于敏感信息的识别当中,首先要实现KNN算法的文本分类。文本分类的流程如下:分类器进行分类分类器进行分类分类结果评估分类结果评估图3.1文本分类流程对文本进行分类需要分五个阶段分别进行:先对文本的数据进行粗略的排出和挑选,避免差异较大的数据混在其中干扰结果、按照数据的特征进行排序光合分类、权重计算阶段、算法设计阶段、性能评估阶段。目前为止,计算机还无法对文本中的信息进行识别,所以,当然计算及就无法处理文本中的数据。因此我们在遇到文本时样本时,就需要人工进行预处理和排除干扰项。文本预处理的作用主要在于:剔除对文本分类没有作用的信息,为计算提供便利。文本预处理阶段主要需要进行:分词处理、停止使用的词进行处理、选择不同的文本类型等。3.1.1分词处理英文文本的通常做法时各个单词之间用空格去隔开,组成句子;分开来;而中文文本和英文文本之间就不同,字与字之间、词与词之间没有任何间隔和符号标记,这就不利于用计算机对其进行智能的识别,所以,这就是中文文本面临的难题,也是文本识别必须要解决的问题。所以,识别中文文本就是要在词与词之间留下特征处理的关键就是要自动识别词语词之间的分隔,将一连串的汉字作为一个词组组。现在在使用的分词方法有以下几种:通过字符串粉刺、通过理解分词和基于大数据的统计来分词。3.1.2停用词处理停用词就是指在文中经常可以看到,但是又不起什么作用的词语,这些词语出现在文本中对中文文本的分类毫无帮助。这些词在文本中经常出现,却并没有什么实际意义,如果不将其从本文中剔除,会严重干扰特征词的选取。停用词一般通过人工搜索整理,制作停用词表。3.1.3文本表示模型现在,我们经常可以看到文本表示模型主要有以下几种有:词袋模型(BagofWordsModel)、布尔模型(BooleanModel)、向量空间模型(VectorSpaceModel)等。向量空间模型时运用的最多的,可能时因为方便理解,方便使用,准确率还相对较高,并且我们在基础数学中经常可以看到在运用。词袋模型(BagofWordsModel)词袋模型的基本思想是:如果很多文本中都出现同一个词,那么这个词可能是一个比较常用的词,对文本分类的帮助较小,因此对这种词的权重进行降低。布尔模型(BooleanModel)布尔模型的核心思想是:每个词在文档中出现则记为1,不出现则记为0,依靠这种思想将每一个文本转化为向量。布尔模型具有原理简单易懂,运行速度快,易于实现的优点,但是由于其非常“刚性”:“与”意味着全部;“或”意味着任何一个

,“非”意味着没有,查询过于死板,灵活性不足,导致查询结果不准确。向量空间模型(VectorSpaceModel)向量空间模型(VectorSpaceModel)是一个数学模型,它将文本当做一个向量,将文本中的各个词语看做是向量的各个维数,大大降低了计算的复杂程度,为特征项相似度的计算与排序提供了便利。本文也采用向量空间模型来表示文本。一个经过了文本预处理之后的文本,往往会生成大量词条。假设将一个文本内的所有词条都视为这个文本的特征项,就会使得这个文本的特征项尤其巨大,且由于文本的特征项过多,可能导致有效的特征项未被识别出来,这对文本分类的效果有着巨大的影响。正因如此,我们需要对进行过文本预处理所产生的词条进行特征选择,把最能体现文本特征的词条选择出来,这样不仅可以避免分类准确率的降低,甚至可以提高分类的精准度。3.2.1文档频数(DF)文档频数(DF)意思是某个单词在文中出现的次数。如果出现的次数越多的词说明该词语对该篇文本的重要性程度高的概率机越大。所以我们可以通过该词的出现的次数来看出该词是否对于该篇文章非常的重要,如果不重要就进行剔除,然后按照之前就确定好的阈值剔除文档频数高于或者低于阈值的特征项。

文档频数(DF)的优点在于计算量较小且计算简单,可以运用于各种样本类型。但是文档频数(DF)存在着不足之处,如果某一特征项可能同样包含着重要的信息,但是由于其在文本中十分稀有,所以就可能被无故抛弃,致使分类的准确率降低。3.2.2统计(CHI)CHI算法就是将特征词和目标词之间的关联性程度进行量化,例如,可以用1、2、3、4、5等来表示,可以用来表示,来判断该特征词是否可以代表该类别。越大,值越大则说明关联性程度就越高,在该类别中就越有可能包含目标词。开方检验就是通过比较实际值和我们设定的值之间的差距来判断之前的理论理论是否正确。计算公式如下:其中,N为训练样本的总数,A为每个词的正文档出现频率、B为每个词负文档出现频率、C为每个词在正文中不出现的概率、D为每个词负文档不出现的概率。3.2.3信息增益(IG)信息增益,就是该词在该文档中出现可以为特征的分类提供信息的多少。如果提供的有用信息越多,就说明该信息对于该篇文档就越重要。其计算公式为:其中,代表特征出现,代表特征不出现,代表第各类别。经过文本预处理、特征选择之后,我们需要对选出的特征项进行权重计算,以赋予其权值。如果特征项对文本分类的作用越大,则赋予这个特征项越大的权值。正因如此,能否挑选到合适的特征加权算法对最终的分类结果有着重要影响。本文采用TF-IDF权重法。3.3.1TF-IDF权重法TF-IDF就是用权重来衡量词语对于文本的重要性程度,词语在文本中出现的次数越频繁,所占的权重就越大,对于文本来说,该词就越重要。相应的,在整篇文档中的权重就会变小。简单来说,就是一个字词出现在某个文本中次数越多,但是在其他文本中出现频率较低,这个字词就越可以表示这个文本。其核心思想是:一个字词在某一文本出现次数越多,就赋予其越高的权值;但是,一个字词果在整个训练文本频繁出现,就赋予其较低的权值。TF,即词频,是指某一个词在文本中出现的频率。其公式为:IDF,就是将IF的原理逆向运用:如果某一字词在整个训练文本中出现的频率很低,则其IDF越大,表明该字词可以对文本做成很好的分类。计算公式如下:

(分母加1是为了避免分母是0)特征项权重计算公式如下:对文本分类结果的评判可以从速率和准确率这两方面入手。分类的速率由算法的复杂度决定,而分类的准确率可以通过与人工分类的结果进行对比,进而得出准确率的高低。文本分类的速率一般通过分类所用时长进行衡量,文本分类的准确率可以通过查准率(P)、召回率(R)、F1值和宏平均、微平均进行评价。下面是分类结果判定表:表3.1分类结果判定表实际属于该类实际不属于该类判定属于该类ab判定不属于该类cd本文对基于KNN算法的敏感信息识别的效果评估,主要采用查准率(P)、召回率(R)、F1值,下面对其进行介绍。查准率(P)是该词在文本中出现的正确的概率。并且归纳出以下的计算公式进行量化:召回率(R)是在整篇文档中,我们能够辨别出来是正确的词语占总数量的比例。其计算公式如下:由于查准率(P)和召回率(R)在某些情况下是矛盾的,所以又提出了一个新的评估标准F1。F1值可以同时兼顾查准率和召回率这两个指标其计算公式如下:

在文本分类过程中,特征项的选取与分类效果的好坏有着密切的联系。本文采用CHI算法对文本中的特征项进行选取,确保可以准确提取出代表非敏感信息文本以及敏感信息文本的特征词。CHI算法可以用来衡量特征词及其类别之间的相关性,它不仅考虑了特征存在时的情况也考虑到了特征不存在时的情况。而对于敏感信息的识别而言,一个文本要么是敏感信息文本,要么是非敏感信息文本,所以在对敏感信息进行识别时,更适合采用CHI算法进行特征项的提取。CHI算法的计算公式等在上文3.2.2中介绍。要想构建一个出色的空间向量模型,不仅需要选择一个合适的提取特征项的算法,选择一个合理的计算特征词权重的算法也是不可或缺的。本文采用了CHI算法来对文本中的特征项进行提取,根据CHI算法的性质,若特征项值越大,则该特征项与其类别的相关性就越强,包含该特征项的文本属于该类别的可能性也就越大。所以,文本将归一化思想运用于权值计算当中,提出了一种新的赋予权值的方法:其中,表示特征项在类别中的权值,表示能够代表类别的特征项的维数。在实际应用中,非敏感信息的数量是远远大于敏感信息的,正因如此,在使用KNN算法对敏感信息进行识别以前,运用设定阈值的方法,让部分明显属于非敏感信息的文本快速通过,从而加快识别速度,是十分必要的一步。设定一个阈值,若测试文本与非敏感信息文本的特征项之间的相似度大于,则表明该测试文本属于非敏感信息文本,直接让其通过以下是阈值的公式:其中,C1代表非敏感信息文本;为非敏感信息文本特征项集合的维数;为C1的文本数;C2代表敏感信息文本;为C2的文本数;表示非敏感信息文本特征项在文本类C1的第篇文本中出现的次数;是先前为非敏感信息特征项所定义的权值大小。同理,表示非敏感信息文本特征项在文本类C2的第篇文本中出现的次数;是先前为非敏感信息文本特征项所定义的权值大小。对敏感信息进行识别实际就是将敏感信息与非敏感信息区分开。KNN算法本来就是文本分类算法的一种,所以本文对KNN算法加以改进将其运用于敏感信息的识别之中。利用KNN算法进行敏感信息识别时,首先使用CHI算法对敏感信息文本和非敏感信息文本的特征项提取出来,然后对特征项所占的权重计算出来,比较测试文本更接近敏感信息文本还是更接近非敏感信息文本,最后据此判断测试文本所属类别。将测试文本和非敏感信息文本的特征项的集合的亲近程度定义为。值越大,测试文本属于非敏感信息的概率就越大。其中,为代表代表非敏感信息文本的特征项维数,表示特征项在文本中出现的频率。其流程如图所示。

本次实验使用的计算机配置表:电脑型号 :Alienware17R2笔记本电脑操作系统:Windows10专业版处理器:英特尔第四代酷睿i7-4720HQ@2.60GHz四核主板:Alienware17R2(LynxPoint)内存: 16GB(海力士DDR3L1600MHz)系统类型:64位操作系统主硬盘: 浦科特PX-128M6G-2280(128GB/固态硬盘)显卡:NvidiaGeForceGTX980M(4GB/戴尔)显示器:三星SDC4C48(17.2英寸)声卡:创新SoundBlasterRecon3Di@英特尔LynxPoint高保真音频网卡:鈺硕KillerE2200GigabitEthernetController/戴尔采集工具:八爪鱼V7.3.4运行环境:Python为了验证改进的KNN算法在敏感信息识别中的效果,本文选取200个文本作为样本库进行训练,其中150个为非敏感信息文本,50个为敏感信息文本。首先使用经典的KNN算法,其中N值取25,特征向量维数取为100,对敏感信息进行识别,这是本文的第一个实验。第二个实验,采用CHI算法对非敏感信息文本和敏感信息文本的特征项进行提取,并利用新提出的特征权重计算方法对特征项进行计算,然后根据设计的算法对敏感信息的进行识别。实验结果如表1所示。表1实验结果算法准确率召回率F1值经典KNN类别10.9250.9160.920经典KNN类别20.9460.9520.949改进KNN类别10.9481.0000.930改进KNN类别21.0000.9250.916从实验数据中可以看出,在对敏感信息进行识别时,改进后的KNN与经典KNN算法相比,虽然在准确率、召回率和F1值上相差不大,但是改进后的KNN算法上大大减少了分类时间。这是因为,经典KNN算法在进行文本分类时需要计算测试文本到每一个训练文本之间的距离,然后进行排序,选出相似度最大的K个样本,根据这K个样本的类别,判断测试样本所属类别,这就大大增加了计算量,导致使用分类时间增多。而对于改进后的KNN算法而言,只需要计算测试样本与敏感信息文本及非敏感信息文本得特征项集合之间的亲近程度,就可以判断出测试文本类别。由于网络上的信息成千上万,使用经典KNN算法对其进行一一计算显然是不可能的,所以通过改进KNN算法大大降低分类速度是十分有必要的。

本文利用CHI算法进行特征项的提取,同时运用归一化思想提出了一个新的权值赋予的方法,对在之前的KNN算法的基础之上做了适当的改进。并且通过这个实验证明:用按照笔者改进后的新KNN算法各个方面都有了很大的进步,虽然KNN算法的基本原理没有做变动。但是新KNN算法在识别敏感信息时所花费的时间大大减少,提高了KNN算法分类效率,满足了敏感信息快速识别的要求。同时改进后的KNN算法不需要再对K值进行反复调试,选取最优,在进一步提高分类效率的同时也降低了误差产生的可能性。随着互联网的高速进步,公众获取和发布信息的途径越来越多元化,广泛化和即时化。随之而来的是敏感信息的大量增长,本文通过研究并改进KNN算法,将其运用于网络敏感信息的识别当中。希望在日后的公安工作中,该算法能够为公安机关识别网络敏感信息提供助力,进而实现在公安工作中引导舆论动向的技术先期优势。

[1]张爱华,靖红芳,王斌,等.文本分类中特征权重因子的作用研究[J].中文信息学报,2010(3).[2]李强,李建华.基于向量空间模型的过滤不良文本方法[J].计算机工程,2006,32(10):4-8.[3]王增民,王开珏.基于熵权的K最临近算法改进[J].计算机工程与应用,2009,45(30):129-131.[4]辛英.基于k-邻近算法的手写识别系统的研究与实现[J].电子设计工程,2018,(7).[5]桑应宾.基于k近邻的分类算法研究[D].重庆大学,2009.[6]闭小梅,闭瑞华.KNN算法综述[J].科技创新导报,2009,(14).[7]奉国和,吴敬学.KNN分类算法改进研究进展[J].图书情报工作,2012,56(21).[8]甄志龙.文本分类中的特征选择方法研究[M].长春:吉林大学出版社,2016.[9]郑俊飞.文本分类特征选择与分类算法的改进[D].西安:西安电子科技大学,2012.[10]周庆平,谭长庆,王宏君,等.基于聚类改进的KNN文本分类算法[J].计算机应用研究.2016,33(11):3374-3377,3382.[11]刘述昌,张忠林.基于中心向量的多级分类KNN算法研究[J].计算机工程与科学,2017,39(9):1758-1764.[12]邱定,张激,王金华,等.基于Rocchio和KNN提出的新的文本分类技术[J].自动化与仪器仪表,2017(8):107-110.[13]肖斌,王锦阳,任启强.分布式KNN算法在微信公众号分类中的应用[J].计算机应用,2017,37(增刊1):295-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论