身份识别技术的发展趋势_第1页
身份识别技术的发展趋势_第2页
身份识别技术的发展趋势_第3页
身份识别技术的发展趋势_第4页
身份识别技术的发展趋势_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、身份识别技术的发展趋势目前随着电子商务和电子政务的发展,以及 GSM,CPRS,CDMA,WLAN 等无线移动通信技术与相应业务的发展,身份认证的理论和技术已经在不断成熟完善的基础上,出现了几个研究热点。 2.1图像口令技术 传统的口令认证技术主要是基于文本口令,大部分安全系统为了保证口令的安全性都会要求用户选择较长的复杂口令,这种文本口令提高了安全性但是由于难以记忆,输入不便,使得很多用户仍然使用弱口令。图像口令技术是用一组图像组成的集合代替文本字符集合,用户通过从图像集合中选择 P 个图像合成自己的口令。认证系统系统在认证时给出&

2、#160;T 个图像,用户从中选出自己生成口令时的 P 个图像。由于图像包括的信息远大于文本,很难实现自动字典攻击。而且这种口令很难记录也不易与人共享,增加了安全性。 该系统的安全性在于从 T 个图像中选取 P 个图像口令的组合数大小,为了提高安全性应使组合数 T!/(T-P)!P!尽量增加。 2.2 生物特征识别技术 以上传统的身份验证方式,都是基于。what you know。或者。what youhave。的验证手段,它只能说明用户具有登录

3、权限,并不能说明用户为非冒充者,直到生物识别技术的出现和越来越多的普及。比尔盖茨曾断言,生物识别技术将成为未来几年IT产业的重要革新。越来越多个人、企业乃至政府都承认,现有身份加密码或基于智能卡的身份识别系统远远不够,生物特征识别技术在未来的身份识别方面将占据不可或缺地位。 生物识别技术是通过提取人体的生物特征数据或行为的特征属性来进行身份认证的一种技术。生物特征是指人体独一无二的可通过测量得到,又能被用来利用的身体或者行为特征,它分为身体特征和行为特征两类。身体特征有:DNA结构、指纹、虹膜、视网膜、脸型、头发硬度等;行为特征有:音调、签名、行走步态等。生物识别技术的出现,为解决真

4、正意义上的身份验证提供了可能,江林升教授提出的在网络化考试中运用实时人脸识别技术对身份的验证,效果显著,但实现此类技术所需的硬件、网络带宽等要求较高,因而实现难度较大,普及也相对困难。 2.3 基于数据挖掘的身份识别 由于数据挖掘技术的出现,一种基于数据挖掘技术的身份识别技术应运而生了。它不必像生物识别技术那样需要个体的生物特征,而只需个体的行为特征,又克服了传统身份识别的单一性缺点。它通过挖掘人们的历史行为,得到人们的行为模式,再根据相应的预测算法,来鉴别身份的真实性。 目前较为火热的Web挖掘,不但可以为网站挖掘出具有价值的信息,也能为网站的安全提供

5、安全参考。基于数据挖掘技术的对异常数据的捕获、用户可信行为的分析等应用也不断成熟,已为验证用户身份真实性提供了可能3 一种基于数据挖掘的个人身份信息自动识别模型 本文提出的基于数据挖掘技术的个人身份信息自动识别模型,如图 1 所示。  该模型主要由基于正则表达式的信息匹配、文本预处理、权重计算和特征词降维以及机器学习四部分组成。其中基于正则表达式的信息匹配主要是便于快速地从电子邮件中匹配出包含有个人身份信息的电子邮件的模块; 文本预处理则是将非结构化的基于人类自然语言的文本转换为机器可识别的文本; 权重计算和特征降

6、维是对分出来的词进行一定的处理,以便进行机器学习; 机器学习则是对特征向量进行训练,最终形成个人身份信息识别模型。 3.1正则表达式 目前已经有很多用来匹配个人身份识别信息的算法,文献2提出了一种基于正则表达式的邮件类协议识别与跟踪的协议识别方法,通过提取协议应用的特征以及关键词,撰写相对应的正则表达式。正则表达式是一种用来查找一个串中是否含有某个子串,替换或者取出匹配的子串,是一种用于模式匹配和替换的工具,在Linux中应用广泛。Vi编辑器,Awk,Sendshell 等程序都是基于正则表达式。而且正则表达式已经超出语言和系统的局限,在计算机程序中应用

7、广泛,用户通过编写基于正则表达式的匹配模式,然后把这些匹配模式和一些数据,例如web数据输入进行比较,根据比较的结果执行相应的操作。正则表达式可用于字符串模式匹配和替换,最简单的模式就是一个所要查找的字符串。模式在处理文档工作中是非常普遍的,语句SELECT * FROM TABLE1 WHERE NAME=”TOM SMITH”中的字符串”TOM SMITH”就是一个简单的模式。实际应用中用户所要查询的是更为一般,更为通用的模式。合理地使用正则表达式进行数据库查询不仅可以降低查询语句的复杂程度,而且还能简化对出错语句的修改

8、工作。本文之所以采用正则表达式来进行个人身份信息的筛选,一方面因为它简单易用; 另一方面则是正则表达式所表现出来的匹配能力。 3.2特征词的抽取和降维 通过正则表达式匹配出来的电子邮件的主题和内容存储为文本形式的文档,由于所转化出来的文本文档都是非结构化的,不利于计算机自动分析处理,因此需要对文本进行一定的预处理。利用基于向量空间模型的方法来抽取特征词。其基本原理是把文档简化为以特征项的权重为分量的向量表示: ( W1,W2,Wn) ,其中Wi为第i个特征项的权重。权重采用归一化的相对词频,其计算方法运用TF-IDF公式: 

9、 其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,n为训练文本的总数,nt为训练文本集中出现t的文本数,分母为归一化因子。经过以上处理和计算后可以将文档库表示为m*n的词-文档矩阵(Term-Document Matrix):  公式( 2) 中,m为文档库中包含的所有不同词的个数; ij为由公式(1) 计算得到的W(t,d) 表示第i个词在第j个文档中出现的权重。不同的词对应矩阵A不同的一行,每个文档则对应矩阵A的一列。通过上述步骤生成的向量空间是一个高维向量空间,可以

10、达到几万维甚至几十万维。在这样一个高维特征空间上进行训练和分类存在一定的问题和困难,因此需要进行降维处理,把特征维数压缩到与训练样本个数相适应的地步。降维后可以删除噪音,避免过学习现象,提高分类效率和分类精度。本文中选用互信息特征选择方法,算法基本思想是,特征词t与类别C的互信息越大,说明特征t中包含的与类别有关的鉴别信息就越多。算法基本过程如下: 对于每个词,根据公式计算词和类别的互信息量:  其中:  其中,P(tCk)为t词在Ck中出现的比重,D为该类的训练文本数,N(t,dI) 表示dI中t的词频,V表示总的词数, 

11、 N tj,di Di=1𝑉𝑗=𝑖表示这个文本类中所有词的词频之和。P(t)表示词在所有训练文本中的比重。计算公式相同,但D的含义为全体训练的文本数。根据公式(3)计算结果将取值最大的前m个特征保留下来,实现降维。m值的确定一般采用先给定一个初始值,然后根据实验测试和统计结果逐渐调整最终确定最佳值。文本预处理后,每一个文本可以被表示为d=(w1,w2,wm),这样就将n个文本转化为m维的单位向量。 3.3机器学习 分类是数据挖掘和机器学习领域的一个主要任务。分类要解决的问题是将一个事件或对象归类,

12、其特点是先对不同类别加以定义,并由预先已分好类的样构成训练集,为每个类别作出准确的描述或建立分析模型或挖掘出分类规则,然后对其他数据库中的数据进行分类。用于分类分析的技术很多,典型的方法有统计方法的贝叶斯分类#机器学习的判定树归纳分类#神经网络的后向传播分类等。还有其他一些分类方法,包括K-最临近分类、遗传算法、粗糙集和模糊集方法以及支持向量机。本文所架构的个人身份信息识别模型是建立在分类技术基础之上的。具体来说,将个人身份识别看成是文本的分类问题,利用采用支持向量机和Lingpipe。 分类算法来实现。支持向量机是基于统计学习理论的机器学习技术,在解决小样本、非线性问题中表现出独特

13、优势,其遵循结构风险最小化原则,具有很强的学习能力和泛化性能,能够较好地解决小样本、高维数、非线性、局部极小等问题,可以有效地进行分类、回归、密度估计等。由于有这些优点,支持向量机已成为机器学习领域的研究热点。Lingpipe是由Alias公司开发的一款功能非常强大的自然语言处理软件包。其包括的模块主要有主题分类 (Top Classification) 、命名实体识别 ( Named Entity Recognition) 、词性标注 (Part-of Speech Tagging) 、句题检测 (Sentence Detection) 、查询拼写错误 (Query Spell Checking) 、兴趣短语检测 (Interesting Phrase Detection) 、聚类(Clustering)等。Lingpipe上展示的不仅仅只是一个工具包,而且可以 找到很多自然语言处理方面的信息,包括从基本的字符语言模型到语义层次的倾向性发掘等,从以往的研究到最新动向,都可以得到不少借鉴参考。此外,大多数的实验证明Lingpipe在大多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论