


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1内容安全概念模型2 Jaccard系数的缺陷,tf-idf要考虑哪些因素3 产生式与判别式的区别4索引的建立,倒排索引5检索评价指标计算6 极大似然估计,使用加1平滑答案:1. 信息安全的框架包括内容安全(信息利用的安全)、数据安全(信息自身的安全)、运行安全(信息系统的安全)、物理安全(信息系统的安全)。如图所示:内容安全涉及的是对流动的数据进行限制,包括可以对指定的数据进行选择性的阻断、修改、转发等特定的行为以及信息对抗,即针对信息中的信息熵而进行的隐藏、掩盖,或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。2.
2、 Jaccard系数的缺陷:(1)不考虑词项频率,即词项在文档中的出现次数;(2)罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息;(3)没有仔细考虑文档的长度因素。tf-idf要考虑的因素:(1)词项频率,即词t在文档d中出现的次数;(2)文档频率,指出现词项t的文档数。(3)归一化向量3.判别式模型( discriminative model )产生式模型( generative model ) 特点寻找不同类别之间的最优分类面,反映的是异类数据之间的差异对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度区别 ( 假定输入 x,类别标签 y)估计的是
3、条件概率分布 (conditional distribution) : P(y|x)估计的是联合概率分布( joint probability distribution: P(x, y),联系由产生式模型可以得到判别式模型,但由判别式模型得不到产生式模型。 常见模型 logistic regression SVMs traditional neural networks Nearest neighborGaussians, Naive Bayes Mixtures of Gaussians, Mixtures of experts, HMMsSigmoidal belief networks,
4、 Bayesian networks Markov random fields 优点1 )分类边界更灵活,比使用纯概率方法或产生式模型更高级;2 )能清晰的分辨出多类或某一类与其他类之间的差异特征;3 )在聚类、 viewpoint changes, partial occlusion and scale variations 中的效果较好;4 )适用于较多类别的识别;5 )判别模型的性能比产生式模型要简单,比较容易学习。1 )实际上带的信息要比判别模型丰富;2 )研究单类问题比判别模型灵活性强;3 )模型可以通过增量学习得到;4 )能用于数据不完整( missing data)情况。 缺点1
5、 )不能反映训练数据本身的特性。能力有限,可以告诉你的是 1 还是 2,但没有办法把整个场景描述出来;2 ) Lack elegance of generative: Priors, 结构 , 不确定性; 3 ) Alternative notions of penalty functions, regularization, 核函数; 4 )黑盒操作 : 变量间的关系不清楚,不可视。1) Tend to produce a significant number of false positives. This is particularly true for object classes w
6、hich share a high visual similarity such as horses and cows; 2) 学习和计算过程比较复杂。 性能较好(性能比生成模型稍好些,因为利用了训练数据的类别标识信息,缺点是不能反映训练数据本身的特性)较差 主要应用Image and document classificationBiosequence analysisTime series predictionNLPMedical Diagnosis4. 设有两个文档D1,D2其文本内容分别如下:D1=abfcdgecfcdeagD2=dacfggfcbbaafc对文档D1,D2建立倒排索
7、引,并写出倒排索引结构。用伪代码写出上述建立倒排索引的建立过程。给定查询Q=fc如果采用向量u 空间模型检索,请写出检索过程。(3)对于查询Q:(<f, 1>, <c, 1>)文档D1:(<a, 2>, <b, 1> <c, 3>, <d, 2>, <e, 2>, <f, 2>, <g, 2>)文档D2:(<a, 3>, <b, 2> <c, 3>, <d, 1>, <e, 0>, <f, 3>, <g, 2>)所以可得到,文档向量为D1: D2: Q:查询文档相似度计算:采用内积计算:文档D1和Q的内积:3*1 + 2*1 = 5;文档D2和Q的内积:3*1 +
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《第一单元 体验图形化编程 第8课 时钟转动巧设计》教学设计-2024-2025学年泰山版信息技术五年级上册
- 委托调查财产协议
- 五年级数学(小数四则混合运算)计算题专项练习及答案汇编
- 灌浆料生产资质
- 农资返利合同范本
- 2025年学校安全管理工作总结
- 少普小学法治教育工作总结
- 保险汽车维修合同范例
- 合作单位合同范本
- 公司个人股合同范本
- 车装钻机 编制说明
- 2024中央空调销售及安装合同【范本】
- 音乐节组织与执行流程指南
- 2025年护理部工作计划
- 【计划】2025年度合规管理工作计划
- 中国咳嗽基层诊疗与管理指南(2024年)解读
- 三好学生竞选17
- 【美的集团公司内部审计存在的问题及对策研究(11000字论文)】
- 2023年注册土木工程师(水利水电工程)历年真题及答案
- 护士进修申请表
- 新版人音版小学音乐一年级下册全册教案
评论
0/150
提交评论