




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息内容安全:如何利用计算机从包含海量信息且迅速变化的网络中,对与特定安全主题相关信息进行自动地获取和分析的技术。2、 信息类型:文字、音频、图像/视频3、 内容安全的范畴:舆情监测;信息过滤;内容分级;信息隐藏4、 网络信息获取:(1)主动获取技术:通过向网络发出请求来获取信息,特点是接入方式简单,能够获取更广泛的信息内容,但会对网络造成额外的负担。 网络媒体信息获取网页具体形态:7、网页具体形态:7、 (1) 静态网页:页面内容事先由设计人员写好,内容是固定不变的;静态网页每个网页都有一个固定的URL,且网页URL以.htm、.html、等常见形式为后缀,而不含有“?”和参数;(2) 动态网页:页面内容由后台服务器根据对请求的处理结果自动生成,请求不同,生成的结果就不同;动态网页常见后缀,.php、.asp、.jsp等(3) 共同处:不论静态页面或动态页面,它们到达浏览器后的表现形式都一样,即HTML文档;判断:(1)动态网页的网页上有各种动画、滚动字幕等视觉效果。 (X)(2) 采用动态网页技术的网站可以实现更多的功能,如用户注册、用户登录、在线调查、用户管理、订单管理等等。 (Y)(3)采用Javascript脚本语言实现网页动态效果的页面是动态页面。(X)8、 媒体信息的特征表达:是将媒体信息表示成计算机能够高效计算的形式。9、 信息内容识别:是指以特征表达为基础,对信息内容进行识别、分类,确定其是否为所需要的目标内容,识别的准确度和速度是重要指标。分类:文字、音频、图像/视频。10、 搜索引擎:是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
www.teos£!y^orn搜索引擎功能组件:用户接口、搜索器、索引器、检索器四个部分组成。www.teos£!y^orn内容安全领域网络媒体信息与 搜索引擎技术相通、目标不同。詞臭直些-HTg或西,rfTTP/i.i詞臭直些-HTg或西,rfTTP/i.iHost:芸盧时花;bnp;/IretG.xBcon>a^如=hnp戋甫=newssinQ.顶求応奪:,URIEL?]初始向垄地址舞会 HTTP文本信息获取范例罔琵起勻■HTTPR宜HTTPjl.LUKtOICHTTP■有皮mg{空行】HTTPN底匀.电推hnp://nars.slna.cancnf11、网络媒体信息获取分类: (1) 全网信息获取:信息获取范围涉及整个国际互联网内所有网络媒体信息,保证信息全面性,耗时长,本地存储信息量大。 (2) 定点信息获取:信息获取范围限制在一定范围内,更加注重实效性。 (3) 基于主题的信息获取:面向某些特定话题,在信息获取过程中增加话题匹配环节,本地存储信息量小。 如何查看:缓存-查看cookie信息1 如何查看:缓存-查看cookie信息 • 需身份认证静态媒体发布信息获取基于Cookie • 需身份认证静态媒体发布信息获取基于Cookie机制实现认证 基于网络交互重构实现信息获取Cookie是您访问网站时该网站发送到您计算机中的小文件。 网站依靠Cookie来记住您的用户名密码等访问信息。网络媒依信息萩恥身份认证模撅39• 内嵌脚本语言片段的动态网页信息获取利用HTMLDOM树提取动态网页内的脚本语言片段基于Rhino实现JavaScript动态网页信息提取主環内杏竖収主環内杏竖収利用开源浏览器实现网络媒体信息获取。•基于浏览器模拟实现网络媒体信息获取MaScnpL丈车值息导出指勺堂互相,'昔膛门卫庫庠录说网Ki应也自动蛾,:网而接軌.徒摟呐巾.丄网热WiifiA证呸,I叫M发布俑志滿览視,晋械I言也点艳+■/-worv対给槐体信息曲版 13、 网络蜘蛛:是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 (1) 工作原理:网络爬虫是通过网页的链接地址来寻找网页,从网站某一个网页(通常是 首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找 下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。 (2) 分类:1)传统爬虫:从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 2)聚焦爬虫:需要根据一定的网页分析算法过滤与主题无关的链接,将有用的链接放入等 待抓取的URL队列,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。14、 网页搜索策略:(1)广度优先策略:在抓取过程中,在完成当前层次的搜索后,才进 行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一 般使用广度优先搜索方法。(2)深度优先策略 (3) 最佳优先方法:按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。15、跨站广告:Cookie,是网站在客户端上存放的一小块数据。他们都由某个域存放,只能被这个域访问。他们的区别其实并不是技术上的区别,而是使用方式上的区别。 一般,网站自身的Cookie被称为第一方Cookie,而来自他站的Cookie生成或者访问被称为第三方Cookie。而淘宝跨站广告的本质是第三方Cookie。16、 特征:指某一物质自身所具备的特殊性质,是区别于其他物质的基本征象和标志 一幅图像的特征:能够充分表达该幅图像所描述的内容,以区别于其他图像或其他不同 类型图像 计算机提取的图像特征:可计算、可高效计算 特征类型:颜色、纹理、形状、空间关系17、 特征描述一就是用一组数值(特征向量、空间点)或符号,即特征描述子(descriptor), 来表征图像、物体或图像局部区域等的某些特征。18、 应用:基于图像内容的检索;基于图像内容的分类;目标物分割;图像填补、修复;图像拼接 19、 数字图像的表示方法:灰度图像(256级颜色,uint8):每个像素可以是0〜255之间的任何一个值;二值图像(黑白两色,logical/boolean):图中的每个像素的像素值用1位存储,它的值只有“0”或者“1”。
存储量的计算:一幅640X480的灰度图像就需要占据的存储空间是? (300KB)答:640*480/1024=300KB一幅640X480的二值图像需要占据的存储空间是? (37.5KB)答:黑白图像只有两种颜色,每个像素点用一位二进制数就可以表示,一个字节的二进制数可以表示8个像素点,所以需要的总字节数就是640x480-8=3840020、彩色图像(RGB三通道,每通道256级颜色,三维数组,uint8)21、 图像空间距离:22、 颜色特征:(1)颜色矩:21、 图像空间距离:22、 颜色特征:(1)颜色矩:均登铢潅差*阳巳彩昼图憶等征ft亘;[riLr卩若.ULr寧一.爵吕,<>L-%,卜秘:-:L1l特征空间是240000维度,再来一幅,放缩到400*600,拉成向量,做比较可计算的,但计算效率高吗?平移不变吗?旋转不变吗?缩放不变吗?不是4=特壶维教低」具有-定的葢别方可以应对成蜂'尺度变化写,V靛珀节描述方39(2)颜色直方图:直方图是一个二维图,横坐标为图像中各个像素点的灰度级别,纵坐标表示具有各个灰度级别的像素在图像中出现的次数或概率。資直方图比较:a、卡方系数(值越小越相似):H1(D+H招)°ChiSqunreI"1jw2)=H1(D+H招)i-1b、 相关系数(绝对值越大越相似):心地应珀,冊)=-顽加血)%8仇〃",=拦匕]WH)-而)(W再),处1=帝f=J泌 盼Lc、直方图相交法(值越大越相似): 可册哈1風5i,也)=Z施町⑴)(3)颜色聚合矢量:23、纹理特征:(1)灰度共生矩阵:A) 方向:0°、45°、90°、135°B) 偏移量:待统计的元素距离C) 级数:当图像灰度值级数是N时,灰度共生矩阵为N*N的矩阵.
D) 灰度矩阵二频度矩阵/总频次E) 共生矩阵反应图像灰度分布关于方向、局部邻域和变化幅度的综合信息。F) 能量特征:是灰度共生矩阵元素值的平方和,反映了图像灰度分布均匀程度。如果共生矩阵的所有值均相等,则值小;相反,如果其中一些值大而其它值小,则值大。能量特征:R=£P(i,j)2,P(i,j)表示共生矩阵元素i,jG)若灰度共生矩阵值分布均匀,也即图像近于随机或噪声很大,嫡会有较大值。嫡是图像所具有的信息量的度量,是一个随机性的度量,当共生矩阵中所有元素有最大的随机性、空间共生矩阵中所有值几乎相等时,共生矩阵中元素分散分布时,嫡较大。它表示了图像中纹理的非均匀程度或复杂程度。3.对比度特征:2.墉特征:我=&次(5。9眄)讨4.共性特征:(2)LBP特征f/_yAl+li-;!L.J '对于每个像素,将其环形邻域内的8个点(也可以是环形邻域多个点.应用LBP算法的三个邻域示例所示)进行顺时针或逆时针的比较,如果中心像素值比该邻点大,则将邻点赋值为否则赋值为0,这样每个点都会获得一个8位二进制数(通常转换为十进制数)。旋转不变:比较8位二进制数排列中最小的可能。形状特征的性能往往取决于图像24、形状特征:形状特征相比颜色、纹理,鉴别力更高。形状特征的性能往往取决于图像分割和轮廓提取的效果。熵是图像所具有的信息量的度量即图像近于随机或噪声量,是一个随机性的度量,当共生矩阵中所有元素有最大的随机性、共生矩阵中所有值几乎相等时,共生矩阵中元素分散分布时,熵较大。表示了图像中纹理的非均匀程度或复杂程度。若灰度共生矩阵值分布均匀,熵会有较大值。(1)目标(轮廓)提取:熵是图像所具有的信息量的度量即图像近于随机或噪声量,是一个随机性的度量,当共生矩阵中所有元素有最大的随机性、共生矩阵中所有值几乎相等时,共生矩阵中元素分散分布时,熵较大。表示了图像中纹理的非均匀程度或复杂程度。若灰度共生矩阵值分布均匀,熵会有较大值。链码 >(起始点不变)旋转不变:差分码不变用罠吗至示结定目标的迅畀时,如果目标平秽,償码不会发生殳化,而如果目标旅转,则毎玛将会发生変化:反方題做2>-LH)J卜 AXW\A/vVVV3313303。用镣弱由1惭主分来重析构供1个序列[L个表示原儀吗各段之间方向変化的新序列),相当于把镯玛进2>-LH)J卜 AXW\A/vVVV3313303。,君1个有崗數瞄剧童边骨程蝗特启-頂註曲證生嗟it.怛耋白鹃笛有韭比(3R2Tf-L一叶叶*3wvvvwvD,君1个有崗數瞄剧童边骨程蝗特启-頂註曲證生嗟it.怛耋白鹃笛有韭比(3R2Tf-L一叶叶*3wvvvwv• 多边形近似:要用尽可能少的线段,来代表边界,并保持边界的基本形状1、 基于收缩的最小周长多边形法2、 基于聚合(merge)的最小均方差线段逼近法3、 基于分裂(split)的最小均方差线段逼近法:原始边界-〉按最大距离分割边界-〉连接
垂直点-〉最后的多边形(2)边界描述的形状特征•周长是边界的全局特征,指轮廓的周长。区域R的边界B是由R的所有边界点按4-方向或8-方向连接组成的,区域的其它点称为区域的内部点对于区域R而言,它的每1个边界点P都应满足2个条件:(DP本身属于区域R;(2)P的邻域中有象素不属于区域R如果区域R的内部点用8-方向连通来判断,贝IJ得到的边界为4-方向连通的,如果用4-方向连通来判断,则得到的边界为8-方向连通的3)目标区;(b)将内部点用4方向连通判断,则粉色区域点为内部点,其余绿色区域点构成4-方向连通边界,{。)方向连通来判断,则得到的边界为8-方向连通的3)目标区;(b)将内部点用4方向连通判断,则粉色区域点为内部点,其余绿色区域点构成4-方向连通边界,{。)将内部点用4-方向连通判断,则此时区域内部点和8-方向连通边界如囹©所示。区域的边界点和内部点要采用不同的连通性来定义,否则会出现歧义I|B||=#(k|(xk+]mi)f.^>P4(xk}+[k|(ik4.ieND(xt,yk)))gJ lt_L. 对■应2个象I'云由.中陌奎伯數艾R+]螂
^KttW財也个象素间直編段討应】个寂素摘对痢魏段如果边界用单位长链码表示,则水平和垂直码的个数加上”2乘以对角码的个数=》边界长度,将边界的所有点从0排到K-1(设边界点共K个),则边界长度计算式为:•形状数:1个边界的形状数是这些差分中其值最小的1个序列,也就是说,形状数是值最小的(链码)差分码每个形状数都有1个对应的阶(order),阶定义为:形状数序列的长度(即码的个数)。Order4Order6匸向Cheiincode-03Z10^32215h<f>eOrder4Order6匸向Cheiincode-03Z10^32215h<f>em.:"OMOmj寻咁缶u季>□mmimmOrder&形状数提供了1种有用的形状度量方法,对每个阶是唯一的,不随边界的旋转和尺度的变化而改变计算形状数步骤:1、 从所有满足给定阶要求的矩形中选取其长短轴比例最接近给定边界如图a的矩形,如图b所示2、 根据给定阶将选出的矩形划分为如图c所示的多个等边正方形(18阶)3、 求出与边界最吻合的多边形,如将面积的50%以上包在边界内的正方形划入内部得到d图4、 计算链码、差分码以及形状数:Chaincode:000030032232221211Difference:300031033013003130Shapeno.:000310330130031303对2个区域边界而言,它们之间形状上的相似性可借助它们的形状数进行描述:从小到大逐步计算两个边界的各阶形状数,并相互比较,直到找到最大阶的相等形状数,即2个区域边界之间的相似度用它们的最大公共形状数来衡量
(3)区域描述的形状特征1、区域面积:描述区域的大小,对属于区域的象素计数,面积公式为:(3)区域描述的形状特征1、区域面积:描述区域的大小,对属于区域的象素计数,面积公式为:A=E(x,y)eX=丄,XA_ (X,y)gR丄,y=厶yA,…(X,y)eR重心:区域重心一根据所有属于区域的点计算拓扑:对1个给定平面区域而言,区域内的rR
步孔数H和区域的连通成分C都是常用的拓扑性质,可进一步来定义欧拉数rR
步例如:A:1个孔,1个连通成分,欧拉数为0;B:2个孔,1个连通成分,欧拉数为-1B2•形状参数:根据区域的周长和区域的面积计算的:f=yL4nA区域为圆形时F为1,其它形状时,F>1,即当区域为圆时,F为最小。对数字图像而言,边界按4-连通计算,则对正八边形区域F最小。边界按8-连通计算,则对正菱形F最小。形状参数在一定程度上描述了区域的紧凑性,无量纲,对尺度变化不敏感,如果去除由于离散区域旋转带来的误差,它对旋转也不敏感。偏心度:区域的偏心度是区域形状的重要描述,度量偏心度常用的一种方法是采用区域主轴和辅轴的比。如图所示,即为A/B。图中, ~、主轴与辅轴相互垂直,且是两方向上的最长值。 二忑拓展:几种简单的几何矩:令平面上点坐标为P(x,y),重心为C(x!,y!),二阶行距:rowMoment=[ECx-x!)*(x-x!)]/A二阶列距:colMoment=[E(y-y!)*(y-y!)]/AA为点的个数。25、 SIFT:应用:物体识别、图像拼接、笔迹鉴定、三维建模26、 图像分割一一意义;基于分割后图像的描述更具区分力;分割后的图像是场景理解和基于场景理解的应用的基础;后续计算的复杂度将降低10倍;图像合成、影视制作、三维重建27、 分割所用基本线索灰度/颜色/纹理:判断像素(或超像素)、区域相似性统计模型(类簇、直方图、混合高斯):判断像素(或超像素)与统计模型的相似性。在已知前背景或分割目标区域的部分信息时,可对其建立统计模型(类簇、直方图、混合高斯),并依此计算未标记像素与各自统计模型之间的距离判断其标记。K-means:算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。步骤:1) 从n个数据对象任意选择k个对象作为初始聚类中心;2) 根据每个聚类对象的均值(中心对象),计算每个对象与中心对象的距离;并根据最小距离重新对相应对象进行划分;3) 重新计算每个(有变化)类簇均值(中心对象)
4)循环2)到3)直到每个聚类不再发生变化为止3.相邻像素(或超像素)之间的约束:相邻像素分割标记的一致性、相邻像素分割标记的梯度相关性 28、分割方法z*仅仅考虑了灰度(颜色/纹理)信息,忽略了相邻像素之间的约束(1)基于阈值的分割一一通过阈值对不同物体进行分割(物体与背景具有较强区别的图像分割有效)步骤:1、确定需要的分割阈值2、将分割阈值与象素值比较以划分象素阈值分割利用图像中要提取的目标物与其背景在灰度/颜色/纹理特性上的差异,选取一个合适的阈值,以确定图像中每个象素点应该属于目标还是背景区域,从而产生相应的二值图像(分别表示目标和背景)。灰度是主要使用的特性,后续以灰度特性为例则分割后的图像g(x,y),可由下式表示:或「IL设原始图像f(x,y),以一定的准则在f(x,y)则分割后的图像g(x,y),可由下式表示:或「IL另外,还可以将阈值设置为一个灰度范围[t1,t2],凡是灰度在范围内的象素都变为1,否则皆变为0,即 :ri9(XfV)=r其它半分割法:某种特殊情况下,高于阈值t的象素保持原灰度级,其它象素都变为0,称为半阈值法,分割后的图像可表示为:9啊=阈值t的选取是阈值分割技术得关键,若是暗背景上存在亮物体,如果t过高,则:过多的目标点被误归为背景;如果阈值过低,则会出现相反的情况阈值法,分割后的图像可表示为:9啊=• 阈值选取方法(1)双峰直方图阈值(全局阈值):如果灰度级直方图呈明显的双峰状,则选取两峰之间的谷底所对应的灰度级作为阈值。如何确定阈值:谷底所对应的灰度级作为阈值。1、 选取一个初值t2、 用t分割图像得到两组像素,C0是小于等于t的,C1大于t3、 计算C0和C1中像素的平均值u0和u14、 计算新阈值t=(u0+u1)/25、 迭代计算2~4,直至t的变化量小于某个预定值(2) Ostu阈值(全局阈值)移劫平均是按照,一幅图像的扫描行i二算。扫描県2字形模式逐行执行.令珏h波示步骤k+1扫捕序列中遇到的疙的灰度『这个新点处的移动平均其中,n表示由于计算移劫平均的点数.=n■由Ostu在1979年提出的最大类间方差法口该方法在类间方差最大的情况下能够得到最优的分割结果o最佳園值f-Ar^max的)类间方差/5任)-\尊T总方差勇5(贝-Q十叫(叫一尹庁认、像素被分到玖的概率懐素祁盼到1醐葬 %十听二1%M&*C]像素的平均灰度值Ar所有後素平均灰度值(3) 可变阈值(局部阈值)图像分块取阈值基于局部图像特性(依赖于图像局部的亮度均值和方差)移动平均(4) 用图像预处理改善阈值分割(2)基于区域的分割一一把各象素划归到各个物体或区域中区域生长(种子象素的选取常可借助具体问题的特点进行。)基本思想一根据预先定义的生长准则将像素或子区域组合为更大的区域的过程。每个区域包含具有相似性质的象素集合。关键步骤:(1) 选择或确定一组能正确代表所需区域的种子象素(2) 确定在生长过程中能将相邻象素包括进来的准则(3) 制定让生长过程停止的条件或规则(通常是再没有满足生长准则需要的象素时停止)'区域竺—生长准则的选取灰膨靛色相近D灰膨餵色变化-区域缆骨特性帽近(需犯圉像分成小区蟻)F薊色拒、直方囲、纹理捆述的差异Note:生长棗考虑象麦间的连通性和邹吾姻有时会出现无意义的分割结果11 5aW□HB□DS□HHgssss国T=1不考商一般生长过程,在进行到再没有满足生长准则需要的象素时停止,但常用的基于灰度、纹理、彩色的准则大都是基于图像中的局部性质,并没有充分考虑生长的“历史”。为增加区域生长的能力,常考虑一些尺寸、形状等图像和目标的全局性质有关准则,在这种情况下,需对分割结果建立一定的模型或辅以一定的先验知识釆用的利断准如,询黑所号虐的最覇与神于象鬻表度推差的制世小于蕖午门曜T.瓣格该盤香包鮑神子鑿费阳在的区域•区域分裂一合并方法基本思想:先从整幅图像开始通过不断分裂(四叉树结构),得到任意大小且不重叠的区域,然后再合并或分裂这些区域,以满足分割的要求。在合并时中,常根据图像的统计特性设定图像区域属性的一致性测度日叉树实现分裂合并皇归图鶴四叉樹实现分裂合并置R代去整个正方形囹悔区域,F日叉树实现分裂合并皇归图鶴四叉樹实现分裂合并置R代去整个正方形囹悔区域,F代為医域一戰性荆断淮财*風域皿开敕,IBR连签充裂成15末薑小的1V4的正方電于区域皿并的终,Pt叫-TRTER1加MR)-I 葛明律分成四尊好•如此圭推,白刑m为単十您去坝果丽许蛇用封履.燒后有可储出皿PiRJL珂区顶1:£.但局討Ri养矗有晴成一御加f翕.为解在任如t裂后,.允g■黄,只吉井R咨招•勃且会弄泗成的詰虎嫉瀆是一畋性推剧的医域工*,•葡里混浴是"FRiIW>=TRL-Lrt#Ei«lRj台井分裂合并算法步骤:对任一区域Ri,如果P(Ri)=FALSE,就将其分裂成不重叠的四等分对相邻的两个区域Ri和Rj(它们可以大小不同,即不在同一层),如果条件P(RiURj)=TRUE,就将它们合并如果进一步的分裂或合并都不可能,则结束分水岭分割(形态学)一一地形方法基于目标函数优化的分割一一通过优化目标函数实现分割定义目标函数,通过最优化目标函数实现分割。目标函数可包含像素信息或区域统计信息,以及相邻像素的光滑约束、边界的光滑约束、以及梯度约束。其他一一基于边缘的分割(难以生成连贯的目标物边界);基于机器学习的方法(受限于训练用的数据库,只能针对少数几种类型的目标物做分割)运动图像分割:差分方法:当前图像与固定背景图像之间的差分称为减背景法当前连续两幅图像(时间间隔At)之间的差分称为相邻帧差分法。(由于不同时刻风吹、光照变化、阴影等影响,通常难以得到干净的前景)光流方法:光流(opticalflow)是指图像亮度模式的表观(或视在)运动(apparentmotion)在光流场中,不同的物体会有不同的速度,这为具有不同速度的其它运动物体的分割提供了方便。(适合相对静止环境中的运动物体分割)(7)29、信息隐藏加密:对信息本身进行保护,但是信息的传递过程是暴露的伪装:掩盖信息存在的事实载体可以是任何一种多媒体数据,如音频、视频、图像、甚至文本、数据等被隐藏的信息也可以是任何形式(全部作为比特流)利用人类感知系统以及计算机处理系统的冗余30、实现信息隐藏的基本要求:载体对象是正常的,不会引起怀疑;对伪装对象的正常处理,不应破坏隐藏的信息31、信息隐藏的应用——数字水印水印:存在于纸张、纸币中,用于标识真伪数字水印:是永久镶嵌在数字作品中,具有可鉴别性的数字信号或模式,并且不影响数字作品的可用性数字水印作用:确定、鉴别作者的版权声明、追踪盗版、拷贝保护(1) 用于版权保护的数字水印:将版权所有者的信息,嵌入在要保护的数字多媒体作品中,从而防止其他团体对该作品宣称拥有版权(2) 用于盗版跟踪的数字指纹:同一个作品被不同用户买去,售出时不仅嵌入了版权所有者信息,而且还嵌入了购买者信息,如果市场上发现盗版,可以识别盗版者(3) 用于拷贝保护的数字水印:水印与作品的使用工具相结合(如软硬件播放器等),使得盗版的作品无法使用•数字水印三要素:水印本身(版权所有者、合法使用者等具体信息、图标);水印嵌入算法;水印检测算法水印嵌入模型水印提取模型(1)数字水印分类——从载体上分类图像水印图像是使用最多的一种多媒体数据,也是经常引起版权纠纷的一类载体•彩色/灰度图像,卡通,设计图,二值图像(徽标、文字),等视频水印保护视频产品和节目制作者的合法利益音频水印保护MP3、CD、广播电台的节目内容等文档水印 确定文档数据的所有者
(2) 数字水印分类一一从外观上分类可见水印(可察觉水印)其目的在于明确标识版权,防止非法的使用,降低了资料的商业价值不可见水印(不可察觉水印) 水印在视觉上不可见,目的是为了将来起诉非法使用者。不可见水印往往用在商业用的高质量图像上(3) 数字水印分类——从水印特性上分类 健壮性数字水印要求水印能够经受各种常用的操作,包括无意的或恶意的处理 只要载体信号没有被破坏到不可使用的程度,都应该能够检测出水印信息 脆弱性数字水印(完全脆弱性/半脆弱性) 要求水印对载体的变化很敏感,根据水印的状态来判断数据是否被篡改过 特点:载体数据经过很微小的处理后,水印就会被改变或毁掉主要用于完整性保护 与稳健性水印的要求相反 32、信息隐藏和水印算法举例 (1) 在文件格式中隐藏信息 图像文件都有一定的存贮格式 文件头主要描述图像文件的格式、文件大小、数据起始偏移地址、图像数据大小等关键信息 利用图像文件的这种特性,可以在图像文件中隐藏秘密数据 特点:Lena图像文件增加的字节数正好等于所添加文档的字节数; 文件头中文件长度域的值增加的幅度也刚好等于所添加文档的字节数; 使用Windows的画板程序可以将伪装后的Lena图像文件正常打开; 将图像另存为一个新文档后发现,所隐藏的文档数据完全丢失。 (2) 时域替换技术 任何多媒体信息,在数字化时,都会产生物理随机噪声,而人的感官系统对这些随机噪声是不敏感的 替换技术就是利用这个原理,试图用秘密信息比特替换掉随机噪声,以达到隐藏秘密信息的目的LSB顺序嵌入LSB随机嵌入 LSB方法的特点:把信息隐藏在载体的最不重要部分;简单,易实现,容量大;安全性不高,不能抵抗叠加噪声、有损压缩等破坏 (3) 变换域技术 在载体频域中隐藏信息,比LSB方法能够更好地抵抗攻击,而且还保持了对人类感观的不可察觉性 常用的变换域方法:离散余弦变换(DCT);离散小波变换(DWT);离散傅立叶变换(DFT)33、 33、全局特征:对整幅图像或者整个前景目标物进行描述的颜色、纹理、形状特征34、 34、局部特征:对图像或目标物局部进行描述的颜色、纹理、形状特征。(局部特征是图像 中有别于其周围的地方。局部特征通常是描述一块区域,使其能具有高可区分度) 35、局部特征和全局特征,哪一种对一类数据更具描述力呢?(局部特征!(计算复杂度高))
36、词级别特征和权重计算权重il算方式1:顷(t),Termfrequency(TF+词頻)单词t在文本d中出现的枚数.-个文本中,t词频越肝,山-能其在样本中的贡献越大。•权重计算方式以Inversedocumentfrequency(IOF)逆文档频率n岫)=1叫而n(£)idocumentfrequency^档频率,包含特征词i:的所有样木文档总数cn:文档总数。t的文档频率越低.IDFti越高,t的重要性越高。•权重计算方式3:TF-IDF"5=tfd(t)log^综合了上im两种特征权重的性质。1侦SQ)>00Otherwise权重计算方式4:1侦SQ)>00Otherwise"』代)=文本与图像基于词的表达的区别是什么?(词、词典、词的匹配) 图像词级别特征:图像中的词汇不像文本文档中的那样是现成的,需要首先从图像中提取出相互独立的视觉词汇。步骤:(1)特征检测和表示(SIFI特征);(2)单词本的生成;(3)利用单词表中的词汇表示图像(K-means算法)1•高维的特征空间:例如一份普通的文本在经过特征表示后,如果以词为特征,特征空间维数将达到几千,甚至几万。大多数分类算法都无法处理如此大的维数2.将每个词单独对待,词与词之间的上下文语义关系完全忽略37、特征选择特征选择是为了能够在保证分类性能的前提下,进行特征的筛选,以降低特征空间的维数。即对每类构造k个最有区别能力的term。对每类构造k个最有区别能力的term。特征选择方法:(1) 停用词过滤(StopWordElimination)(仅适用于文本)英语中的冠词、介词、连词、代词,汉语中的助词、虚词等,对分类没有贡献,可以滤除。停用词词表可以手工建立,也可以通过统计自动生成。自动生成:统计某一项特征项t在所有样本中出现的频率,例如出现特征项t的总的样本数,或者在所有样本中,特征项t出现的总次数。(2) 文档频率阈值法(DFT,DocumentFrequencyThreshold)文档频率阈值法:用于去除样本中出现频率较低的特征项。对于特征t,如果包含它的样本数n(t)小于某个阈值,则去除该特征。基本假设:稀少的词或者对于分类没有帮助,或者不会影响整体性能。优缺点:最简单的降低特征空间维数的方法稀少的词往往具有更多的信息,因此不宜用DF大幅度地删除词特征项频率-逆文本频率(TF-IDF,TermFrequency-InverseDocumentFrequency)TF-IDF考虑两项:出现次数较多的特征项对分类贡献较大;如果一个特征项在样本集中的大多数样本中出现,则该特征项对分类贡献不大,应该去除。H'!-’丿 n(t)――包含特征t的样本数;n-一所有样本总数信噪比(SNR,Signal-to-NoiseRatio)JSNR(signal-to-noise「atio,信噪比)■噪声Noise[f)=—/ r):七国5^.r.—,门,EWI hFrsn-i;ir-涂音的玄卓宜范目n方.所有祥车的个立『待跆均河会在名更有样土时.鼻音点数回遷大■特征t性第中在云卩样盆=E,骤有国労直垃b-話待征酢为唄戸的fW恍性,宀、SS牛(signal-to-nniiserati。,信噪比)SNRNoise=—>p(乩£)也[卩(乩匚)ShK(0=kigJjjCD-NoisefO特従項七以建右.新有土档丿样本=釣法数兰三该当棒征t春全新F样本上均匀出制芭时慢.耳耻gM特壅顼应T或也段y样左旷.車国壬煎高.信息增益(InformationGain)特征项t为整个分类所能提供的信息量,不考虑特征t的熵和考虑该特征后的熵的差值。定义C为从训练样本中随机选取单个样本时,其所属类别的随机变量。对于随机事件C,每次抽取到的样本,可能包含特征项t,也可能不包含,定义T为该随机变量。关于特征词t的信息增益:IG(t)=E(C)-E(C|T)=-^P(Q)fogjQ(cJ十(p(oY夙部)如戒闩|日+洲)£p怎冋叩口(iin]i i
X2统计量'X準计量■他统计量:度量两者(特征词和类别)独立性程度一’,'£)=(一’,'£)=(試+顷应+円乂】+占乂。+刁)龙趙大,独立性趙小,相关性趙大。若ADcBC,则t与亩由立€不JS于”体育L春锥包含“砌气ABAh-E不包含“砌"E€DC+D尊数A+CB-+DN38、基于词级别特征的分类实例介绍找出每篇新闻中的重要词(特征选择)“的、地、得”?“之乎者也”?实词?对每个词的重要性进行度量(特征权重计算)采用TF—IDF用上述方式为每篇新闻稿计算一个特征向量(Featurevector),利用向量相似度度量,例如夹角余弦,计算新闻稿相似度。..|A|.|c|分析:由于向量中每个变量都是正数,余弦取值为正余弦的取值范围:[0,1],向量夹角取值范围:[0,90]。余弦值等于1时,向量夹角为0 两条新闻完全相同;余弦值接近于1时 两条新闻相似可合并归为1类;(3)余弦值越小,夹角越大 两条新闻越不相关;(4)当两个向量正交时(90度),夹角余弦为零两条新闻没有相同的主题词。(3)余弦值越小,夹角越大 两条新闻越不相关;(4)当两个向量正交时(90度),夹角余弦为零两条新闻没有相同的主题词。合并实现分类: 计算所有新闻之间两两的余弦相似性,把相似性大于一个阈值的新闻合并成一个小类。如此,N篇新闻就被合并为N1个小类,N1<N;把每个小类中所有的新闻作为一个整体,计算小类的特征向量,再计算小类之间两两的余弦相似性,然后合并成大一点的小类,假如有N2个,N2<N1;不断重复,类别越来越少,每个类越来越大。直到满足迭代停止条件。(计算机自动执行以下Steps:1.对每一个新的新闻稿按前述方法计算一个特征向量;2.用该向量与聚类后的每个类向量做相似度计算;3.选择最相似的类向量所属类作为自己的类标签。)
39、特征重构(1) 词干(仅适用于文本)将词形变换后的词与其原形式合并为单个特征项词干处理对系统性能提高有限(2) 知识库(仅适用于文本)知识库从词义角度进行降维,合并同义词、近义词(3) 奇异值分解(SingularValueDecomposition,简称SVD)M=l,000,000,N=500,000o第i行,第j列的元素,是字典中第i个词在第j篇文章中出现的加权词频(比如,TF/IDF)o矩阵非常大,有五千亿个元素。(SVD,SingularValueDecomposition)'0.7。丄厂""笋腭词S.3I).瀉.三个更陣花非常淸命的劉理會义.eDecomposition)L01CU101.0
典皿WZZ林X:eDecomposition)L01CU101.0
典皿WZZ林心"1in口.驼ns?」二兵三?b坦博有非常港府的翳理會义.担布文牟分类的茎票,另一列表示一个掉蘋文点,鱼一行对应一个主理.何一列曲备十元素表示復列討应的文盘在不同主理曲相关性.如果邑一列都陳窗最大偵.苴彖的都改为攀,所会毎一程文衣都校唯一曲分到了一髡主理中,B:词的类和文章的类之间的相关性。40、 SVD降维过程(1) 将文档库表示成VSM模型的词-文档矩阵A,A是稀疏矩阵。(2) 利用奇异值分解SVD求A的只有r个正交因子的降秩矩阵。41、 分类方法(1)无监督学习一一聚类在一堆数据中寻找一种“自然分组”(k组)。我们希望同组(类别)的样本较为相似,而不同组的样本间有明显不同方法举例。
聚类方法:•层次聚类在无标注的样本集合中建立树状
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论