版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、知识水坝(豆丁网pologoogle)为您倾心整理(下载后双击删除)研发项目结题报告(上报集团版)项目名称及编号增值业务内容监测2010_lh_38主要研究单位及负责人(联系方式)其他研究单位及负责人(联系方式)是否集团重点(是/否)否是否联合项目(是/否)是项目经费(万元)200万项目起止时间 2010年 1 月 2010年 12 月专业类别数据业务研究类别其他关键词索引(35个)增值业务 文本监测 图片监测 视频监测该项目在研究单位内部的评审结果优秀该项目在研究单位内部的评审意见:描述评审专家组对该项目在技术先进性,创新性,取得的总体效益,可推广性等方面的评价。该项目所研究的增值业务内容监
2、测技术能实现对增值业务中内容的自动监测,具有较高的识别准确率,研究成果在国内处于领先水平;其研究成果可应用于不同的增值业务中(梦网短信、彩信、手机视频等),具体可结合各业务的处理逻辑及业务流程,形成不同的业务内容监测与管理方案,保证业务内容安全,并且有利于提升内容审核效率以及节约人力成本。该项目的研究成果属于基础性成果,可推广到许多增值业务中,具有较好的可推广性。项目的简介:简要描述该项目的目的和意义,解决的问题,取得的社会和经济效益等。目的:中国移动通信集团已在现网上开展了众多的自有及合作类数据增值业务,包括短信、彩信、手机视频等,该类业务中目前已经出现了一些色情、反动等内容,这些违规内容既
3、有个人用户的行为,也有sp为了商业利益的行为,违规内容引起了用户投诉以及相关监管部门的高度关注,严重损害公司形象,因此需要对短信、彩信、视频信息中的不良内容进行监管。目前尚没有实际有效的增值业务内容监管技术手段,因此迫切需要重点研究增值业务内容监测技术,对移动自有增值业务及梦网业务的业务内容进行有效监测,维护增值业务产业的健康发展。意义:本项目研究成果的应用,可达到对增值业务内容的监管,拦截色情、反动等不良内容,有效的净化移动增值业务的业务环境,减少社会不良影响。本项目可为未来公司建设移动增值业务内容监管系统形成核心技术支撑,并为进一步的新型网络媒体内容监管体系的建设完成必要的技术探索与积累。
4、解决问题:展开对于移动环境下的短文本、低分辨小图像、手机视频等对象的特征分析、主题提取以及内容分类技术的研究,从而突破移动环境下增值业务内容的主题提取与内容分类技术,有效提高其识别正确率并降低误判率,能初步满足移动增值业务的内容监管需求。本项目研究针对增值业务的内容监测技术,具体包括文本、图像及视频内容监测技术,项目研究成果能对增值业务内容实施有效监管,拦截色情、反动等不良内容,具体可应用于梦网短信、彩信、手机视频等业务,并能根据不同增值业务的业务处理逻辑及业务流程,形成不同的业务内容控制方案,确保各个增值业务的内容安全。社会和经济效益:本研究成果的应用,能实现“绿色”移动增值服务,促进移动增
5、值业务的健康快速发展,从而在维护社会稳定、保护用户身心健康、协助政府监管方面发挥巨大的作用。 本研究成果能推广到许多增值业务中,实现对不良增值业务内容的自动监测,能大大减少这些移动增值业务运营人员的工作量,为企业节约人力资源投入,从而带来较高的间接经济效益。针对不良内容的审核工作,应用本成果后,可以省去70%左右的人工审核工作量,相当于节约70%左右的审核时间,有利于节约人工成本,并保证内容的快速发布。对现有企业标准规范的符合度:列举该项目使用并符合的中国移动统一发布的企业标准的名称和编号,描述该项目成果在现有的企业标准基础上所需新增的功能要求(如业务流程的改变、设备新增的功能要求等)。中国移
6、动通信互联网短信网关接口协议多媒体信息业务mms总体技术要求流媒体及音视频下载业务平台总体技术要求该项目的专利情况:没有的话填“无”,有的话填写专利名称及申请号或授权号。专利“一种不良视频检测的系统和方法”,正在申请中。该项目研发存在的主要问题及今后的设想:主要问题:目前,增值业务内容监测各子系统的处理性能还有待提高,另外对外接口还不够丰富,将影响到对外部增值业务系统的接入及内容监测;样本库数目较少,特别是缺少反动、暴力等内容样本。今后设想:l 进一步开展对于增值业务中文本、图像及视频内容监测算法的研究,提高识别正确率,降低误判率;l 进一步扩充样本库;l 增加系统并行处理能力,从而提高系统的
7、处理效率;l 提供更为丰富的对外接口,增强系统的可扩展性,可支持更多外部系统的接入。项目研究成果的主体内容(3000字以上,可附在表格后):项目背景:随着现代移动通信技术快速发展,移动增值业务正广泛的进入人们日常生活中。众多移动多媒体信息业务如短信、彩信、手机视频等不断的被开发和应用于人们的工作和生活中,这些业务的应用直接改善了人们的生活,促进了社会的进步。并且随着移动互联网的崛起,在未来几年内移动增值业务的使用普及率和业务量都将出现跨越式的增长,但是一些不法分子也开始利用移动增值业务发布不良信息,其中色情信息、反动信息等危害极大。并且由于移动互联网和互联网具有媒体特征,和传统媒体相比,它更具
8、有开放性、广泛性、渗透性、互动性、主动性,这些特征导致了在移动互联网下色情、反动、违法等不良信息具有传播快,范围广、危害大、可控性差等特点。不良信息的存在给用户与运营商均带来了不少的烦恼:不良信息被犯罪分子利用来进行违法活动,破坏安定团结的政治局面;用户被不良信息恐吓、骚扰、欺诈;运营商由于用户错误的界定不良信息的来源而受到用户投诉,给运营商辛苦建立的良好声誉造成严重的影响。同时,不良消息的传播也危害了社会的和谐,对社会主义精神文明建设产生了很大冲击。传统互联网多媒体内容监管领域已有较好的技术及经验积累。但由于移动多媒体内容的一些特殊性,例如文本具有高离散型、图像属于低分辨率小尺寸图像,视频具
9、有低码率、高压缩等特点,要对这样的增值业务内容进行分类和识别具有特殊性,在现实中尚缺少有效的移动增值业务内容监管技术和体系。因此为控制不良信息的泛滥,迫切需要移动增值业务内容监管技术,用于快速的监控和拦截移动增值业务中存在的不良内容。实现方案:本项目针对目前增值业务的主要内容类型:文本、图片、视频进行内容监测方法的基础研究,形成在移动增值业务环境下有效的内容监测技术方案;探索将增值业务内容监测技术应用于梦网短信、彩信、手机视频等业务,能根据不同增值业务的业务处理逻辑及业务流程,形成不同的业务内容控制方案,确保各个增值业务的业务内容安全。具体实现方案如下:1、 文本内容监测l 文本内容监测技术研
10、究文本表示及特征提取文本的表示及其特征项的选取是文本识别的关键问题。通过将文本中选取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。短信文本分类处理流程如下图:(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理; (2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销; (3) 统计:词频统计,项(单词、
11、概念)与分类的相关概率; (4) 特征选取:从文档中抽取出反映文档主题的特征; (5) 分类器:分类器的训练; (6) 评价:分类器的测试结果分析。短信文本分类研究统计学习方法已经成为了文本分类领域绝对的主流,同时实际表现良好。因此本项目选择统计学习法中朴素贝叶斯算法进行短信业务内容的辅助识别。贝叶斯算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度 上 可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时,在训练阶段的主要任务就是估计这些值。
12、朴素贝叶斯算法公式: 设每个数据样本用一个n维特征向量来描述n个属性的值,即:x=x1,x2,xn,假定有m个类,分别用c1, c2,,cm表示。给定一个未知的数据样本x(即没有类标号),若朴素贝叶斯分类法将未知的样本x分配给类ci,则一定是 p(ci|x)p(cj|x) 1jm,ji 根据贝叶斯定理,由于p(x)对于所有类为常数,最大化后验概率p(ci|x)可转化为最大化先验概率p(x|ci)p(ci)。如果训练数据集有许多属性和元组,计算p(x|ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样 先验概率p(x1|ci),p(x2|ci),p(xn|ci)可以从训练数据集求得
13、。 根据此方法,对一个未知类别的样本x,可以先分别计算出x属于每一个类别ci的概率p(x|ci)p(ci),然后选择其中概率最大的类别作为其类别。 朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出。l 梦网短信业务内容监测系统技术框架针对梦网短信内容的监测,主要分为内容测试层、逻辑判断层、结果输出层三部分。内容测试层主要实现对自动拨测物理设备的管控,完成梦网短信业务内容的测试。逻辑判断层根据以上研究的文本内容监测技术以及知识库及判断规则,筛选出可能的违规业务。结果输出层主要实现测试结果的输出及预警。 内容测
14、试层梦网短信业务的拨测核心需要解决两个问题:一是实现点播、订购流程的匹配正确输出测试结果,二是解决同一sp的业务测试结果相互干扰的问题。具体处理流程如下:1、业务拨测调度逻辑拨测设备在测试同一sp的业务时,由于返回的短信端口号相同,因此很难进行业务内容的区分。为保证发送的指令和反馈的内容一致,需要设计较长的保护时间。这样不仅会影响拨测速度,而且容易产生同一sp间业务的交叉干扰。为解决此问题可采用如下测试方法:如拨测设备的端口数为n,则按顺序先测试第1家sp的第1-第n项业务,然后再测试第2家sp的第1-第n项业务,以此类推。确保同一端口测试同一sp间的业务间隔时间最大化。下图是以4端口设备的业
15、务调度示意:2、业务测试逻辑根据从sims系统导入的数据,实现业务信息的关键信息判断,确定最终的业务测试流程。 逻辑判断层由于合作伙伴内容违规主要有以下四类,通过收集合法与非法业务内容,建立训练集和违规规则知识库,提高违规辅助识别的准确率。违规类型违规原因违规内容判定特征训练集业务内容与申报不符sp违规开展业务下发内容与申报内容差异过大分类合法业务训练集进行内容违规诱导sp通过诱导用户多次点播和订购业务包含让用户回复数字、字母等垃圾短信训练集业务内容更新不及时sp未按约定及时进行内容采编sp下发内容长时间为同一内容与上次测试特征相符未及时提供服务sp服务系统故障业务订购/点播后,sp未及时下发
16、内容信息无下发消息非法内容sp发送黄色、广告信息等违法内容含有违规词汇垃圾短信训练集 结果输出层为确定违规内容的及时处理,采用web的方式输出异常的测结果,并通过短信方式进行提醒。方便管理人员及时登录系统,对疑似违规行为进行判定,暂停业务并通知sp整改。sp整改后,由系统再次进行自动验证,经管理人员核实后,完成违规处理。2、图像内容监测对图像内容分析采取两种检测技术来进行,既色情图像检测技术和样例检测技术。通过以上这两种技术可以对不良图片进行有效检测。色情图像检测技术色情内容检测技术就是对待检测的图像提取其颜色空间模型与预先训练好的色情内容模型进行比对,以发现色情内容。色情内容检测归属于图像目
17、标识别问题,它的难点主要在于:l 图片拍摄时候不同的光照条件对检测带来不同程度的影响。l 图像分辨率及质量对检测有很大影响。l 人体姿态的多样性,人体部分被衣物等遮挡以及图像可能只包含部分人体给检测带来难度。l 在不同的颜色空间中,肤色范围与其他物体颜色范围的重叠性给肤色检测增添难度。针对以上问题,我们采用如下技术进行色情检测: 改进多肤色模型色情检测是建立在图像中肤色域检测的基础上的,但是目前仅仅利用通用的肤色模型进行肤色检测并不能保证检测的准确性,我们提出了肤色模型的改进方法,以提高肤色检测的准确性。首先通过大量样本统计建立非参数化肤色直方图模型,然后通过高斯混合模型(gmm)建立参数化肤
18、色模型。为了使肤色模型适应光照条件的变化,我们采用二阶markov模型预测肤色直方图的变化,并通过将原模型参数和预测的参数进行线形组合实现均值向量和协方差矩阵的自适应,从而改进gmm模型。 进行区域级肤色检测当肤色域与背景颜色相近的时候,仅通过颜色信息很难将肤色域与背景分割开。因此,在孤立的肤色点检测的基础上,可以利用肤色点的位置信息进一步改进肤色检测的结果。通过提取如下低层特征并通过支持向量机分类器(svm)建立色情图像模型,包括整幅图象的平均肤色概率;肤色域内外的平均肤色概率;最大肤色域面积;最大肤色域的中心坐标;最大肤色域的二阶行距,二阶列矩和混合矩;拟和最大肤色域的椭圆的长轴,短轴,角
19、度和面积。同时拟建立基于特定身体部位的模型:为了进一步区别人体部分裸露图像和色情图像,对人体关键部位通过视觉关键词技术建立模型,从而避免人体部分裸露图像被大量误检为色情图像。 分级检测机制分级检测机制主要是为了提高色情图像检测的速度,拟按照如下分级方案检测色情图像:1.通过肤色点占整幅图像的比例做预过滤,这样可以过滤掉大量易检测的非色情图像。2.通过基于肤色域的色情图像模型检测1中被怀疑为色情的图像,进一步过滤非色情图像。3.通过基于特定身体部位的模型进一步检测经过步骤2后被怀疑为色情图像,作为最终判断。其样例检测技术图像样例检测最终归结为图像特征匹配的问题,为了抵抗各种针对图像画面的攻击,我
20、们提出基于视觉不变量特征的样例检测技术。 视觉不变量特征提取sift特征是目前最有代表性的视觉不变量特征,是一种图像局部特征描述算子。sift特征对于图像的尺度变化、仿射变化、光照变化、图旋转、噪声等都表现出较好的鲁棒性,因而能对发生几何形变、退化、受噪声干扰的图像局部特征进行准确的匹配。目前sift算法对每幅图像会检测成百上千的特征点,这严重影响了sift特征提取与匹配的速度;而且许多特征点来自背景区域,容易带来噪声信息,影响匹配精度,实际有用的sift特征点一般来自前景区域。为了解决上述问题,我们采用注意力模型对sift特征点进行过滤,有效去除背景特征点,提高图像匹配的精度和速度。基于注意
21、力模型的sift特征点过滤方法的流程是:首先采用sift算法得到全部特征点,然后采用注意力模型得到显著区域,最后基于显著区域信息进行特征点过滤。 建立高维数据索引为了提高sift视觉不变量特征的匹配速度,我们采用r*树高维索引结构来表示sift视觉不变量特征。在这种高维索引结构的支持了,能够实现大容量样例的快速匹配。 分级匹配策略为了进一步提高图像特征的匹配速度,在保证准确度的前提下,我们采用分级匹配策略:第一级用全局的颜色特征进行粗匹配,第二级采用sift视觉不变量特征进行精细匹配。利用分级匹配策略,可以显著加快匹配速度,并且可以容忍各种常见的画面攻击方式。图像监测流程 已知图像监测流程1.
22、 系统在进行初始化时,先产生特征值比对结构;2. 系统不断的读取已知图像库中的图像,根据特征值提取算法,将图像的特征值提取出来;3. 在提取出特征值后,将特征值存入特征值比对结构中;4. 当系统接收到待监控的图像时,采用同样的特征值提取算法,将待监控图像的特征值提取出来;5. 系统将此特征值送入特征值比对结构中进行比对;6. 如命中特征值,就会得知此图像是否为垃圾图像,如果该图像具有垃圾属性则被监管,否则将准确认定其为正常图像; 未知图像监测流程1. 系统在进行初始化时,先产生图像识别结构;2. 系统不断的读取训练样本库中的图像,根据智能分析算法,将训练结果存入图像识别结构中;3. 在进行图像
23、识别时,只需将图像送入图像识别结构中,即可提出此图像的可疑度,可根据配置,将可疑度超过指定门限的图像加入到疑似库中;4. 在进行人工仲裁时,首先由管理员将指定疑似图像查询出来,然后进行人工仲裁,以确定此图像最终的类别;5. 当判断为垃圾图像后,可将此图像加入到已知图像库垃圾图像中;6. 经仲裁后,无论是非法图像还是正常图像,都可以将此图像加入到训练样本库中,然后使其进行反馈学习,从而不断提高智能分析的准确度。不良彩信监控系统基于本项目研究的图像监测技术,实现了一套不良彩信监控系统,它能够实现自动接收下发的审计策略,对彩信数据进行实时审计,对有害彩信进行智能分类,上报审计日志。管理服务器负责审计
24、策略下发、数据收集与查询,同时对收集的数据进行统计与分析。不良彩信监控系统详细的功能描述如下:3、视频内容监测基于图像的视频内容监测技术基于图像的视频内容监测技术是基于色情图像监测算法(根据对色情图片的分析,包括皮肤区域的暴露程度、人脸识别、特征区域及形状作为重要的判定信息),结合视频的时域特征进行设计的。首先,在离线的状态下,对已有视频库中的视频进行结构化分析,拆分提取视频关键帧,通过关键帧的帧间信息分析从而完成对镜头的分割。根据对镜头间的关联性分析,特别是背景的相似性分析,获得对视频场景的分割,最终通过结构化分析汇总得到视频结构树信息。在每一层分析时,完成对该层的建模,为分析决策提供依据。
25、在实时检测时,同样对输入视频进行拆帧、镜头分割、场景提取和结构化操作,并将获得的结果分别与相应层的模型进行分析决策,并按照结构粒度从小到大的优先顺序提交决策结果,从而保证决策的精度和实时性。视频拷贝检测技术对于反动、暴力类视频采用视频拷贝检测算法,基于内容的视频拷贝检测是根据视频自身的内容信息,通过测量从参考视频和测试视频中提取的唯一标识视频内容的特征序列之间的距离值来判断测试视频是否是参考视频的一个拷贝,容许适度的信号特征畸变,例如图像尺寸与清晰度变化,帧率变化等。一般来说,基于内容的视频拷贝检测主要包括三个过程:镜头分割、关键帧提取、特征值比较。该技术需要建立不良视频特征库,其过程如下:
26、视频关键帧的抽取。对视频每隔单位时间进行一次关键帧的抽取,并记录下相应的时间轴信息。 关键帧的特征向量形成。将每一关键帧等分成4*4块,对每一块分别计算其平均亮度特征,然后计算相邻块之间的灰度排序特征。通过结合关键帧的时间轴信息,就能得到每一关键帧的十七维特征向量信息。 不良视频库到不良特征库的映射。对每个不良视频,通过哈希映射,将其所有的关键帧的特征信息写入到一个对应的.feature文件中,这样就形成了从不良视频库到不良特征库的一一映射。视频内容监测基本流程(1)建立不良内容视频库,根据内容不同分类为色情视频库,反动视频库,暴力视频库。(2)对需要识别的视频先进行拷贝检测,看不良视频库中是
27、否有和该视频相似的副本。若有则直接返回该不良视频库的类别,作为待识别视频的识别结果。(3)若拷贝检测没有发现待识别视频的副本,则再根据色情视频识别算法对该视频进行识别。最终得出最后识别结果。由以上介绍的方法得出的判定结果较之于传统方法而言,存在两大优势:准确率高。以往的识别技术对色情视频一方面单纯用肤色检测来判定视频的色情程度,语义性较差,分割出的结果误差大。另一方面对整个不良视频识别上,此方法的扩展性很强,针对于新出现的不良视频(包括暴力,反动)或色情视频识别算法漏检的视频,可以把其加入到不良视频库中去,使得整个算法的准确性不断提高。手机视频内容离线监测系统基于本项目研究的视频监测技术,实现
28、了一套手机视频内容离线监控系统,通过接入参数配置方式,它能够访问手机视频内容库,实现对内容库中的内容进行自动监测,并对不良视频内容进行分类,提供监测信息统计及告警功能。另外,还提供视频分类训练功能,用于建立不良视频特征库。解决的问题:l 文本监测技术重点研究文本表示及其特征选取、基于朴素贝叶斯算法的分类,能有效提高对于短信息类的文本内容的监测准确率。l 图像监测技术采用色情检测技术和样例检测技术,包括改进多肤色模型,区域级肤色检测,分级检测机制以及视觉不变量特征,分级匹配策略等,能在图像尺寸与清晰度变化的情况下,仍能保证图像监测准确率。l 视频监测技术在充分考虑传统的基于图像内容识别的视频内容
29、识别方法的基础上,引入了不良视频拷贝检测技术。通过综合两方面检测结果,不仅可改善视频内容识别系统的检测性能,同时提高了系统的检测准确性。l 基于本项目所研究技术实现的梦网短信业务内容监测系统、不良彩信监控系统以及手机视频内容离线监控系统,能有效的实现对于文本、图像以及视频内容的监测,本项目研究成果还能应用到其他各个增值业务的内容监测中。社会和经济效益:增值业务内容监管技术的应用,能实现“绿色”移动多媒体服务,促进移动增值业务的健康快速发展,从而在维护社会稳定、保护用户身心健康、协助政府监管方面发挥巨大的作用。本研究成果能推广到许多增值业务中,实现对不良增值业务内容的自动监测,能大大减少这些移动增值业务运营人员的工作量,为企业节约人力资源投入,从而带来较高的间接经济效益。针对不良内容的审核工作,应用本成果后,可以省去70%左右的人工审核工作量,相当于节约70%左右的审核时间,有利于节约人工成本,并保证内容的快速发布。具体应用效果:四川公司建设梦网业务内容监测系统后,使得梦网短信业务的拨测速度达到每小时500项。同时,大大降低需要人工审核的任务量,使得针对梦网短信息业务的全量拨测的周期从
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年新疆石河子大学附属中医医院招聘考试真题
- 2023年盛京银行股份有限公司社会招聘考试真题
- 2024年地铁线路工程地质勘察合同
- 2024年城市轨道交通运营安全检测合同
- 2024年会展活动保安服务合同
- 2024年实习生岗位协议
- 2024年企业碳交易市场参与与碳排放管理合同
- 2024年严驰郑黛关于共享经济平台建设的合作协议
- 04年智能制造设备采购合同
- 跑马灯电路的课程设计
- 二年级特色作业
- 宾馆酒店标准化-安全管理人员任命书
- 药房药品养护记录表
- 义务教育英语课程标准2022年英文版
- 中印边境争议地区
- htr-pm通风空调系统核电站hvac简介
- 工业园区企业环境风险和安全隐患排查情况表优质资料
- 土力学习题集及详细解答
- 临床微生物学检验-实验系列肠杆菌科的微生物检验
- GB/T 22844-2009配套床上用品
- GB/T 14683-2017硅酮和改性硅酮建筑密封胶
评论
0/150
提交评论