




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.240
CCSL67
YD
中华人民共和国通信行业标准
YD/T[×××××]—[××××]
[代替YD/T]
移动互联网不良信息管控系统开放平台
总体技术要求
TotaltechnicalrequirementsforopenplatformofInternet-orientedharmful
informationcontrolsystems
[点击此处添加与国际标准一致性程度的标识]
(报批稿)
[点击此处添加本稿完成日期]
[××××]-[××]-[××]发布[××××]-[××]-[××]实施
中华人民共和国工业和信息化部发布
YD/T×××××—××××
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起
草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本文件由中国通信标准化协会提出并归口。
本文件起草单位:中国移动通信集团公司,中国电信集团公司,中国联合网络通信集团有限公司。
本文件主要起草人:程宝平雷珺谢小燕张彪余红芳盛博文崔鲁光黄敏峰张华费硕成吴
楠王煜炜。
2
YD/T×××××—××××
移动互联网不良信息管控系统开放平台总体技术要求
1范围
本文件规定了互联网不良信息的定义和分类,不良信息管控系统的架构要求、功能要求、技术要求
和信息处理流程要求等。
本文件适用于接入不良信息管控系统开放平台的研发、设计、运维等使用场景。
2规范性引用文件
本文件无规范性引用文件。
3术语和定义
本文件没有需要界定的术语和定义。
4缩略语
URL统一资源定位符,也被称为网页地址(UniformResourceLocator)
OCR光学字符识别(OpticalCharacterRecognition)
5互联网不良信息类型分类
5.1概述
不良信息的形式多种多样,有多种传输渠道,广泛存在于即时通信、企业OA、邮箱系统、微博、论
坛等应用中,依据涉及方面有涉政、涉黄、暴恐、广告四大类,根据内容类型来分有文本、图片、音频、
视频、文件和URL六大类。
5.2不良信息涉及话题
5.2.1涉政类信息
涉政类信息包括但不限于如下内容:
⚫反对宪法所确定的基本原则的;
⚫危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的;
⚫损害国家荣誉和利益的;
⚫煽动民族仇恨、民族歧视,破坏民族团结的;
3
YD/T×××××—××××
⚫破坏国家宗教政策,宣扬邪教和封建迷信的;
⚫散布谣言,扰乱社会秩序,破坏社会稳定的。
5.2.2涉黄类信息
涉黄类信息指直接表现性器官、性行为的互联网内容,包括但不限于以下几类:
⚫直接暴露人体性器官;
⚫表现性行为的动作、姿态等;
⚫暴露低俗、带有性暗示、性挑逗或者隐讳展现性行为、性过程的内容。
5.2.3暴恐类信息
暴恐类信息包括但不限于如下内容:
a)展现血腥、惊悚、残忍等致人身心不适的;
b)出现持有管制刀具、枪支、火箭炮等枪械人员;
c)出现参与作战危险车辆皮卡改装车(车上安装枪支)、坦克、飞机(战斗机);
d)以暴力手段危害公共财产的人员;
e)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动的,包括但不限于:
⚫出现恐怖分子头目、政治敏感人物;
⚫出现大量人员游行、斗殴、焚烧车辆及建筑物等;
⚫出现恐怖分子标志、犯罪分子电视台台标、以及国旗等;
⚫含有煽动“圣战”“伊吉拉特”等宗教极端;
5.2.4广告类信息
广告类信息包括但不限于如下内容:
⚫房地产类广告信息,包含对楼盘、商铺、个人住房进行销售、租赁、求租、求购、招商、介绍
宣传的;
⚫金融类广告信息,包含银行、证券、保险、贷款或者相关金融产品的关键字,有经营范围(含
产品介绍、产品名称、公司名称、推广活动等),兼备具有优惠介绍、联系方式、地址、促销
宣传意图其中任一项的信息;
⚫促销推销类广告信息,包含商场促销、商品推销、教育培训宣传、企业咨询的信息,如:买卖
商品、商户开业、教育培训、招生招聘、各类讲座等。
5.3不良信息内容类型
5.3.1文本类
文本类信息是指在数据交互过程中以文本形式传输的信息。
文本是最常用的数据交互类型,可以有效快速地传播不良信息,具有占用空间小、传输速度快、传
播成本低、应用场景多等特点,是不良信息管控的重点。
5.3.2图片类
图片类信息是指在数据交互过程中以图片形式传输的信息。
图片类信息提供可视化内容,在极大提高了互联网用户体验的同时,也成了涉政、涉黄、暴恐等不
良信息的有效载体。
5.3.3音频类
音频类信息是指在数据交互过程中以音频或语音形式传输的信息。
4
YD/T×××××—××××
随着网络的高速发展,音频的数据交互越来越多地应用到了各个领域,即时聊天应用使用最为广泛,
使用门槛低,面向人群丰富,不良信息扩散快速便捷。
5.3.4视频类
视频类信息是指在数据交互过程中以视频形式传输的信息。
视频类是信息内容丰富的数据交互形式,应用场景广泛,传播不良信息量级大,多媒体终端设备的
普及使得视频传播途径丰富,同时加剧了视频内容监控的难度。
5.3.5文件类
文件类信息是指在数据交互过程中以文件形式传输的信息,包括但不限于office、wps文件、html、
xml、chm、txt文件,及rar、zip、tar.gz等压缩类型的文件。
文件类一般应用于网盘等网络存储领域,占用空间比较大,扫描识别判定难度较大、时间较长,存
储并传播不良信息的数量级较大。
5.3.6URL类
URL类信息是指在数据交互过程中包含了URL信息,通过解析URL可获得网址中的文本、图片和视
频等内容。
6移动互联网不良信息管控系统构建原则及架构要求
6.1构建原则
为节约人力审核成本并考虑到人工智能技术在图像、视频和语音领域的应用已较为成熟,移动互联
网不良信息管控系统建议采取以“算法审核为主、人工审核为辅”的原则,依托人工智能算法实现不良
信息的分类、过滤和处理,针对算法无法判断的消息内容,交由人工进行进一步多轮审核判断。
6.2系统架构
移动互联网不良信息管控流程图如图1所示,不良信息管控系统架构如图2所示。业务消息进入不
良信息管控系统后,首先进入算法审核模块进行审核。对于算法审核模块可判断的消息,将判断为违规
或者合规的结果返回给业务系统。对于算法审核模块无法判断的消息,送往人工审核模块,由人工判断
审核结果,再返回给业务系统。
对于所有通过线上审核系统的消息数据进行存储,用于线下的算法模型优化和数据分析优化。优
化后的算法可提高线上场景的审核准确率。
5
YD/T×××××—××××
APP/任意终端业务平台APP/任意终端
业务消息审核反馈
不良信息管控系统
图1移动互联网不良信息管控流程图
图2不良信息管控系统架构图
不良信息管控系统架构的逻辑应为,让算法承担尽量多的审核工作,减少人工工作量。因此消息先
过算法审核,只有在算法不能判断的情况下,才送往人工审核。此外,还应建立线上-线下的循环反馈
机制,通过收集线上数据进行算法优化,不断完善算法,达到算法可承担越来越多审核工作的目的。
6
YD/T×××××—××××
6.3不良信息管控系统的主要功能划分
不良信息管控系统应具备基本的不良信息治理能力,包括对文本、图片、音频、视频、文件和URL
等信息内容进行鉴别,通过算法识别其中涉黄、涉政、暴恐和广告等内容,在算法审核的预处理子模块
中,可结合规则策略匹配等辅助算法进行综合的内容管控。对于算法无法直接确定的内容,送往人工审
核进行判断。其具体功能划分如图2所示,可分为四层:消息接入层、算法审核层、人工审核层和大数
据分析训练层。
6.3.1消息接入层
消息接入层接收来自业务系统的信息,通过数据解析将信息中的数据内容提取出来,供算法审核过
滤。其主要功能应包括消息的解析与转发控制。其中消息的解析应包含对协议的解析、富媒体文件下载
和网址类消息的爬取解析,以保证各类消息的数据内容都能被提取出来。此后,应有消息转发控制机制
将解析后的消息内容转发到算法服务器上,且保证各服务器负载均衡。该层的结构如图3所示。
消息接入层
不协议解析
良
信
息
富媒体文件下载网页爬取解析
管
控
系
消息转发控制
统
图3消息接入层结构图
消息接入中,应包含下列信息:
⚫消息ID;
⚫业务类型;
⚫内容类型,表明该消息是图片、视频、音频、文本、文件或URL中的哪一种;
⚫内容,及需要审核的富媒体消息内容;
⚫业务时间;
⚫是否送人工审核。
6.3.2算法审核层
算法审核层是不良信息管控系统的核心模块,从消息接入层获得待处理的信息数据,经过算法识别,
初步判断出消息的危险程度,以及是否有可传播度。算法审核层应包含预处理和人工智能算法两个基本
子模块。
其中预处理子模块应包含功能:1)可将复杂消息按需拆分为多个单位消息(以图片、视频、文本
或音频消息为单位);2)可根据5.3中提到的辅助算法,配置简单的策略对该消息进行初步审核过滤。
人工智能算法是算法的核心部分,实现对图片、视频、音频和文本等进行违规内容识别。所采用的
人工智能算法应达到一定的识别精度,能对消息内容进行准确分类。该层的结构如图4所示。
7
YD/T×××××—××××
算法审核层
不
良
预处理
信
息
管
人工智能算法
控
系
统
图4算法审核层结构图
6.3.3人工审核层
人工审核层针对算法审核未能得出确切结论的消息数据,通过人工校验判别的方法来进一步鉴权
消息。人工审核人员应具备不良信息的审核经验,对于不良信息的判定有较专业的认识。一般建议人工
审核层包含多轮的人工审核流程,如人工初审、人工复核和人工处置等,其中人工复核为经过人工初审
之后,由另外一批审核人员校验初审的结果。人工处置对消息作出最终的判断,输出审核结果。该层的
结构如图5所示。
人工审核层
算法未识别消息算法误判投诉
不
良
信
人工初审
息
管
控人工复核
系
统
人工处置
图5人工审核层结构图
6.3.4大数据分析训练层
大数据分析训练层根据线上不良信息管控系统不断过滤累积的消息数据,来优化算法模型。通过这
一层可以针对线上问题进行算法优化,提高不良信息管控系统的管控能力。该层的结构如图6所示。:
8
YD/T×××××—××××
大数据分析训练层
不数据存储
良
信
大数据训练分析
息
管
控
系
算法模型优化大数据分析优化
统
图6大数据分析训练层结构图
7移动互联网不良信息管控系统信息处理流程要求
7.1审核算法处理流程的要求
不良信息管控系统审核算法包括但不限于涉政识别、涉黄识别、暴恐识别和广告识别等,实际中
根据业务需求及硬件资源条件可对这些识别算法进行排列组合。
各识别单元并行处理逻辑简单,响应速度快,但会占用较多硬件资源;串行处理则需要考虑各识
别单元的优先级及前后衔接逻辑。按审核需求优先级由高到低串联,如对涉政要求较高的业务,一般最
先过涉政识别,其次过涉黄、暴恐和广告等其他识别算法,这种处理方式响应速度比并行处理慢,但硬
件资源占用较少;此外,还可根据实际需要并行与串行混合使用。
图7和图8分别是识别单元并行处理与串行处理的流程图。
在并行处理流程中,消息内容同时送入各个识别单元,各单元同时进行算法识别推断,只要其中
有一个单元判断结果为违规,则该消息被判为违规,审核结束。
在串行处理流程中,消息依次过各个识别单元,只要在某一个识别单元中消息被判为违规,则跳
过后续识别单元,输出审核结果,审核结束。
算法审核
预处理涉政识别人工审核
涉黄识别
暴恐识别
......
图7识别单元并行处理流程
9
YD/T×××××—××××
算法审核
违规
预处理涉政识别涉黄识别涉黄识别涉黄识别人工审核
图8识别单元串行处理流程
7.2消息处理流程的要求
移动互联网图片/视频/音频/文本/文件/URL类消息处理流程如图9所示。
对于图片、视频、音频、文本、文件和URL类消息,其基本处理流程相同,经过预处理和人工智能
算法之后,根据需要送往人工审核。
对于不同类别的消息,具体的预处理方式应有所不同,分为三种。
第一种为通用方式,适用于图片、视频、音频和文本消息。
第二种针对文件类消息,文件格式包括office、wps文件、html、xml、chm、txt文件,及rar、
zip、tar.gz等压缩类型的文件。为了提升审核效率和配合下一步的算法审核,要求预处理子模块能提
供对文件格式的判断、自动识别并解析为图片、文本、视频等单位消息的能力。
第三种对于URL类消息,要求通过网络爬虫提取相关内容,再将内容分为文本、图片、音频和视频
等原子消息,对这些原子消息分别进行算法审核,最后再综合所有原子消息的审核结果,对URL类消息
进行综合判断处置。
移动互联网业务系统
图片/视频/音频/文本/文件/URL
不
算
良预处理反馈
法
信
审
息
核人工智能算
管
控
送审
系
统
人工审核
图9消息处理流程
对于不同种类消息,采取的人工智能算法有所不同。对于文本类消息,采取文本分类、关键词匹配
等算法;对于图片/视频,则主要采取图片/视频分类、目标检测等算法;对于音频消息,则主要采取语
10
YD/T×××××—××××
音识别算法,将音频转为文字,再用文本分类、关键词匹配等算法进行审核。
_________________________________
11
YD/T×××××—××××
目次
目次................................................................................................................................................................I
前言...............................................................................................................................................................2
移动互联网不良信息管控系统开放平台总体技术要求...................................................................................3
1范围...................................................................................................................................................................3
2规范性引用文件...............................................................................................................................................3
3术语和定义.......................................................................................................................................................3
4缩略语...............................................................................................................................................................3
5互联网不良信息类型分类...............................................................................................................................3
5.1概述...........................................................................................................................................................3
5.2不良信息涉及话题...................................................................................................................................3
5.2.1涉政类信息.......................................................................................................................................3
5.2.2涉黄类信息.......................................................................................................................................4
5.2.3暴恐类信息.......................................................................................................................................4
5.2.4广告类信息.......................................................................................................................................4
5.3不良信息内容类型...................................................................................................................................4
5.3.1文本类...............................................................................................................................................4
5.3.2图片类...............................................................................................................................................4
5.3.3音频类...............................................................................................................................................4
5.3.4视频类...............................................................................................................................................5
5.3.5文件类...............................................................................................................................................5
5.3.6URL类...............................................................................................................................................5
6移动互联网不良信息管控系统构建原则及架构要求...................................................................................5
6.1构建原则...................................................................................................................................................5
6.2系统架构...................................................................................................................................................5
6.3不良信息管控系统的主要功能划分.......................................................................................................7
6.3.1消息接入层.......................................................................................................................................7
6.3.2算法审核层.......................................................................................................................................7
7移动互联网不良信息管控系统信息处理流程要求.......................................................................................9
7.1审核算法处理流程的要求.......................................................................................................................9
7.2消息处理流程的要求............................................................................................................................10
I
YD/T×××××—××××
移动互联网不良信息管控系统开放平台总体技术要求
1范围
本文件规定了互联网不良信息的定义和分类,不良信息管控系统的架构要求、功能要求、技术要求
和信息处理流程要求等。
本文件适用于接入不良信息管控系统开放平台的研发、设计、运维等使用场景。
2规范性引用文件
本文件无规范性引用文件。
3术语和定义
本文件没有需要界定的术语和定义。
4缩略语
URL统一资源定位符,也被称为网页地址(UniformResourceLocator)
OCR光学字符识别(OpticalCharacterRecognition)
5互联网不良信息类型分类
5.1概述
不良信息的形式多种多样,有多种传输渠道,广泛存在于即时通信、企业OA、邮箱系统、微博、论
坛等应用中,依据涉及方面有涉政、涉黄、暴恐、广告四大类,根据内容类型来分有文本、图片、音频、
视频、文件和URL六大类。
5.2不良信息涉及话题
5.2.1涉政类信息
涉政类信息包括但不限于如下内容:
⚫反对宪法所确定的基本原则的;
⚫危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的;
⚫损害国家荣誉和利益的;
⚫煽动民族仇恨、民族歧视,破坏民族团结的;
3
YD/T×××××—××××
⚫破坏国家宗教政策,宣扬邪教和封建迷信的;
⚫散布谣言,扰乱社会秩序,破坏社会稳定的。
5.2.2涉黄类信息
涉黄类信息指直接表现性器官、性行为的互联网内容,包括但不限于以下几类:
⚫直接暴露人体性器官;
⚫表现性行为的动作、姿态等;
⚫暴露低俗、带有性暗示、性挑逗或者隐讳展现性行为、性过程的内容。
5.2.3暴恐类信息
暴恐类信息包括但不限于如下内容:
a)展现血腥、惊悚、残忍等致人身心不适的;
b)出现持有管制刀具、枪支、火箭炮等枪械人员;
c)出现参与作战危险车辆皮卡改装车(车上安装枪支)、坦克、飞机(战斗机);
d)以暴力手段危害公共财产的人员;
e)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动的,包括但不限于:
⚫出现恐怖分子头目、政治敏感人物;
⚫出现大量人员游行、斗殴、焚烧车辆及建筑物等;
⚫出现恐怖分子标志、犯罪分子电视台台标、以及国旗等;
⚫含有煽动“圣战”“伊吉拉特”等宗教极端;
5.2.4广告类信息
广告类信息包括但不限于如下内容:
⚫房地产类广告信息,包含对楼盘、商铺、个人住房进行销售、租赁、求租、求购、招商、介绍
宣传的;
⚫金融类广告信息,包含银行、证券、保险、贷款或者相关金融产品的关键字,有经营范围(含
产品介绍、产品名称、公司名称、推广活动等),兼备具有优惠介绍、联系方式、地址、促销
宣传意图其中任一项的信息;
⚫促销推销类广告信息,包含商场促销、商品推销、教育培训宣传、企业咨询的信息,如:买卖
商品、商户开业、教育培训、招生招聘、各类讲座等。
5.3不良信息内容类型
5.3.1文本类
文本类信息是指在数据交互过程中以文本形式传输的信息。
文本是最常用的数据交互类型,可以有效快速地传播不良信息,具有占用空间小、传输速度快、传
播成本低、应用场景多等特点,是不良信息管控的重点。
5.3.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 防洪设施监测与检测技术考核试卷
- 呼吸衰竭患者的抢救配合
- 校园心肺复苏急救方法
- 安全教育饮食卫生
- 外科血气分析临床案例解析
- 婴儿窒息复苏急救方法
- 教师优则校优
- RMC-4998-formic-生命科学试剂-MCE
- “特朗普经济学”系列之十六:限制对华投资美国有哪些手段
- 干细胞疗法的临床应用
- 2025年合作并购协议范本
- 江西中考语文试题及答案
- 2025年继续教育公需科目试题及答案
- 公司收购公司部分股权之可行性研究报告
- 曲靖一中2025届高考决胜全真模拟卷(二)化学试题及答案
- 2025-2030中国环戊醇行业市场深度分析及发展趋势与投资战略研究报告
- 高血压RDN介入治疗新进展
- 办公大楼光储充建设方案
- 山东建筑大学《模拟电路与数字电路》2023-2024学年第二学期期末试卷
- 2025写字楼租赁定金合同的范本
- 浙江省杭州市北斗联盟2024-2025学年高一下学期4月期中联考地理试卷(含答案)
评论
0/150
提交评论