基于AI技术的媒资内容管理平台

上传人：2*** IP属地：贵州上传时间：2023-03-26 格式：DOC 页数：6 大小：66KB 积分：20 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于AI技术的媒资内容管理平台语音识别需求书2017年11月

文档信息产品名称项目需求确认书产品负责人徐志亮负责人联系方式22005899-51472文档修改记录版本修改时间修改人修改章节修改说明

目录1. 简介 42. 产品需求 42.1、产品需求概述 42.1.1、视频预处理 52.1.2、语音识别文字输出 52.1.3高识别率 62.1.4支持多种音频格式 62.1.5多语言识别 62.1.5高识别效率 63. 其他需求 63.1服务器环境配置 63.2测试需求 63.3运维保障需求 7简介项目背景随着计算机自动化技术的发展，语音识别、字幕识别、场景分割等技术已经日趋成熟，智能语义分析、智能素材关联、人脸识别技术也在迅速发展，日本NHK等发达国家已实际应用。SMG的自动编目可从语音识别和字幕识别入手，以新闻、戏曲类节目为切人点，在节目素材入库媒资时将语音和字幕自动进行文字化，减少编目人员工作量。之后，以自动场景分割技术为基础，结合智能语义分析，逐步对节目和素材实现全自动的标引，提高整个媒资编目的自动化率，降低媒资运营的人工成本。产品需求2.1、产品需求概述随着计算机自动化技术的发展，语音识别、字幕识别、场景分割等技术已经日趋成熟，智能语义分析、智能素材关联、人脸识别技术也在迅速发展，日本NHK等发达国家已实际应用。SMG可从语音识别入手，在节目素材入库媒资时将语音和字幕自动进行文字化。之后，以自动场景分割技术为基础，结合智能语义分析，逐步对节目和素材实现全自动的标引。该项目的目标是通过语音识别，对视频进行文字内容和关键词的提取，提取后的内容和关键词按照视频名称和视频时间信息进行存储，最终为用户提供文字内容和关键词的检索服务。2.1.1、视频预处理视频预处理主要实现对视频进行提取音频视频提取音频，从视频文件中提取音频文件，音频格式为（mp3或wav）。2.1.2、语音识别文字输出自动识别音、视频（包括主流格式高、低码格式）中的语音，并将其识别为文本内容，并页面中展示。语音识别文本应包含时间戳，即表示在该段时间内音频的识别结果，语音识别的结果按照时间的顺序（入点时间，出点时间）在每个视频素材的详情页进行展示。语音识别文字输出应当为完整句子形式、词等，另外应具有智能的功能，例如，电话号码、车牌、日期、时间以及量词的规整，如“五点三十”会识别规整为“5:30”。自动断句，并且在文本中加入标点如好，并且能够识别词属性，词属性包括：普通词；语气犹豫词，如“嗯”、“啊”、“呃”或者无意义的重复词等；标点符号，如“，”等2.1.3高识别率在音频中为标准普通话的情况下，语音识别率需要达到90%以上。若音频中为较为不标准普通话，则语音识别率可以稍微降低识别率要求。2.1.4支持多种音频格式语音识别应支持多种视频格式，例如wav,flac,opus,m4a,mp32.1.5多语言识别语音识别可能需要识别普通话，上海话，以及英语等，根据目前项目需求，至少需要能够识别普通话以及上海话，并且达到较好的识别效果。2.1.5高识别效率由于音频量大，所以需要高效率的语音识别软件。音频时长与识别时间的比要大于6:1。否则无法正常完成语音识别业

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于AI技术的媒资内容管理平台

文档简介

温馨提示

最新文档

评论

基于AI技术的媒资内容管理平台

文档简介

温馨提示

最新文档

评论

相关文档