版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多媒体信息处理刘 刚网络搜索教研中心模式识别与智能系统实验室2022年5月4日星期三信息工程导论 目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2022年5月4日2信息与通信工程学院 1.概述 什么是多媒体 为什么要研究多媒体信息 信息处理流程 多媒体信息处理研究内容2022年5月4日3信息与通信工程学院 1.1 什么是多媒体 媒体(Media)就是人与人之间实现信息交流的中介,简单地说,就是信息的载体,也称为媒介。 多媒体就是多重媒体的意思 可以理解为直接作用于人感官的文字、图形、图像、动画、声音和视频等各种媒体的统称,即多种信息载体的表现形式和传递方式
2、。2022年5月4日4信息与通信工程学院 信息来源统计 根据美国哈佛商学院有关研究人员的分析资料表明,人的大脑每天通过五种感官接受外部信息的比例分别为:味觉1%,触觉1.5%,嗅觉3.5%,听觉11%,以及视觉83%。 主要的三个媒体 声音: 语音(语言的表达形式之一),音乐,音效(一般音频) 图像: 图形,图像,动画,视频 文本(抽象): 文本(语言的表达形式之一),数据等2022年5月4日5信息与通信工程学院 1.2 为什么要研究多媒体信息 多媒体是信息载体的总称,是信息的承载形式或表现形式。 多媒体信息处理,实际上就是信息处理。 信息及其处理是当前时代的标志 信息处理是信息工程专业的使命
3、 多媒体信息处理又有自身的特点2022年5月4日6信息与通信工程学院 2022年5月4日信息与通信工程学院 7信息及其处理是当前时代的标志l社会发展史:l 农业社会(物质资源)l 扩展人的体质能力l工业社会(能量资源)l 扩展人的体力能力l信息社会(信息资源)l 扩展人的智力能力l没有物质什麽都不存在,没有能量什麽都没有物质什麽都不存在,没有能量什麽都不发生,没有信息什麽都没意义不发生,没有信息什麽都没意义信息处理是信息工程专业的使命 信息工程的使命 信息工程是面向信息通信行业,口径宽、适应面广的专业。该专业培养系统掌握信息传输和处理的基本理论和基本知识,掌握信息获取和应用的核心技术,能从事现
4、代信息网络和智能信息系统的设计、开发、研究及运营等方面工作的高素质专门人才。2022年5月4日8信息与通信工程学院多媒体信息处理又有自身的特点 音频-随机 视频-随机 文本/数据-确定 多媒体融合2022年5月4日信息与通信工程学院 9如何结合不同媒体的特点进行如何结合不同媒体的特点进行更好的信息处理更好的信息处理如何进行多个媒体的信息融合如何进行多个媒体的信息融合处理处理1.3 信息处理的流程2022年5月4日信息与通信工程学院 10信息处理的流程 信息科学基本原理2022年5月4日信息与通信工程学院 11通信通信1.3 信息处理的流程2022年5月4日信息与通信工程学院 12信息获取通信信
5、息决策信息施效通信多媒体信息处理多媒体信息处理主要研究与媒体相主要研究与媒体相关的部分关的部分1.4 多媒体信息处理研究内容2022年5月4日信息与通信工程学院 13数字信号处理数据采集技术通信原理信息处理与编码模式识别Web搜索语音信号数字处理 , 数字图像处理信号层次内容层次1.4 多媒体信息处理研究内容 研究如何更有效地产生、传输、存储、获取和应用多媒体信息 多媒体信息采集 多媒体通信/存储 多媒体编码/译码-信源编码 多媒体内容处理-智能信息处理 多媒体信息识别 多媒体信息检索 多媒体信息生成2022年5月4日14信息与通信工程学院 目录概述多媒体信息采集多媒体通信/存储多媒体信息识别
6、多媒体信息检索多媒体信息生成总结2022年5月4日15信息与通信工程学院 2.多媒体信息采集 概述 传感器 模数转换/数模转换 噪声处理等预处理2022年5月4日16信息与通信工程学院 2.1多媒体信息采集-概述 采集原则 不失真 有用信号不失真 噪声干扰小 处理过程 传感器采集 模数转换/数模转换 噪声处理等预处理2022年5月4日17信息与通信工程学院 2.2 传感器 传感器 transducer/sensor 一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出 两个功能 信号敏感 换能2022年5月4日信息与通信工程学院 182.2
7、传感器 传感器是人类五官的延长,又称之为电五官 光敏传感器视觉 声敏传感器听觉 气敏/化学传感器嗅觉 化学传感器味觉 压敏、温敏、流体 传感器触觉2022年5月4日信息与通信工程学院 19可燃气体感器二氧化氮传感器盐度传感器红外压力可穿戴柔性触觉2.2 传感器-Mic阵列2022年5月4日20信息与通信工程学院 2.2 传感器-Mic阵列2022年5月4日21信息与通信工程学院 2.2 传感器-Mic阵列2022年5月4日22信息与通信工程学院 针对复杂应用如: 音源定位 远距离声音采集 声场分析等2022年5月4日信息与通信工程学院 012345672.3 模数转换模数转换量化量化编码编码0
8、00011 011100 100101110 111 111 111111110101 011010量化误差量化误差0.5-0.5抽样抽样23图像二值化等2022年5月4日24信息与通信工程学院 2.3 预处理 噪声的去除和有用信息的初步提取 降噪 分割 检测 2022年5月4日信息与通信工程学院 25语音预处理 语音增强 语音端点检测2022年5月4日信息与通信工程学院 26谱减法语音增强Kalman滤波法2022年5月4日27图像的降噪http:/ 2022年5月4日28图像增强信息与通信工程学院 2022年5月4日29图像恢复图像恢复运动模糊图像运动模糊图像恢复图像恢复图像信息与通信工程
9、学院 2022年5月4日30图像的分割信息与通信工程学院 周界检测系统l 系统可以自动检测到进入到场景中的运动目标,判断是否进入设定警戒区域。l 应用场景:机场,小区,军事禁区2022年5月4日31信息与通信工程学院 目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2022年5月4日32信息与通信工程学院 3.多媒体通信和存储多媒体编码 为什么要进行编码 信源编码-压缩,提高有效性 为什么可以压缩 信号本身的冗余度-语音 感知特性-人耳的听觉特性 语音-G.721,G.729,G.723.1 混合音频编码 图像-JPEG、JPEG2000 视频- MPEG-
10、1,MPEG-2和MPEG-4,H261,H.263,MPEG7,MPEG212022年5月4日33信息与通信工程学院 目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2022年5月4日34信息与通信工程学院 4. 多媒体信息识别 模式识别概述 语音识别 音频事件识别 图像识别 多模态模式识别2022年5月4日35信息与通信工程学院 4.1 模式识别 模式识别(Pattern Recognition) 模式分类 模式识别是从模式到类别的映射 模式识别是模拟人的某些功能 模拟人的视觉: 计算机+光学系统-图像识别 模拟人的听觉: 计算机+声音传感器-语音识别
11、模拟人的嗅觉和触觉: 计算机+传感器 模式识别是从模式到类别的映射2022年5月4日36信息与通信工程学院 模式识别在智能信息处理中的地位2022年5月4日37信息与通信工程学院 模式识别在信息处理中的地位2022年5月4日信息与通信工程学院 382022年5月4日信息与通信工程学院 38信息获取通信信息处理信息施效通信模式识别的原理框图2022年5月4日39信息与通信工程学院 模式识别的原理4.2 语音识别 什么是语音识别 语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。 分类 语音识别(内容) 特定人/非特定人,孤立词/连续语音/
12、关键词识别 说话人识别/声纹 语种识别/方言识别 性别识别 情绪识别,母语/ 非母语,发音评价,疾病诊断,说话时吃东西?2022年5月4日41信息与通信工程学院 演示系统 语音输入法/语音搜索 谷歌、百度、搜狗、讯飞、微信 语音问答系统 苹果 SIRI 计算机声控系统2022年5月4日42信息与通信工程学院 4.3 音频事件识别 语音音频 音频事件识别 关键事件-安全监控 脚步声,关门开门声,枪声,玻璃破碎声,重物落地声,语音等 音频场景分析/情境计算 音视频摘要、检索2022年5月4日43信息与通信工程学院 演示系统2022年5月4日信息与通信工程学院 444.4 图像识别 一、二维条码识别
13、简单问题 文字识别、指纹识别、虹膜识别、掌纹识别、人脸识别、车牌识别 物体识别2022年5月4日45信息与通信工程学院 46字符识别脱机 offline OCR联机 online 手写输入2022年5月4日信息与通信工程学院 2022年5月4日47 辽C79388信息与通信工程学院 人脸识别 人脸识别是指通过人脸进行身份确认或者身份查找的技术 人脸图像采集 人脸定位 人脸识别预处理 身份确认以及身份查找等;2022年5月4日48信息与通信工程学院 49人脸检测2022年5月4日信息与通信工程学院 50人脸识别2022年5月4日信息与通信工程学院 51指纹识别2022年5月4日信息与通信工程学院
14、 52虹膜识别2022年5月4日信息与通信工程学院 生物特征识别u生物特征识别:未来的身份验证方法!u生物:指纹、虹膜、人脸、掌纹、手形、视网膜、红外温谱u行为:笔迹、步态、声纹2022年5月4日53信息与通信工程学院 手势识别 体态识别 静止 运动 步态识别2022年5月4日54信息与通信工程学院 物体识别(图像解析)2022年5月4日55信息与通信工程学院 4.5 多模态模式识别 听觉视觉双模态语音识别听觉视觉双模态语音识别 视频与听觉语音联合使用,提高识别率-多媒体融合2022年5月4日56信息与通信工程学院 目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生
15、成总结2022年5月4日57信息与通信工程学院 5.多媒体信息检索 文本检索 语音检索 音频检索 图像检索 多媒体融合信息检索2022年5月4日58信息与通信工程学院 5.1文本检索 另外一讲 多媒体检索与文本检索的异同 文本检索是信息检索的基础 多媒体检索需要进行识别再进行检索 识别错误会产生影响2022年5月4日信息与通信工程学院 595.2 语音检索 查询方式文本,语音 检索对象文本,语音2022年5月4日60信息与通信工程学院 语音检索演示 语音检索 检索对象: 广播新闻语音,如新闻联播 检索输入: 文本2022年5月4日61信息与通信工程学院 2022年5月4日信息与通信工程学院 6
16、25.3 音频检索 基于样例的音频检索 哼唱检索 基于语义的音频检索音频事件检索音频场景检索2022年5月4日63信息与通信工程学院 基于样例的音频检索 功能简介 通过音频片断(原始的音频片段或者录制的)搜索到整个音频的完整信息 2022年5月4日64信息与通信工程学院 2022年5月4日信息与通信工程学院 65基于样例的音频检索哼唱检索 QBH(Query By Humming) 通过哼唱歌曲的某个片段来找到想要搜寻的歌曲,是一种基于内容的音乐信息检索方式。2022年5月4日66信息与通信工程学院 2022年5月4日信息与通信工程学院 67多媒体融合信息检索-以音乐检索为例 检索输入 信息:
17、 歌名,歌手,歌词,旋律,曲谱,流派,风格等 形式: 文本,语音,哼唱,音频,图像(曲谱) 检索对象(输出) 文本,语音,歌曲,图像等 技术 文本检索,语音检索(语音识别),哼唱检索,流派识别,样例检索,音频属性检索,多媒体信息融合等2022年5月4日68信息与通信工程学院 5.4 图像信息检索 图片检索(谷歌、百度图片搜索) 文本检索图片 图片检索图片 基于图像的商品检索2022年5月4日69信息与通信工程学院 基于基于3G3G手机的图片检索系统手机的图片检索系统2022年5月4日70信息与通信工程学院 目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结20
18、22年5月4日71信息与通信工程学院 6.多媒体信息生成 -虚拟现实/增强现实 多媒体信息的再生-转换 多媒体信息的合成-合成 人脸表情合成 语音合成 听觉场景生成 视觉场景生成 3D 4D 5D电影-全息 。2022年5月4日72信息与通信工程学院 6.1 语音合成(TTS) 什么是TTS Text To Speech 让机器开口说话 评价指标 可懂度、自然度2022年5月4日73信息与通信工程学院 6.2 人脸表情合成2022年5月4日74信息与通信工程学院 6.2 人脸表情合成2022年5月4日75信息与通信工程学院 听觉场景生成 计算听觉场景分析 用计算机技术将人类听觉对声音的处理过程
19、( 听觉场景分析) 建模, 使计算机具备从混合声音中分离各物理声源并作出合理解释的能力。 听觉场景生成 通过多扬声器在新的声学空间重现声学场景 环绕立体声 免提全息电话 Bee游戏 虚拟现实2022年5月4日76信息与通信工程学院 视觉场景生成 全息投影全息投影/景象景象 往往包括音频(即听觉)往往包括音频(即听觉) 3D 4D 5D电影-全息 Microsoft HoloLens 全息眼镜 Magic Leap2022年5月4日信息与通信工程学院 773D,4D,5D电影 3D立体效果的基础上增加动感座椅,环境特效,5D电影院让观众从听觉、视觉、触觉,这几方面达到最强大的逼真感 如同置身于影
20、片中,通过环境模拟实现风、雨、电、烟、雪花、泡泡、火焰扫腿、捅背、震动、香烟等环境效果,顺着影视内容变化可实时感受到置身“闪电、烟雾、雪花”中,在“火焰”前有灼热感,海浪扑身时会“湿”了衣裳。体验下坠、震动、刮风、下雨、扫腿等全新的真切感觉,对电影行业有一定的推动作用。2022年5月4日信息与通信工程学院 78Microsoft HoloLens 全息眼镜 Holograms借助头戴设备HoloLen的帮助,让用户的眼前出现悬浮界面,以实际环境作为载体,实时处理、获取虚拟信息:如在墙上查看消息、查找联系人,在地上玩游戏、在客厅墙上直接进行 Skype 视频通话、观看球赛。2022年5月4日信息与通信工程学院 7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024美金结算支付合同范本6篇
- 2025年度拆除工程合同纠纷调解协议范本4篇
- 二零二五年度生物科技产业园厂址租赁及研发合作框架协议2篇
- 与消防队合作协议 2篇
- 2024跨境商业交易商议与协议制作详解版
- 2025年度老旧厂房拆迁安置房购置合同4篇
- 2025年度矿产资源测绘劳务分包合同(新版)4篇
- 2024年独家品牌代理协议
- 2025年度产业园租赁与运营一体化合同4篇
- 2024年03月浙江杭银理财岗位招考笔试历年参考题库附带答案详解
- 岩土工程勘察课件0岩土工程勘察
- 《肾上腺肿瘤》课件
- 2024-2030年中国典当行业发展前景预测及融资策略分析报告
- 《乘用车越野性能主观评价方法》
- 幼师个人成长发展规划
- 2024-2025学年北师大版高二上学期期末英语试题及解答参考
- 动物医学类专业生涯发展展示
- 批发面包采购合同范本
- 乘风化麟 蛇我其谁 2025XX集团年终总结暨颁奖盛典
- 2024年大数据分析公司与中国政府合作协议
- 一年级数学(上)计算题专项练习汇编
评论
0/150
提交评论