北邮刘刚教授-信息工程导论课件-多媒体信息处理-2015_第1页
北邮刘刚教授-信息工程导论课件-多媒体信息处理-2015_第2页
北邮刘刚教授-信息工程导论课件-多媒体信息处理-2015_第3页
北邮刘刚教授-信息工程导论课件-多媒体信息处理-2015_第4页
北邮刘刚教授-信息工程导论课件-多媒体信息处理-2015_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多媒体信息处理刘刚网络搜索教研中心模式识别与智能系统实验室liugang@15一月2023信息工程导论目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2023年1月15日2信息与通信工程学院liugang@1.概述什么是多媒体为什么要研究多媒体信息信息处理流程多媒体信息处理研究内容2023年1月15日3信息与通信工程学院liugang@1.1什么是多媒体媒体(Media)就是人与人之间实现信息交流的中介,简单地说,就是信息的载体,也称为媒介。多媒体就是多重媒体的意思可以理解为直接作用于人感官的文字、图形、图像、动画、声音和视频等各种媒体的统称,即多种信息载体的表现形式和传递方式。2023年1月15日4信息与通信工程学院liugang@信息来源统计根据美国哈佛商学院有关研究人员的分析资料表明,人的大脑每天通过五种感官接受外部信息的比例分别为:味觉1%,触觉1.5%,嗅觉3.5%,听觉11%,以及视觉83%。主要的三个媒体声音:语音(语言的表达形式之一),音乐,音效(一般音频)图像:图形,图像,动画,视频文本(抽象):文本(语言的表达形式之一),数据等2023年1月15日5信息与通信工程学院liugang@1.2为什么要研究多媒体信息多媒体是信息载体的总称,是信息的承载形式或表现形式。多媒体信息处理,实际上就是信息处理。信息及其处理是当前时代的标志信息处理是信息工程专业的使命多媒体信息处理又有自身的特点2023年1月15日6信息与通信工程学院liugang@2023年1月15日信息与通信工程学院liugang@7信息及其处理是当前时代的标志社会发展史:

农业社会(物质资源)扩展人的体质能力工业社会(能量资源)扩展人的体力能力信息社会(信息资源)扩展人的智力能力没有物质什麽都不存在,没有能量什麽都不发生,没有信息什麽都没意义信息处理是信息工程专业的使命信息工程的使命信息工程是面向信息通信行业,口径宽、适应面广的专业。该专业培养系统掌握信息传输和处理的基本理论和基本知识,掌握信息获取和应用的核心技术,能从事现代信息网络和智能信息系统的设计、开发、研究及运营等方面工作的高素质专门人才。2023年1月15日8信息与通信工程学院liugang@多媒体信息处理又有自身的特点音频---随机视频---随机文本/数据---确定多媒体融合2023年1月15日信息与通信工程学院liugang@9如何结合不同媒体的特点进行更好的信息处理如何进行多个媒体的信息融合处理1.3信息处理的流程2023年1月15日信息与通信工程学院liugang@10信息处理的流程信息科学基本原理2023年1月15日信息与通信工程学院liugang@11通信通信1.3信息处理的流程2023年1月15日信息与通信工程学院liugang@12信息获取通信信息决策信息施效通信多媒体信息处理主要研究与媒体相关的部分1.4多媒体信息处理研究内容2023年1月15日信息与通信工程学院liugang@13数字信号处理数据采集技术通信原理信息处理与编码模式识别Web搜索语音信号数字处理,数字图像处理信号层次内容层次1.4多媒体信息处理研究内容研究如何更有效地产生、传输、存储、获取和应用多媒体信息多媒体信息采集多媒体通信/存储多媒体编码/译码----信源编码多媒体内容处理---智能信息处理多媒体信息识别多媒体信息检索多媒体信息生成2023年1月15日14信息与通信工程学院liugang@目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2023年1月15日15信息与通信工程学院liugang@2.多媒体信息采集概述传感器模数转换/数模转换噪声处理等预处理2023年1月15日16信息与通信工程学院liugang@2.1多媒体信息采集-概述采集原则不失真有用信号不失真噪声干扰小处理过程传感器采集模数转换/数模转换噪声处理等预处理2023年1月15日17信息与通信工程学院liugang@数据采集技术2.2传感器传感器transducer/sensor一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出两个功能信号敏感换能2023年1月15日信息与通信工程学院liugang@182.2传感器传感器是人类五官的延长,又称之为电五官光敏传感器——视觉声敏传感器——听觉气敏/化学传感器——嗅觉化学传感器——味觉压敏、温敏、流体传感器——触觉2023年1月15日信息与通信工程学院liugang@19可燃气体感器二氧化氮传感器盐度传感器红外压力可穿戴柔性触觉2.2传感器---Mic阵列2023年1月15日20信息与通信工程学院liugang@2.2传感器---Mic阵列2023年1月15日21信息与通信工程学院liugang@2.2传感器---Mic阵列2023年1月15日22信息与通信工程学院liugang@针对复杂应用如:音源定位远距离声音采集声场分析等2023年1月15日信息与通信工程学院liugang@012345672.3模数转换量化编码000011011100100101110111111111111110101011010量化误差0.5-0.5抽样23图像二值化等2023年1月15日24信息与通信工程学院liugang@2.3预处理噪声的去除和有用信息的初步提取降噪分割检测……2023年1月15日信息与通信工程学院liugang@25语音预处理语音增强语音端点检测2023年1月15日信息与通信工程学院liugang@26谱减法语音增强Kalman滤波法2023年1月15日27图像的降噪/group/dipr信息与通信工程学院liugang@2023年1月15日28图像增强信息与通信工程学院liugang@2023年1月15日29图像恢复运动模糊图像恢复图像信息与通信工程学院liugang@2023年1月15日30图像的分割信息与通信工程学院liugang@周界检测系统系统可以自动检测到进入到场景中的运动目标,判断是否进入设定警戒区域。应用场景:机场,小区,军事禁区2023年1月15日31信息与通信工程学院liugang@目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2023年1月15日32信息与通信工程学院liugang@3.多媒体通信和存储

—多媒体编码为什么要进行编码信源编码---压缩,提高有效性为什么可以压缩信号本身的冗余度---语音感知特性----人耳的听觉特性语音--G.721,G.729,G.723.1混合音频编码图像--JPEG、JPEG2000视频--MPEG-1,MPEG-2和MPEG-4,H261,H.263,MPEG7,MPEG212023年1月15日33信息与通信工程学院liugang@目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2023年1月15日34信息与通信工程学院liugang@4.多媒体信息识别模式识别概述语音识别音频事件识别图像识别多模态模式识别2023年1月15日35信息与通信工程学院liugang@4.1模式识别模式识别(PatternRecognition)模式分类模式识别是从模式到类别的映射模式识别是模拟人的某些功能模拟人的视觉:计算机+光学系统--图像识别模拟人的听觉:计算机+声音传感器---语音识别模拟人的嗅觉和触觉:计算机+传感器模式识别是从模式到类别的映射2023年1月15日36信息与通信工程学院liugang@模式识别在智能信息处理中的地位2023年1月15日37信息与通信工程学院liugang@模式识别在信息处理中的地位2023年1月15日信息与通信工程学院liugang@382023年1月15日信息与通信工程学院liugang@38信息获取通信信息处理信息施效通信模式识别的原理框图2023年1月15日39信息与通信工程学院liugang@模式识别的原理4.2语音识别什么是语音识别语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。分类语音识别(内容)特定人/非特定人,孤立词/连续语音/关键词识别说话人识别/声纹语种识别/方言识别性别识别情绪识别,母语/非母语,发音评价,疾病诊断,说话时吃东西?2023年1月15日41信息与通信工程学院liugang@演示系统语音输入法/语音搜索谷歌、百度、搜狗、讯飞、微信语音问答系统苹果SIRI 计算机声控系统2023年1月15日42信息与通信工程学院liugang@4.3音频事件识别语音音频音频事件识别关键事件---安全监控脚步声,关门开门声,枪声,玻璃破碎声,重物落地声,语音等音频场景分析/情境计算音视频摘要、检索2023年1月15日43信息与通信工程学院liugang@演示系统2023年1月15日信息与通信工程学院liugang@444.4图像识别一、二维条码识别简单问题文字识别、指纹识别、虹膜识别、掌纹识别、人脸识别、车牌识别……物体识别2023年1月15日45信息与通信工程学院liugang@46字符识别脱机offlineOCR联机online手写输入2023年1月15日信息与通信工程学院liugang@2023年1月15日47

辽C79388信息与通信工程学院liugang@人脸识别人脸识别是指通过人脸进行身份确认或者身份查找的技术人脸图像采集人脸定位人脸识别预处理身份确认以及身份查找等;2023年1月15日48信息与通信工程学院liugang@49人脸检测2023年1月15日信息与通信工程学院liugang@50人脸识别2023年1月15日信息与通信工程学院liugang@51指纹识别2023年1月15日信息与通信工程学院liugang@52虹膜识别2023年1月15日信息与通信工程学院liugang@生物特征识别生物特征识别:未来的身份验证方法!生物:指纹、虹膜、人脸、掌纹、手形、视网膜、红外温谱行为:笔迹、步态、声纹2023年1月15日53信息与通信工程学院liugang@手势识别体态识别静止运动步态识别2023年1月15日54信息与通信工程学院liugang@物体识别(图像解析)2023年1月15日55信息与通信工程学院liugang@4.5多模态模式识别听觉视觉双模态语音识别视频与听觉语音联合使用,提高识别率---多媒体融合2023年1月15日56信息与通信工程学院liugang@目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2023年1月15日57信息与通信工程学院liugang@5.多媒体信息检索文本检索语音检索音频检索图像检索多媒体融合信息检索2023年1月15日58信息与通信工程学院liugang@5.1文本检索另外一讲多媒体检索与文本检索的异同文本检索是信息检索的基础多媒体检索需要进行识别再进行检索识别错误会产生影响2023年1月15日信息与通信工程学院liugang@595.2语音检索查询方式文本,语音检索对象文本,语音2023年1月15日60信息与通信工程学院liugang@语音检索演示语音检索检索对象:广播新闻语音,如新闻联播检索输入:文本2023年1月15日61信息与通信工程学院liugang@2023年1月15日信息与通信工程学院liugang@625.3音频检索基于样例的音频检索哼唱检索基于语义的音频检索音频事件检索音频场景检索2023年1月15日63信息与通信工程学院liugang@基于样例的音频检索功能简介通过音频片断(原始的音频片段或者录制的)搜索到整个音频的完整信息2023年1月15日64信息与通信工程学院liugang@2023年1月15日信息与通信工程学院liugang@65基于样例的音频检索哼唱检索QBH(QueryByHumming)通过哼唱歌曲的某个片段来找到想要搜寻

的歌曲,是一种基于内容的音乐信息检索方式。2023年1月15日66信息与通信工程学院liugang@2023年1月15日信息与通信工程学院liugang@67多媒体融合信息检索

---以音乐检索为例检索输入信息:歌名,歌手,歌词,旋律,曲谱,流派,风格等形式:文本,语音,哼唱,音频,图像(曲谱)检索对象(输出)文本,语音,歌曲,图像等技术文本检索,语音检索(语音识别),哼唱检索,流派识别,样例检索,音频属性检索,多媒体信息融合等2023年1月15日68信息与通信工程学院liugang@5.4图像信息检索图片检索(谷歌、百度图片搜索)文本检索图片图片检索图片基于图像的商品检索2023年1月15日69信息与通信工程学院liugang@基于3G手机的图片检索系统2023年1月15日70信息与通信工程学院liugang@目录概述多媒体信息采集多媒体通信/存储多媒体信息识别多媒体信息检索多媒体信息生成总结2023年1月15日71信息与通信工程学院liugang@6.多媒体信息生成

---虚拟现实/增强现实多媒体信息的再生---转换多媒体信息的合成---合成人脸表情合成语音合成听觉场景生成视觉场景生成3D4D5D电影---全息。。。。。。2023年1月15日72信息与通信工程学院liugang@6.1语音合成(TTS)什么是TTSTextToSpeech让机器开口说话评价指标可懂度、自然度2023年1月15日73信息与通信工程学院liugang@6.2人脸表情合成2023年1月15日74信息与通信工程学院liugang@6.2人脸表情合成2023年1月15日75信息与通信工程学院liugang@听觉场景生成计算听觉场景分析用计算机技术将人类听觉对声音的处理过程(听觉场景分析)建模,使计算机具备从混合声音中分离各物理声源并作出合理解释的能力。听觉场景生成通过多扬声器在新的声学空间重现声学场景环绕立体声免提全息电话Bee游戏虚拟现实2023年1月15日76信息与通信工程学院liugang@视觉场景生成全息投影/景象往往包括音频(即听觉)3D4D5D电影---全息MicrosoftHoloLens

全息眼镜MagicLeap2023年1月15日信息与通信工程学院liugang@773D,4D,5D电影3D立体效果的基础上增加动感座椅,环境特效,5D电影院让观众从听觉、视觉、触觉,这几方面达到最强大的逼真感如同置身于影片中,通过环境模拟实现风、雨、电、烟、雪花、泡泡、火焰扫腿、捅背、震动、香烟等环境效果,顺着影视内容变化可实时感受到置身“闪电、烟雾、雪花”中,在“火焰”前有灼热感,海浪扑身时会“湿”了衣裳。体验下坠、震动、刮风、下雨、扫腿等全新的真切感觉,对电影行业有一定的推动作用。2023年1月15日信息与通信工程学院liugang@78MicrosoftHoloLens

全息眼镜Holograms借助头戴设备HoloLen的帮助,让用户的眼前出现悬浮界面,以实际环境作为载体,实时处理、获取虚拟信息:如在墙上查看消息、查找联系人,在地上玩游戏、在客厅墙上直接进行Skype视频通话、观看球赛。2023年1月15日信息与通信工程学院liugang@792023年1月15日信息与通信工程学院liugang@80MagicLeap公司的3D裸眼技术2023年1月15日信息与通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论