视频字幕分析与抠取_第1页
视频字幕分析与抠取_第2页
视频字幕分析与抠取_第3页
视频字幕分析与抠取_第4页
视频字幕分析与抠取_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、视频字幕分析与抠取一、最初的思路:首先,通过ffmpeg或opencv可以获取视频的每帧图片;再采用类似象素逼近法获取字幕的边界大小位置,从而截出字幕图片;再通过获取的字幕图片进行OCR识别,从而获取字幕实际字符串;通过分析视频文件字幕的起止显示时间系列,得到字幕播放时应该显示的时间顺序;将字幕显示的时间顺序数据和字幕的字符整合成精准的字幕文件;将上述获取字幕过程自动化,形成可执行程序,自动生成字幕文件,并在机顶盒播放视频显示出来;二、方案尝试实现步骤:经过实践尝试,在程序中采用opencv获取视频帧图片比之ffmpeg更易于实现和使用,opencv是一个跨平台计算机视觉库,具有强大的图片数据

2、的分析和处理函数,FFmpeg则是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序,不具备分析处理图片的功能;确定程序中使用opencv视觉库;接下来,在Ubuntu安装opencv开发环境,准备分析用的视频文件;则准备采用也可以作为库集成到程序;a这是一款开源、免费的引擎,能够支持中文,可以命令行下运行,J=L黠殺那麽重要象素颜色去逼近边沿,发现了不少问题:首先,字幕的边沿不是纯色,而是混合过渡色,采用逼近算法有很大问题;字幕的动态显示,不论是边沿还是字幕都是变化的,不仅是文字的变化,颜色也是变化的;字幕和视频叠加显示,形成视频干扰数据,通过代码很难区分和抠取,由于视频

3、干扰数据无法去除干净,字幕就无法准确抠取;实际上,这是至始至终不能彻底解决的问题;字幕的描边问题;采用手工切图的办法,将切出的图形尝试用OCR识别,描边的文字无法正确识别;这是采用opencv转换算法获取的灰度图:寤澱那麼重要这是采用opencv边缘检测操作算法获取的灰度图:FR1曰型的帧图像,视频中并不是所有帧都能得到这样干净的图;现在通过逼近算法可以获取字幕的边,高度和宽度,但同一个算法,在稍为复杂的帧图形上,结果是不一样的,这就带来问题,实际上还是无法准确的确定字幕的大小和宽度;演示例程:cv_test2.cpp采用边缘检测操作算法获取的字幕二值图形效果:很明显,背景视频的干扰无法去除干

4、净演示例程:cv_test3.cpp因此,采用边缘检测算法能大体获得字幕的大致范围,但由于背景根本无法去除干净,获得的图形实际上在OCR中是无法使用的;之后,获取字幕大体范围采用角点检测算法,然后统计角点的范围,得到相对正确的字幕范围;演示例程:cv_test_20.cpptest1.bmp,cv_test_21.cpptest1.bmp下面,利用获得的字幕范围数据,采用另一个思路检测字幕;单帧图不容易处理,换个思路,采用一段视频转换成时间序列的图形会是什么状况:这是一段典型的字幕视频时间序图,具体做法,使用opencv获取一段视频每一帧的一条线的图,这条线刚好在字幕的范围内,纵向是视频里面视

5、频宽度一条线的象素数据,横向时按帧时间序列进行拼合,把所有这些获得的线按前述规则拼合到一张图里面,就得到上面的图形;图中明显的白色和蓝色块就是字幕在这段视频的变化情况,其余的色块就是这段视频在这条线上的色彩变化;例程:cv_test3c.cpp,cv_test_5.cpp,cv_test_7.cpp,cv_test_8.cpp,cv_test_11.cpp加上之前获取的字幕范围数据,可以获取字幕范围内的时间序列图:以上的图代表一段视频内的字幕当中一个字符范围内的变化,蓝白黑色以外的其他色彩是字幕中的背景视频,可以看到字幕变化过程中,注意,颜色也不是固定的纯色;例程:cv_test3a.cpp并不是所有字幕都这么规范:例程:cv_ocr_main.cpp字幕出场过程大体是:先预先显示,在歌曲演唱到该字幕的时间点开始渐变,演唱结束后,渐变也停止,最后显示一段时间之后消失;通过角点检测算法,对角点坐标进行统计合并,再画出现来,可以获得下面的图形:Opencv有大量的图像检测算法,极大方便图形检测和处理,组合和善用这些算法,有可能去除更多的背景,并获得最终所需的字幕图形和字幕显示的时间序列;其他例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论