版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
优酷「AI剧组」:大模型驱动的影视短视频智能生产实践苗
园阿里巴巴
优酷产品技术中心
算法专家2024
/
06
/
29目录a2m.msup.com.cn1.
案例简介整体框架核心挑战关键技术关键实践案例简介a2m.msup.com.cn随着人工智能技术的迅猛发展,尤其是大型预训练模型在自然语言处理和多模态学习领域所取得的重大进展,短视频内容的AIGC正在变得越来越可行和流行。模仿影视行业的创作过程,大语言模型可以扮演“编剧”角色,生成不同风格、不同类型的高质量剧本和文案;多模态大模型可以扮演“导演”的角色,通过开放式的语义理解来实现精准的跨模态匹配;基于大模型的应用和自研,还可以进一步抽象出提示剧情要点的“场务”(悬挂词)、突出画面重点的“特效师”(素材打标),等等。最后,将这些技术能力构建成自动化、流程化、平台化的智能生产链路,我们就具备了一个短视频创作的“AI剧组”,产量更大、效果稳定、时效更强、成本更低。a2m.msup.com.cn案例简介案例简介《新闻女王》剧情解说《新闻女王》剧情整剪a2m.msup.com.cn《乡村爱情》搞笑解说《异人之下》唱式解说《秦时明月》高能混剪《与君初相识》CP看点整体框架传统剧组AI剧组1、影视文案生成:基于RAG的结构化长文本生成a2m.msup.com.cn2、分镜脚本生成:抽取多槽位元素的镜头语言3、视频片段匹配:多模态语义理解与跨模态时序匹配4、视频整体合成:字/音/画的自动剪辑和合成核心挑战a2m.msup.com.cn最影响短视频效果的,莫过于“影视文案”与“视频画面”的匹配程度。两个核心挑战:1、中文自然语言的表意复杂性和多样性。中文具有“一意多词”的特性,表达习惯也更加隐晦、曲折,在技术上会造成语义向量空间稀疏、离群点较多,影响跨模态匹配的准确性。2、影视领域化表达的未见性。很多领域知识是大模型在预训练阶段未见的,如影视节目、角色、动作等,在影视内容的匹配上容易效果不好,尤其是古装剧、科幻剧等领域专有表达较多的节目。自研算法能力:脚本生成自研LLM:自动及人工标注收集的领域语料,基于开源LLM框架进行多模态匹配自研QVH:基于优酷知识图谱及人工标注的领域数据,基于开源多模态框架进行SFT关键技术
影视文本生成重要性:一个内容准确、故事清晰、有一定结构的文案作为剧本串联起整个视频常见类型:解说文案:解说视频中用户的主要输入,是视频内容发展的主线,决定了视频的质量和风格悬挂词:整剪视频中点睛之笔,对亮点剧情、重要情节起到提示、转折作用,帮助用户理解技术路径:LLM
[文本生成能力]+CoT
[偏好指令理解]+RAG
[领域知识引入]+Few-Shot
[示例学习]a2m.msup.com.cn关键技术
分镜脚本生成直接使用文案去匹配视频片段面临的问题:领域化适配问题。影视领域的节目、人物、专有名词无法进行理解和匹配。中文理解问题。中文表述复杂、表意含蓄,对视频内容理解容易造成干扰。重点偏差问题。多模态大模型会根据自己的理解识别核心语义和视觉重点,造成偏差。a.
智能分镜b.
自研多要素脚本大模型自然语言镜头语言a2m.msup.com.cn关键技术
视频片段匹配过往解法:通过闭集标签来连接文案和画面缺点:标签有限,新增需重新训练丢失画面信息,无台词画面无法匹配丢失时序信息,视频≠concat(画面)解说文案:台词字幕何珊开始怀疑费可是个骗子典型做法:tag2tag
/
text_emb
x
text_emb内容向量表征语义空间对齐视频时序定位SOTA解法多模态匹配:典型做法:跨模态语义理解和匹配VideoEnc.a2m.msup.com.cn关键技术
视频片段匹配自研多模态匹配模型面临问题:领域数据差异画面差异:预训练数据偏生活日常(行人、景点等),影视内容有更多特色画面(布景、特效、虚化)镜头差异:影视内容常见场景交叉穿插、镜头快速切换,靠剧情而非视觉信息串联视频时序语义差异:同一个实体/关键词等在不同类型影视剧中有不同画面形式专有名词:
预训练数据是通过预设实体集合进行打标,与影视领域的专有名词存在较大差异挑战:训练样本构建容易:获取视频片段难点1:批量构造文本难点2:视频与文本的样本对齐模型算法指标:mAP:9.45(+55.94%),IoU:16.71(-2.74%)人工GSB评测:120:489:79a2m.msup.com.cn关键技术视频整体合成智能裁剪字幕擦除应渊人物原声否则,我只能顺应天命,除魔卫道。应渊模型音色如今魔族内乱已平,被盗法器尽数追回,已录入了妙法阁.此战,天兵死伤一千,天将折损两名,火德元帅正在天医馆探慰伤员。音色定制a2m.msup.com.cn关键技术工程化改造:工具而非“玩具”提升生产效率和产能分布式任务编排系统:生产流程拆分、单机研发服务模式、多流程并发在线:Pipeline任务框架提升生产稳定性模型推理优化任务逻辑整合基础研发环境结果:单视频生产耗时30min->6min,单机产能1000个视频/天a2m.msup.com.cn关键实践1个性化素材生产&分发易烊千玺女性
|
25-30岁
|
易烊千玺粉王一博女性
|
18-25岁
|
王一博粉街舞男性
|
18-25岁
|
街舞粉ADVANTAGE【规模化】Billion
Scale数据,人力无法完成【个性化】千人千面,海量素材中挑选你喜欢的视频,效率大幅提升【标准化】标准化生产及评估流程,闭环数据链路可持续提升能力和效果【辅助创作】为「优酷号」创作者提供素材的内容占比
95%【应用】每日处理优酷百万级以上短视频个性化分发海量素材提取自动合成/裁剪质量评估就是街舞第三季
总决赛易烊千玺
回归大秀炸场a2m.msup.com.cn就是街舞第三季
总决赛王一博
战队杨凯夺冠就是街舞第三季
总决赛巅峰对决
燃炸全场关键实践2
规模化自动生产站外宣发提升生产效率保障生产质量分发数据驱动生产前情提要节目周边高能看点供给效率低采买费用有限用户需求感知慢业务痛点核心解法内容介质获取自动化模板生产+内容评估策略全自动链路上传热点监控+自动下单自动补货策略应用场景长带短、短带长背景下的智能生产,降本增效、低成本定向生产内容a2m.msup.com.cn生产对象生产工具生产力关键实践3外投拉新促活a2m.msup.com.cn关键实践4优酷内容出海a2m.msup.com.cn关键实践5优酷自制短剧更多AI自制剧排播中……a2m.msup.com.cn谢谢观
看a2m.msup.com.cnTHANKS麦思博(ms
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育科技在小学生写作中的运用
- 二零二五年度猕猴桃树种子种植面积统计与数据分析合同4篇
- 二零二五年度离婚协议涉及房产过户及购房款补偿范本3篇
- 2025年度门楼玻璃制品加工与安装合同3篇
- 2025年度美容院美容院加盟店经营管理培训协议4篇
- 二零二五版农业科技研发与成果转化合作协议3篇
- 科技与心理辅导相结合的小学数学教育模式
- 二零二五年度研发合作服务合同2篇
- 2025年度高端咖啡厅饮品定制与销售服务合同范本3篇
- 2025年销售合同发票管理台账模板(精细管控)
- 数学-山东省2025年1月济南市高三期末学习质量检测济南期末试题和答案
- 中储粮黑龙江分公司社招2025年学习资料
- 湖南省长沙市2024-2025学年高一数学上学期期末考试试卷
- (完整版)小学生24点习题大全(含答案)
- 四川省2023年普通高等学校高职教育单独招生文化考试(中职类)数学试题(原卷版)
- 2024年3月江苏省考公务员面试题(B类)及参考答案
- 医院科室考勤表
- 春节期间化工企业安全生产注意安全生产
- 数字的秘密生活:最有趣的50个数学故事
- 移动商务内容运营(吴洪贵)任务一 移动商务内容运营关键要素分解
- 基于ADAMS的汽车悬架系统建模与优化
评论
0/150
提交评论