Meta公司研究报告全球领先的社交生态-核心业务触底回升_第1页
Meta公司研究报告全球领先的社交生态-核心业务触底回升_第2页
Meta公司研究报告全球领先的社交生态-核心业务触底回升_第3页
Meta公司研究报告全球领先的社交生态-核心业务触底回升_第4页
Meta公司研究报告全球领先的社交生态-核心业务触底回升_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Meta公司研究报告全球领先的社交生态_核心业务触底回升(报告出品方/作者:中信建投,孙晓磊,崔世峰)1.公司分析:全球领先的社交生态,核心业务触底回升1.1、公司概况:社交媒体巨头Meta为全球社交媒体公司巨头,以广告收入为核心,并着力开拓元宇宙。Facebook于2004年2月4日由美国人马克扎克伯格创建,是美国的一个社交网络服务网站,也是世界排名领先的照片分享站。公司建立各种工具,使用户能够连接,分享,探索,并相互通讯。2021年10月28日,该公司将公司名由FacebookInc.变更为MetaPlatforms,Inc.,标志着公司全面进入元宇宙领域。发展历程方面,Meta成立近20年,由单一社交媒体互联网公司Facebook转型为目前多元化的互联网公司,其发展历程大致分为三个阶段。第一阶段(2004年-2011年):2004年2月,“theF”上线,起初,网站以各大学作为根据地,之后,在Facebook中也可以建立起高中和公司的社会化网络。到2010年,世界品牌500强中Facebook超越微软位居第一,Facebook月活用户突破5亿。第二阶段(2012年-2020年):这一阶段,Facebook开始搭建社交媒体矩阵,并先后于2012年收购Instagram,于2014年收购WhatsApp及OculusVR,公司借助Instagram由图片向视频转型,借助WhatsApp完善即时通讯功能并借助Oculus展开VR领域布局。同时,这段时间Facebook也迎来了强劲增长,2017年其用户数量达到20亿人次,成为了全球范围内最大的社交媒体平台之一。第三阶段(2021年至今):Facebook于2021年11月正式更名为Meta,调整其公司架构,并全力转型元宇宙领域的布局与发展。此外,疫情红利期后用户增长进入新常态,短视频成为下一发力重心。22年全年Meta全生态用户增速降至2.8%,增长放缓。受短视频TikTok冲击,Meta加强Reels的宣传和建设以争夺短视频市场。2022年第一季度,Reels已占据Instagram用户使用时间的20%,2022年第二季度,用户使用Reels时长环比增幅超30%,此外公司开始探索Reels的商业化,并在2023年开始加速商业化进程。Meta拥有全球用户规模最大的社交媒体矩阵。通过熟人社交、图文分享及即时通讯多领域发展,Meta打造了自己的社交媒体产品矩阵,并已可以满足大多数国家用户的社交需求。在近20年的成长过程中,以Facebook平台为核心,通过自设、收购等方式,围绕社交领域逐渐延伸自己的能力圈。截止2022年底,Facebook主App为全球月活最高、访问量最多的社交媒体平台之一,Instagram、Messenger、WhatsApp的用户数也处于领先水平。截止2023年4月,Facebook的MAU达到22亿,同比增长1.4%,Instagram、Messenger、WhatsApp的MAU分别达到14、12、19亿,分别增长5.8%、-7.6%及2.8%。从广告收入的角度对比各家社交媒体平台,Meta位居全球第二,仅次于谷歌。2022年全年Meta广告收入为1136亿美元,远超字节、腾讯、等社交媒体平台。对于未来的用户增长空间,Facebook需要发挥整个生态的力量。Facebook主平台用户增长几近“稳态”,从地域维度看,Facebook在欧美地区增长基本已经停滞,而在亚太区增长也仅为个位数。2020年疫情带来线上渗透率增加的红利在近两年基本吃尽,未来用户增长更多靠互联网渗透率自然提升带来。管理团队方面,公司一直由马克扎克伯格担任首席执行官,其余各部门负责人均一直处于变动中。MarkZuckerberg在AndrewMcCollum和EduardoSaverin的支持下,于2004年2月创办了“TheFacebook”,2018年,新聘法律总顾问TheodoreW.Ullyot;新聘副总裁TheodoreW.Ullyot;新聘公司秘书TheodoreW.Ullyot,之后,公司各职位人员均处在不断变化中,目前公司的高管团队由CEO马克扎克伯格及首席财务、运营、技术、会计、法务、产品、战略官八人组成。组织架构方面,Meta组织架构经过两次调整。2004年2月4日,Facebook创立于哈佛大学校园,主要创始人马克扎克伯格。2018年5月Meta迎来成立以来最大组织架构变动,公司宣布将成立3个新部门,一个“应用家庭”部门(包括Facebook、Instagram、WhatsApp和Messenger),一个新平台部门(包括区块链技术团队、增强和虚拟现实、企业技术和人工智能),以及一个“中心产品服务团队”(包括广告、数据分析和安全等共享资源)。2021年12月,MetaPlatforms将其AI团队合并入负责开发AR/VR产品的RealityLabs部门。1.2、财务分析:走出阴霾,收入触底回升收入结构上,广告收入是公司主要营收来源,绝大多数收入来自应用家族出售的广告位,占比始终超过97%。Meta收入包括应用家族带来的广告业务和其他收入,以及虚拟现实业务的收入。2022年全年由于宏观环境的走弱,公司实现营业收入1166亿美元,同比下滑1%,为近五年以来首次出现下降趋势。而随着23Q1需求的恢复,公司收入重回增长曲线,2023Q1公司实现营收286.5亿美元,同比增长3%。22年以来净利润下滑,主要系元宇宙投入,今年开始公司重点将回归广告业务,减少VR投入。FY17-FY22,Meta毛利率基本保持稳定。得益于2020疫情以来在线娱乐生活的需求增长,公司2020-2021年净利润增长超过30%。但2022年净利润232亿美元,同比减少41%,主要在于元宇宙业务的巨额投入导致的亏损。2023Q1净利润57亿美元,同比减少24%,降幅有所收窄,盈利提升源于营销削减,裁员效果将在后续几个季度逐步体现。一季度Meta整体经营利润率回到25%,环比提升了5pct。其中VR亏损加大,但广告为主的App服务,经营利润率环比提升了5.6pct。费用率方面,2022年各项费用均有大幅增长,但一季度及后续将出现明显优化。一季度Meta裁员上万人,但由于当期还有遣散费补偿,裁员效果还未能很好体现。因此一季度的盈利提升,除了成本上相比四季度少了服务器重组费用外,还主要来源于营销费用的大幅减少。剔除一次性费用之后的真实经营利润率实际上已经恢复到29%,但与历史水平相比,还有优化空间。二季度仍然会有裁员补偿费的影响,今年3月Meta又启动了第三轮的万人裁员计划,预计还将产生近5亿美元的遣散费,将在今年后面三个季度陆续确认。公司对费用端进行持续优化,并下调了2023年费用支出指引,从890~950亿美元收窄至860~920亿美元。Meta近几个月采取了多种削减成本的行动,力求提升盈利能力。2023年资本支出指引保持不变,仍为300~330亿美元。Meta将资本开支聚焦到构建支持广告、Feed和短视频服务Reels的AI能力、以及增加生成式AI项目能力的投资。我们认为,中短期内,费用端的优化或显著改善公司的净利率水平。2.核心广告:Facebook和Instagram流量回暖,Reels加速变现以广告为核心的社交龙头。同为社交生态龙头,Meta与腾讯又有不同,腾讯在商业化方面多点开花,腾讯主要通过游戏和视频增值业务、广告、金融科技与企业服务三大业务进行货币化,22Q4广告业务占比仅为17%,短短几年就跃升中国泛娱乐乃至消费互联网行业的绝对龙头,而Meta对自己流量价值挖掘,几乎只做好了广告这一种商业模式,从收入结构上看,广告收入占比始终在97.5%以上。广告的命脉是宏观经济。2022年的广告市场意料之中的随着全球经济放缓而跌进尘埃,过去一年内,包括Meta在内的北美互联网巨头日子都相当难过,广告主的预期也一再保守。而对于宏观经济,当前可能的最大预期变化,在于经济从“强衰退”演绎为“弱增长”带来的差异,这将显著影响广告主在今年的营销投放节奏,也包含一定的边际改善。广告主对经济预期最谨慎的时期基本上发生在去年下半年,尤其是Q3(很多机构快速调整了营销预算),四季度虽然也整体偏谨慎,但相比三季度,预期没有进一步的恶化。我们认为三四季度短期过于谨慎的投放节奏并非今年全年常态,上半年可能会有惯性保守,但当经济软着陆预期越来越强,广告主的营销活动也会逐步恢复,恢复节奏有望加快。再加上去年的低基数,预计今年下半年的广告市场会有显著回暖的迹象。从22Q4的情况看,Meta广告业务重回正增长,Q2业绩指引好于预期。一季度虽然公司面临较大的宏观压力,但依靠零售广告、AI广告技术、短视频等转型的持续拉动,公司在经历长达一年的收入逆风后重回正增长,并针对二季度给出相对较为积极的收入指引。一季度Meta广告收入286.5亿美元,同比增长4%,超市场预期,VR业务在这个季度同比下滑了51%,虽然有上年同期高基数的影响,但本身的用户需求转淡也是更深层次的拖累因素。公司23Q2的业绩预期为295~320亿美元(yoy+2%-10%),其中高汇率的负面影响约1%,公司指引显著优于市场预期的295亿。从单用户广告价值看,Meta在主要地区的变现率相对较高。纵观欧美地区的变现水平,除了欧洲地区还存在一定的提升空间外,北美地区在广告变现上相比其他同行平台(Snapchat、YouTube、TikTok),其实已经算达到一个极致优越的水平,亚太地区则比较克制。站在当前时点,我们认为随着管理层经营重心从VR回归广告的转变,未来在不发生深度衰退的宏观背景下,Meta已经走完自身的下坡周期,重回增长通道。回暖的预期主要基于三驾马车:1)流量回暖;2)reels带动粘性提升并将继续扩大变现;3)TikTok竞争减弱,Meta底层社交护城河依然难以撼动。2.1、流量回暖,粘性上升前文已经提到,Facebook主平台用户增长几近“稳态”,从地域维度看,Facebook在欧美地区增长基本已经停滞,而在亚太区增长也仅为个位数增速,2020年疫情带来线上渗透率增加的红利在近两年基本吃尽。。23Q1公司DAU达到20.4亿,同比增长3.9%,主要来自于亚太区用户贡献,同比增长5.6%,环比增长2.2%;MAU达到29.9亿,同比增长1.9%,用户粘性(DAU/MAU)在短视频Reels的加持下继续新高。Facebook主站也在增加,并且环比上季度有明显的加快。自从Reels在FB上也优先透出后,Facebook从原本几乎停止增长到恢复净增。展望未来,Reels的加速渗透有望进一步推动Meta生态向更多场景渗透,同时短视频的形态也将进一步增强用户粘性。2.2、进军短视频,依托Facebook和Instagram流量推进ReelsMeta旗下Instagram与Facebook先后上线短视频功能Reels,基于自身成熟用户生态和强大流量发展迅速。2022年第二季度,Reels已占据Instagram用户使用时间的20%,2022年第二季度,用户使用Reels时长环比增幅超30%,超过45%的Instagram用户每天都与Reels互动。此外公司开始探索Reels的商业化,并在2023年开始加速商业化进程。Reels于21年初逐步投入广告以来,广告收入稳步提升,从21Q4占比1%至22Q2占比3.9%。其次对于Facebook,根据Tinuiti,在22Q2,Facebook广告收入主要来源于Feed,占比高达72.1%,而Reels的广告收入初露头角,于22Q2占比达0.9%(包括ReelsOverlay)。Reels作为22年的重要事项之首,Meta高管认为Reels的变现能力大有可观,截至22Q2,Reels的变现能力已超过了同期的Stories,累计创收超过10亿美元。Meta多次试水短视频领域,直至推出Reels。2018年11月,Meta开始试水短视频领域,上线短视频应用“Lasso”,上线后表现不佳,于2020年7月正式关闭。但是Meta没有停下发展短视频业务的脚步,2019年6月Instagram上线短视频功能“Reels”,用户可以访问来自朋友和页面的短视频,2020年8月“Reels”全面登陆全球50余个市场。2021年9月,Facebook也推出了Reels功能,并在2022年2月向全球150多个国家的用户开放。在Reels推出之前,Facebook和Instagram平台的MAU分别在20亿和10亿以上,且超过60%的用户年龄在34岁以下,已经积攒起完备的年轻用户池,而将短视频模块植入具有较大用户基础的Instagram,大幅增强了Reels的竞争力。虽然Reels上线时间尚短,但规模已经形成,是海外短视频重要玩家之一,在商业化方面目前也已吸引了部分商家和品牌入驻,广告商业化模式已初具雏形。2022年2月,Meta肯定了Instagram中短视频功能Reels的发展情况,称这是Instagram增长最快的内容格式,用户观看Reels总时长占比超过20%,未来Reels将是Meta重要的战略发展方向之一。Reels始终以追赶对标Tiktok的策略为主,从表观看,Reels的产品设计与Tiktok基本一致,但二者由于产品定位不同在算法和分发逻辑、用户结构、创作者生态方面均存在核心差异,这种差异不会因为对内容品类的简单模仿而改变。从产品定位看,Reels仅是Facebook生态的补充模块,Tiktok作为独立短视频产品更能满足行为上瘾式消遣需求。Reels属于Instagram的其中一个模块,入口并不明显,不具备独立的主页面、创作入口,操作略显繁琐,而Tiktok相对直观,进入APP即为短视频内容。单从用户进入短视频功能后的使用观感看,Tiktok与Reels差异并不显著,但从创作者视角看,Tiktok具有明显优势,主要表现在:创作素材(音乐、特效及滤镜)、UI设计等。首先,Tiktok因版权购买,在音乐资源库方面拥有独特优势。Musical.ly前期通过股权出让和短时长音乐采买的概念获得了一年一签的音乐版权资格,为Tiktok的版权资源奠定基础;而脸书系受制于版权政策,音乐库资源较少;就特效、滤镜库来说,Tiktok可以从多种效果、模板和滤镜中选择滤镜功能,而Reels侧重于更美观的修饰滤镜。音效方面Tiktok有多种有趣音效和画外音工具,而Reels不能给声音添加有趣效果;UI设计方面,Tiktok的剪辑入口为一级入口,而Reels的剪辑入口不在主页面,降低创作者的使用便捷性。Facebook系应用具有强社交属性,其社交地位难以被TikTok取代。根据22年10月GWI在16-64岁人群的调查,47%的互联网用户使用社交媒体的主要原因为和朋友和家人保持联络,排名第一;其次,35.4%的用户使用社交媒体的原因为打发时间。本质上来说,和熟人社交仍是大多数人使用社交媒体的头等动因。在这点上,尽管目前TikTok发展十分强悍,但是其依然无法取代Meta在熟人社交和通讯的地位。根据功能定位,用户使用Facebook的主要功能为给家人或朋友发消息,而TikTok的这项活动的占比是最低的。因此尽管TikTok对Meta造成了一定的冲击,但用户使用Facebook系应用进行社交的刚性需求不会改变,Meta的社交龙头地位仍难以撼动。Tiktok用户相比Reels更加年轻化,用户画像上与Snapchat更为接近。由于功能定位和用户画像不同,受TikTok影响最大的可能是Snapchat而非Facebook和Instagram。根据emarketer,Instagram用户主要分布在25-34岁之间,其次是18-24岁,而大多数Tiktok用户年龄分布在15-24岁之间。Reels算法逻辑整体与Tiktok类似,从侧重上看Tiktok的算法更重内容,Reels更重社交,但Tiktok精细化程度高于Reels。ReelsExplore实行两阶段排名系统。首先是候选生成阶段,在为“探索”页面策划内容时,算法首先寻找人们之前与之交互过的“种子”帐户,分析出一个人可能感兴趣的账户。接下来是排名阶段,Instagram通过分析人们在媒体上已经采取的个人“动作”(如“喜欢”、“不喜欢”)来预测其何种动作能够表示其对内容的特定态度,并借此衡量一段内容与给定用户的相关程度。Tiktok的ForYou推荐系统使用流量池算法机制:推荐算法遵循螺旋上升机制进行流量分发,不断使优质内容最大化曝光,社交属性相对较弱。此外,Tiktok相较于ReelsExplore的权重体系更加精细化。除了与Reels相似的用户交互行为,播放时间、视频详细信息、设备所设置等多方因素都会被ForYou算法考虑在内。Tiktok的算法打造了相对更低的创作门槛和更有利于新创作者的分发机制,形成更优质的UGC创作生态。基于以上对Tiktok和Reels算法的分析,我们发现:Reels更加倾向于传达熟人和关注对象、其次是头部账号的短视频,吸引原有用户的能力更强,新账号创作的作品的分发权重较低,也不会被广泛传播给潜在的陌生受众,这导致在Reels发展新账号的冷启动周期更长,抑制了新用户的创作热情。而Tiktok的算法更着重于内容,能够出现爆款传播,对创作者的正反馈更强。从数据上看,Tiktok用户对于红人原生内容的互动率超过了InstagramReels,而对于已经具有品牌和强大影响力的账户在Reels上的影响力更大。InstagramReels多方面对标Tiktok,鼓励用户创作热门话题的衍生内容,拓宽短视频录制时长范围,简化入口界面设计。早先Reels出于对原创者的版权保护,并不鼓励这类型二创,一定程度上阻碍了传播路径,无法形成爆款,为改善这一问题Reels推出RemixforPhotos功能,允许用户重新混合他人视频,逐步向Tiktok看齐。Reels进一步延长短视频的录制时长对标Tiktok,此外还宣布15分钟以内的新视频帖子将自动转化到Reels上,这不仅意味着Instagram放宽了短视频上传的门槛,还打通了Instagram视频和Reels的分界。最近Instagram启动了对全屏的测试,该测试将常规帖子、Stories和Reels合并到一起,复刻了Tiktok的版面设计。3.XR:逐步减亏,新品多点开花3.1、系列产品:收购Oculus,全球最大的硬件设备商目前Meta已发售六款VR相关产品。2014年3月,Facebook宣布以20亿美元的价格收购了Oculus。2016年,Oculus发布了OculusRift第一个消费者版本OculusRift“CV1”,OculusTouch控制器、全空间动作感应、头部追踪、高分辨率屏幕和PC连线的功能使Rift大获成功。2017年10月,Oculus与我国电子产品制造商小米合作,推出了OculusGo,这是Oculus推出的第一部VR一体机。2019年2月,Oculus推出了OculusQuest,继OculusGo之后发布第二台VR一体机。2019年3月,Facebook与中国电子制造商联想合作推出了OculusRiftS,这是最初RiftPC头戴设备的升级版。2020年,经过前两款VR一体机之后,Oculus推出了屏幕分辨率、刷新率、存储和处理能力更好的Quest2。之后,在众多企业纷纷入场VR头显赛道的同时,Meta在2022年10月12日凌晨的VR年度大会Connect上,推出全新VR设备QuestPro,较Quest2实现了硬件及性能的多重升级。Meta元宇宙的用户数逐步增长,OculusQuest2销量已过千万,但近期由于涨价销量不及预期。现阶段Meta以断崖式领先占据全球VR市场份额第一,数据显示2022年Meta全球市占率飙升至八成。具体到产品,Quest2贡献了80%以上的出货量。上市六个月之后,OculusQuest2的销量超过此前发布的Oculus系列产品销量的总和,并且于2021年11月其销量突破1000万,这被认为是行业开始复苏,迎来拐点的一个标志。截至2022年上半年,IDC估计Quest2的全球累计销量已达到1480万台。2022年7月底,Meta表示,128GB与256GB版本Quest2都将涨价100美元,8月1日开始实施。Quest2的涨价对销量产生了严重影响,Quest2本身已面临产品老旧的问题,明年Quest3有望面世,在涨价的冲击下,全年Meta产品销量预计将为750万台,较年初市场预期腰斩。截至2023年2月,Quest系列产品出货量已达2000万台。在2022年市场疲软之后,IDC下调了对2023年AR和VR出货量的预测。根据IDC发布的《全球AR和VR头盔季度追踪》报告,2023年全球AR、VR头盔的出货量预计将达到1010万台。尽管IDC下调了预测值,但其预测总出货量在2023年仍将有14%的增长,并在2023至2027年间加速增长,未来五年的复合年增长率预计为32.6%。根据财报,负责VR/AR元宇宙业务的RealityLabs投入持续升高。该部门在2022年第四季度的营收为7.27亿美元,同比下降17.1%,亏损额达42.79亿美元。不过,与2022年第三季度同比下降约50%相比,2022年第四季度的降幅要小得多。2022年第三季度的收入是Meta开始公布RealityLabs财务数据以来最低的,而2022年第四季度的收入是有史以来第二高的。7.27亿美元营收的成本却达到了惊人的50亿美元,是Meta开始公布RealityLabs财务数据以来最高的。首席财务官解释说,这主要是“与员工相关的成本和重组费用”——指的Meta在全公司进行的超过1.1万人的裁员中所涉及的遣散费。3.2、新品:VR、AR、智能穿戴设备多点开花未来五年,Meta计划推出三款VR头显、四款AR眼镜及一款智能手表。按现有的产品路线图,Meta将在2023年推出代号为Stinson的消费级VR头显Quest3,2024年推出代号为Ventura的低价版消费级VR头显,2025年推出代号为LaJolla的工作VR头显。依照旧例,Meta应该会在今年MetaConnect大会上推出新的消费级VR头显Quest3。据透露,Quest3采用Pancake技术,搭载透视摄像头,其头显前端现实区域相较Quest2薄两倍,功能至少增加一倍,价格则会略高于“400美元”。代号为LaJolla的头显或许将成为Meta工作头显系列的“继任者”,该产品将于2025年推出,据介绍,该头显将拥有更高的分辨率,并且能够实现真正地工作、编写文本等,其设计中将引入从QuestPro中获取的头显设计、分离式架构等等。代号Ventura的VR头显定位则是以最具吸引力的价格为VR消费市场提供最大的冲击力,或许该头显将会成为下一个“Quest2”。目前,Meta正在打造三条AR眼镜产品线,推进四款AR眼镜的研发。此前,Meta曾在2021年9月推出第一款智能眼镜Ray-BanStories,可以拍摄,并且眼镜框两侧的扬声器可通过蓝牙播放声音。今年秋天,Meta将推出第二代配备摄像头的智能眼镜。2024年,Meta将在员工中内测代号为Orion的AR眼镜。2025年,Meta将推出第三代智能眼镜,该设备将拥有显示屏,并且将配备一个肌电手环。2027年,Meta将正式发布代号为Orion的AR眼镜,并且还将迭代此前的产品。第三代智能眼镜将成为Meta的重要产品之一。该设备将会配有一个“取景器”的显示屏,可以查看收到的信息、扫描二维码以及实时翻译,配套的肌电手环使用户可以通过手部动作来控制眼镜。而代号为Orion的AR眼睛目前Meta已经研发了8年之久,将采用更先进的技术,定价也更高,该设备希望能够将高清的全息图投射到现实世界中。Meta还在开发一款拥有神经接口的智能手表。该手表将搭配第三代智能眼镜使用,可以让用户通过虚拟键盘打字的速度和使用手机键盘的速度不相上下。目前市场中Meta遥遥领先,苹果即将发布的MR有望实现冲击。目前苹果MR的配置较高,索尼原厂的单眼4KMicro-OLED显示器、120FOV(视场角)的3PPancake光学模组,八个面部和眼部摄像头,正面追踪摄像头+dtof的激光雷达,以及外置供电设备。通过外置供电可以减轻设备重量,Pancake方案则减小了设备体积,更加轻巧,目前的缺点是成本比较高,产品定价在3000美金左右。由于产品体验问题,苹果MR可能无缘WWDC23。具体原因有:全球经济低迷,消费电子行业下行;苹果不想为了量产而在硬件规格上有所妥协;目前头显的应用程序准备不足;3000美元的售价过高影响销量。除此之外,由于量产时间延后,苹果MR头显出货量仅为20-30万部,可能少于此前的预计出货量100万部。4.生成式AI:发布SAM、LLaMA等大模型,前景可期4.1、SAM模型:CV界的GPT模型4.1.1、SAM模型能做什么?2023年4月5日,Meta宣布推出SegmentAnythingModel(SAM),能够根据文本指令等方式实现图像分割,并且万物皆可识别和一键抠图。同时,Meta也发布了通用的图像大模型SegmentAnythingModel(SAM)与对应的数据集SegmentAnything1-Billionmaskdataset(SA-1B)。SAM是一个可以接受文本提示、基于海量数据训练而获得泛化能力、可以对任意图片进行分割的模型,而SA-1B则是目前最大的分割数据集。这一通用的分割模型的核心思想是在用户输入的指令下分割一切。Meta通过三个相互关联的关键部分来构建分割的基础模型。这三个关键部分分别是,可提示的分割任务,支持数据注释并通过提示工程将零样本传输到一系列任务的分割模型(SAM),以及一个用于收集SA-1B的数据引擎。这一基础模型的第一个关键部分,可提示的分割任务(Promptablesegmentationtask),指在给定任何提示(Prompt)的情况下返回有效的分割掩码。MetaAI团队的灵感来自于NLP,希望可以将NLP领域的Prompt范式延展到计算机视觉(CV)领域。其中,图像分割的提示可以是一组前景/背景点、粗略框或掩码自由格式的文本,或者指示分割图像的任何信息;掩码的有效则指,即使提示不明确、并且可能涉及多个对象,输出也应该是其中至少一个对象的合理掩码。提示形式的多样化是SAM的一大亮点。除了简单的识别图片中的物品之外,SAM还支持用户使用各种交互性的方式来分割出想要的物体。用户可以通过将鼠标悬浮在该物体之上,就能自动定位出物体的轮廓。用户也可以直接输入文字查询,AI就可以帮助找到并标记出这个图片中用户想找的这个文字对象。对于视频中的物体,SAM也能准确识别并且还能快速标记出物品的种类、名字、大小,并自动用ID给这些物品进行记录和分类。这一基础模型的第二个关键部分,SAM模型(SegmentAnythingModel),包括三个组件:图像编码器、灵活的提示编码器和快速的掩码解码器。因为可提示的分割任务和现实世界使用的目标对模型架构施加了约束,该模型必须支持灵活的提示,需要分摊实时计算掩码以允许交互式使用,并且必须具有歧义识别能力。Meta通过简单的设计满足所有三个约束:一个强大的图像编码器计算一个图像嵌入,一个提示编码器嵌入提示,这两个信息源被组合在一个轻量级掩码解码器中,预测分割掩码。相同的图像嵌入可以在不同的提示下重复使用(及其成本分摊)。给定一个图像嵌入、提示编码器和掩码解码器在约50毫秒的网络浏览器中根据提示预测掩码。Meta专注于点、框和掩码提示,并且还使用自由格式的文本提示呈现初始结果。为了使SAM具有歧义意识,Meta将其设计为预测单个提示的多个掩码,即,使用一个输出,如果给定一个具有歧义的提示,模型将平均多个有效掩码。实验发现3个掩码输出足以解决大多数常见情况(嵌套掩码通常最多三个深度:整体、部分和子部分)。在训练期间,仅反向传播掩码的最小损失。为了对掩模进行排名,该模型预测每个掩模的置信度分数。这一基础模型的第三个关键部分,则是用于生成包含了一组1100万张得到许可的新图片和11亿掩码的SA-1B数据集的数据引擎(SegmentAnythingDataEngine)。由于互联网上的分割掩码并不丰富,MetaAI团队构建了一个数据引擎来收集数据集SA-1B。数据引擎分为三个阶段:(1)模型辅助手动注释阶段;(2)混合自动预测掩码和模型辅助注释的半自动阶段;(3)全自动阶段,在该阶段中,我们的模型在没有注释器输入的情况下自动生成掩码。这三个关键部分组成的这一基础模型,能够对具有不同数量掩码的图片实现较为准确的自动分割。4.1.2、SAM模型有何创新性?在SAM之前,有两类方法可以解决不同类型的分割问题,但都没有提供通用的全自动细分方法。第一种是交互式分割,允许分割任何类别的对象,但需要一个人通过迭代完善掩码来指导方法。第二种是自动分割,允许对提前定义的特定对象类别(例如猫或椅子)进行分割,但需要大量手动注释的对象来训练,以及计算资源和技术专长来训练分割模型。SAM是这两类方法的概括与升级。它是一个单一模型,可以轻松执行交互式分割和自动分割。模型的提示界面允许以灵活的方式使用它,只需为模型设计正确的提示,即可完成广泛的分割任务。此外,SAM在超过1亿个掩码的多样化,高质量数据集上进行训练,这使其能够泛化到新型对象和图像,而不是在训练期间观察到的。这种泛化能力意味着,总的来说,从业者将不再需要收集自己的细分数据并为其用例微调模型。概括而言,与其他的计算机视觉模型相比,SAM在以下几个方面体现出其创新性。(1)拥有目前最大的分割数据集:SAM的训练数据集包括1100万张图像和11亿个掩码的海量数据集。(2)具有较强的零样本性能:SAM在分割任务中能对从未训练过的图片进行精准分割,初步验证了多模态技术路径及其泛化能力。(3)提示形式多样性:开创性地结合Prompt模式,标志着自然语言处理的Prompt模式开始被应用在了计算机视觉领域。4.1.3、SAM模型目前的局限性在哪里?进行一个更高层次的任务,即根据自由形式的文本分割对象后,确实证明了SAM具备一定的处理文本提示的能力。SAM可以根据简单的文本提示(如“车轮”)以及短语对对象进行分割。当SAM无法仅从文本提示中选择正确的对象时,需要借助额外的点提示,通常就能修复预测。SAM模型依旧存在进步空间。此外,SAM模型与当前尖端的伪装物体分割模型依旧有很大的差距。背景匹配伪装,是一个或者多个生物为了防止被发现,尝试将其颜色与周围环境“无缝地”匹配的行为。SAM伪装目标分割任务是检测出那些与自然栖息地中有着相似模式的物体。通过实验得到,在自然场景中,SAM模型辨别、分割隐蔽动物具有一定难度。不仅如此,在工业场景中SAM亦无法做到“分割一切”。由于工业场景中通常是短焦距下拍摄的近景图像,所以SAM模型更倾向于去分割整个物体或者是物体的主体部分。同时,SAM模型难以区分缺陷区域和纹理背景之间的差异性,针对于工业场景中缺陷区域检出能力较差。4.2、LLaMA:AI大型语言模型4.2.1、LLaMA:开源语言大模型2023年2月24日,Meta的FAIR团队宣布推出LLaMA模型,旨在帮助研究人员和工程师探索人工智能应用和相关功能,能够应用于生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面。LLaMA训练数据集是不同来源的组合,涵盖众多的领域。从参数规模来看,大语言模型LLaMA包括四种尺寸:7B、13B、33B和65B,FAIR团队用1.4万亿个tokens训练了LLaMA33B和LLaMA65B,参数规模最小的模型LLaMA7B也用了1万亿个tokens进行了训练。与其他大型语言模型一样,LLaMA的工作原理是将一系列单词作为输入并预测下一个单词以递归生成文本。为了训练模型,FAIR团队从使用最多的20种语言中选择了文本,重点是那些使用拉丁字母和西里尔字母的语言。与GPT、Gopher、Chinchilla及PaLM等同类成果比较,其他几种模型都用到了广泛的公共数据,但也引入了某些非公开可用或未记录在案的文本数据。而LLaMA则仅使用公开可用的数据集进行训练,所以虽然自身尚未开源,但该模型与开源原则完全兼容。性能较好:在大多数基准测试中,参数仅为十分之一的LLaMA-13B的性能优于OpenAI推出的GPT3(175B),也即支持ChatGPT的GPT3.5的前身。LLaMA-65B也可与业内领先的Chinchilla-70B和PaLM-540B竞争。LLaMA使用Transformer作为decoder,在结构上它与GPT非常类似。LLaMA的SA与原始Attention存在一定区别,同时其FFN进行了改进。该模型使用的Transformer也在以下两方面作了优化:第一,预规范化。为了提高训练的稳定性,将每个Transformer子层的输入归一化,而不是输出归一化。使用由Zhang和Sennrich(2019)引入的RMSNorm归一化函数。第二,引入RMSNorm(RootMeanSquareLayerNormalization),这是一般LayerNorm的一种变体,可以在梯度下降时令损失更加平滑。与layerNorm相比,RMSNorm的主要区别在于去掉了减去均值的部分,只保留方差部分。4.2.2、LLaMA具有参数规模小、训练数据多、完全开源的特点LLaMA参数规模小,对算力要求低。在大模型上,人们似乎都会假设更多的参数会带来更好的性能。但是Hoffmannetal.(2022)的工作表明,在给定的计算预算下,最好的性能不是由最大的模型实现的,而是由在更多的数据上训练的小模型实现的。和谷歌、微软不同,在大型语言模型上,Meta选择了算力和资源要求更少的小模型。LLaMA模型在大量未标记的数据上进行训练,因而非常适合对各种任务进行微调。Meta推出的LLaMA参数规模有70亿(7B)、130亿(13B)、330亿(33B)和650亿(65B)四种。相比ChatGPT的底层模型OpenAIGPT-3有1750亿(175B)个参数,LLaMA模型的参数量很小。Meta首席AI科学家杨立昆(YannLeCun)表示,在一些基准测试中,LLaMA130亿参数规模的模型性能优于OpenAI推出的GPT3,且能跑在单个GPU上;650亿参数的LLaMA模型能够和DeepMind700亿参数的Chinchilla模型、谷歌5400亿参数的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论