计算机行业策略报告把握AI主线下四大投资方向_第1页
计算机行业策略报告把握AI主线下四大投资方向_第2页
计算机行业策略报告把握AI主线下四大投资方向_第3页
计算机行业策略报告把握AI主线下四大投资方向_第4页
计算机行业策略报告把握AI主线下四大投资方向_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机行业策略报告把握AI主线下四大投资方向(报告出品方:中信建投证券)一、行业回顾1.1市场行情回顾信创、数据要素、AI轮番驱动,计算机板块显著跑赢大盘。2022年10月美对华芯片出口管制、二十大提出“统筹安全与发展”,信创节奏预期带动计算机板块行情,10月底伴随着《全国一体化政务大数据体系建设指南》等数据要素市场政策陆续推出,信创+数据要素共同带动计算机板块春节前上涨行情。春节后,微软数十亿美金投资openAI,ChatGPT、GPT-4等大模型陆续发布,国内大厂纷纷跟进,算法、算力、数据、应用等AI相关板块领涨市场,带动计算机板块显著跑赢大盘。2022年10月至春节前,主要指数均出现反弹,其中计算机板块大幅上涨28.41%,显著跑赢其他主要指数。春节后,在AI大模型的推动下,计算机板块继续上涨,4月以来略有回调,但整体涨幅仍有11.88%,相对其他主要指数仍保持较大的相对收益。截至5月4日,计算机(申万)显著跑赢大盘,年初以来涨幅达25.81%,位列申万一级行业第3位。1.2行业及子板块业绩回顾2022年行业营收增速有所放缓,毛利率下滑以及研发投入增长导致利润同比下滑。截止2023年4月30日,申万计算机行业总计348家上市企业,剔除B股上市公司共计346家(下同)。2022年全年合计实现营业收入11674.21亿元,同比增长1.18%,增速中位数为0.8%;实现归母净利润307.92亿元,同比下降44.57%,增速中位数为-13.9%;实现扣非净利润198.69亿元,同比下降50.35%,增速中位数为-6.2%。从费用率情况来看,2022年行业销售费用率、研发费用率同比略有上升,财务费用率略有下降。2022年全年行业整体销售费用率为7.66%,同比上升0.38个百分点;2022年全年行业整体研发费用率为9.25%,同比上升0.82个百分点。2022年受多地散发疫情影响,部分项目四季度未能完成验收确认收入,导致行业整体利润端表现不佳,毛利率相较2021年同期下降0.62个百分点。行业整体营收同比基本持平,一季度毛利率同比小幅提升,非经常性项目损益较大,归母净利润整体实现较大幅度增长。一季度行业费用率同比提升明显,整体扣非净利润出现亏损,同比下滑明显。2023年一季度346家公司合计实现营业收入2329.02亿元,同比下降1.27%,增速中位数为6.6%;实现归母净利润48.94亿元,同比上升62.83%,增速中位数为22.7%;实现扣非净利润-8.17亿元,增速中位数为22.0%。从费用率情况来看,2023年一季度行业销售费用率、研发费用率同比略有上升,财务费用率略有下降,归母净利润提升主要来自于毛利率提升及非经营性损益提升,包括政府补助、投资收益等,扣除非经常项目损益后的净利润下降,主要原因系行业整体销售、研发费用率的提升。2023年一季度行业整体销售费用率分别为8.81%,同比上升0.81个百分点;2023年一季度行业整体研发费用率为11.09%,同比上升1.07个百分点。2022年疫情影响较大,仅过半数企业实现收入增长。从收入增速结构来看,剔除B股的346家上市公司中184家公司2022年全年收入实现同比正增长,占比较2022年三季度有所下滑。其中,超8成公司全年收入增速处于-30~30%区间。对于多数计算机公司而言,收入确认与验收基本集中在第四季度,2022年四季度疫情有所爆发,导致大量验收确认工作无法正常推进,影响行业内公司全年财务表现。疫情影响逐步消退,超六成公司一季度实现收入增长。从收入增速结构来看,剔除B股公司,346家上市公司中216家公司2023第一季度收入实现同比正增长,相较2022年全年实现同比正增长的184家有明显提升。其中,超7成公司前三季度收入增速处于-30~50%区间,10家公司2023年一季度收入实现翻倍增长,主要原因为去年一季度收入基数较低,或近一年内发生了独立上市、投资并购等事件。对于多数计算机公司而言,收入存在较为明显的季节效应,收入确认与验收基本集中在第三、四季度,第一季度收入在全年中占比相对偏小,波动也较大。一季度随着疫情影响逐步消退,生产生活节奏恢复正常,多数计算机公司订单情况表现良好,部分2022年四季度受局部疫情影响导致的项目验收、实施延后,使得本应2022年四季度确认收入的项目延期至今年一季度或二季度,也为部分公司贡献了2023一季度的收入增长。整体来看,计算机行业2023年第一季度收入略有提升,随着经济复苏进一步推进,招投标项目加速推进并进入实施阶段,2023年全年计算机公司收入情况有望实现稳步增长。2022年疫情影响下多数企业利润出现下滑,超两成企业由盈转亏。从利润情况来看,2022年计算机行业中仅17家企业利润实现扭亏,120家企业亏损,其中盈转亏企业77家,续亏企业43家,行业内公司受疫情影响较为明显,部分项目延期至2023年上半年确认收入及利润。一季度利润端基数偏小导致波动较大,盈转亏及扭亏企业占比基本相当。从利润情况来看,2023年第一季度计算机行业中亏损企业162家,33家企业盈转亏,34家企业扭亏。考虑到计算机行业大多数公司收入端存在季节效应,同时成本端为各季度平摊,因此一季度利润端亏损企业占比较高属正常现象。全行业2023年一季度实现归母净利润增速62.83%,增速中位数22.7%,体现行业当前处于良好发展趋势,随着下半年收入确认高峰期来临,预计全年行业利润有望实现触底回升。2022年行业龙头业绩稳定性更强,23年Q1疫情缓解经济复苏中小企业业绩弹性更大。对比总市值大于500亿元的大型龙头企业与其他企业业绩,可以看出大型企业具备更强的抗风险能力,中小企业具备更强的业绩弹性。截至2023年4月30日,申万计算机行业分类中500亿市值以上的上市公司共计16家,包括海康威视、金山办公、科大讯飞、三六零、宝信软件、同花顺、恒生电子等各领域龙头企业,相较2022年底的11家有明显提升。2022年全年,大型企业营收增速6.19%,其余企业营收下降1.10%,显示了大型企业在宏观环境波动情况下的业绩稳定性;2023年Q1,大型企业营收同比减少6.88%,其余企业增速达到1.58%。利润端来看,2022年全年受疫情影响交付及收入确认等因素影响,大小市值公司利润均有较大幅度下滑,大市值企业利润下滑幅度显著低于中小企业;2023年Q1,其余企业利润迅速增长,同比增速达到132.03%(2022年同期为亏损),体现出疫情缓解后中小企业业绩恢复的强大弹性。总体来看,大型企业在2022年疫情影响现出更强的业绩稳定性,其余企业在2023年Q1表现出较强弹性,业绩迅速恢复。1.3基金持仓及估值截至5月4日收盘,申万计算机行业PE(TTM)(剔除负值)为54.85倍,处于2017年以来的88.4%分位水平。2022年10月以来,计算机板块行情持续回升,当前估值水平已经回升到较高水平。从板块估值来看,当前计算机多数子行业估值逐步回升。截至5月4日,医疗IT、教育IT、金融IT、卫星及遥感应用等板块PE(TTM)分别为84.05、63.47、51.78、80.70倍,分别处于2017年以来95.6%、91.6%、78.9%、83.1%分位水平,回升到较高水平。工业互联网及工业软件、企业级服务、互联网金融等板块的估值水平还处于历史分位数30%及以下,仍有估值修复空间。根据wind一致预期,截至5月4日,申万计算机行业2023年预测市盈率39.01倍,智能汽车、教育IT、智慧城市、金融IT、工业互联网及工业软件、企业级服务、互联网金融、能源及电力信息化等子板块2023年预测市盈率低于行业平均水平。2022年10月以来,信创、数据要素、AI带动计算机行情回升,2022Q4和2023Q1基金持仓计算机比例持续回升。2023年一季度末公募基金计算机持仓占比已经由2022年二季度末的2.29%回升至5.84%,目前处于2017年以来的较高水平。重仓持股集中度回落。从持股集中度来看,2023Q1末计算机行业重仓股前五持仓市值占行业整体持仓市值的42.66%,前十占比为60.34%,集中度环比大幅回落,环比2022Q4分别回落5.67和5.70个百分点。从计算机前十大重仓股变化来看,2023年一季度末科大讯飞、同花顺、三六零晋升前十大重仓股,金山办公重仓市值升至行业第一,2022年四季度末前十大重仓股金蝶国际、用友网络、航天宏图退出前十,三只股票一季度分别下跌24.01%、上涨4.05%和上涨11.40%。2023年一季度计算机前十大重仓股多数出现一定幅度上涨,其中只有纳思达录得涨幅,重仓市值也下降至行业第五。十大重仓股中,受益于AI大模型推动,金山办公、科大讯飞、同花顺、三六零一季度涨幅较大,重仓市值环比2022年四季度提升明显。二、投资展望2.1市场展望ChatGPT的出现是当前计算机板块最重要变化之一。党的十八大以来,党和国家大力推进新一代信息技术发展,人工智能技术被广泛应用到工业、服务业、农业等经济发展各领域,推动经济快速朝着智能化方向发展。2017年国务院印发《新一代人工智能发展规划》,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施,部署构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国,人工智能已经上升为国家战略。“十四五”数字经济发展规划提出了数字经济发展的目标和任务,其中包括加快数字化基础设施建设,推动数字化技术应用创新,加强数字安全保障等,深化新一代信息技术集成创新和融合应用,加快平台化、定制化、轻量化服务模式创新,打造新兴数字产业新优势。人工智能在推动产业转型升级促进数字经济发展中将发挥重要作用。ChatGPT具备生成自然语言的能力,可以实现多种语言任务,如问答、对话生成、文章创作等,其强大的功能在商业领域已经逐步得到体现,预计未来以GPT-4位代表的多模态大模型将对人类生产力和创造力的提升带来积极影响。回顾工业革命、互联网、移动互联网的出现,生产力提升后均给社会带来了巨大的变化。机器的发明和使用是工业革命最大的变化,在很大程度上取代了手工劳动,使得生产过程更加高效、更加精密,劳动分工更趋专业化,钢铁、机械、汽车等新兴行业得以发展。互联网的出现大大加快了信息传递的速度,人们可以更加便捷、高效地进行信息交流和信息共享,也使得生产过程更加智能化和自动化,互联网的创新发展与各领域融合应用,电子商务、在线教育、在线医疗等新兴数字经济产业得以发展。此次以大语言模型为代表的生成式大模型带来的生产力提升,预计未来也将给各行各业带来较大的生成关系和商业模式变化。目前,海内外各路巨头们纷纷斥巨资加入到AI的布局,整个行业正在快速发生变化。在A股市场同样表现出对AI的热情,到目前为止大致分3个阶段:1)概念为主,春节期间GPT的出圈,导致春节后第一阶段市场先买人工智能标签票:海天瑞声、云从科技、科大讯飞、拓尔思、汉王科技等领涨市场;2)逻辑为主,微软推出copilot展示后,市场第感受到了生产力的巨幅变化,机构加速入场,AI卡位好且逻辑好的龙头票受到机构青睐:金山办公、同花顺、360、寒武纪、科大讯飞等;3)变化为主,在各巨头纷纷加入大模型后,市场更青睐去买由于AI带来变化的股票,例如万兴科技率先接入GPT,且一季报好,用户数有变化;海外开始讨论数据版权收费问题后,中国科传因为数据收费的变化而涨;光模块800g变化预期,光模块大涨;福昕接入GPT后大涨等。因此,我们认为现阶段,市场已经对于AI变革的重要性达成共识,而AI主要围绕算法、算力、应用、数据四个方向。从投资策略来看,后续在AI浪潮下,核心思路还是应该关注这几个方向内能产生变化的个股。2.2算力相关投资机会展望2.2.1人工智能大模型浪潮推动智能算力需求提升机器学习于2015-2016年开启了大模型时代,人工智能算法加速发展。在NLP领域,OpenAI团队于2018年提出了采用Transformer架构的大模型GPT-1,其使用了大规模无监督预训练的方法,实现了连贯自然语言文本的生成。随着GPT大模型的持续迭代,OpenAI团队分别于2019、2020、2023年发布GPT2-4,大模型的参数量、预训练数据量逐代提升,GPT3.5的训练参数量已达到1750亿,GPT4参数量预计在2000-3000亿之间。我们认为,随着Transformer模型广泛的应用,参数量和预训练数据量的增加提升了模型整体的表现,千亿级参数量的模型不断涌现。在GPT-3发布之后,模型参数的增多显著提升了模型对于文本理解的准确性,海内外头部厂商纷纷布局研发新一代超大规模NLP模型。基于ChatGPT的成功经验,各厂商也积极推动大模型在问答方面的应用,包括GoogleBard、百度文心一言、阿里通义千问等。当前,有更多的玩家布局AI大模型赛道,投入到超大规模语言模型的开发,意味着超大规模NLP模型的迭代速度有望提升,模型参数量及预训练数据量需求也有望增加。在玩家增多以及模型迭代的双重促进下,我们预见未来大语言模型带来的算力基础设施建设需求将进一步扩张。2.2.2人工智能大模型浪潮推动智能算力需求测算在国内大模型陆续上线后,算力消耗有望呈现指数级增长。今年4月,ChatGPT曾因大规模封号引发热议,在4月5日,其正式关闭了ChatGPTPlus的申请通道,原因为算力需求不足。ChatGPT在发布几个月后即面临到算力缺口,国内大量已经或即将上线的大模型预计也面临巨大的算力需求。国内外大厂腾讯、阿里、、亚马逊、英伟达等近期先后入局大模型算力服务,通过优化AI框架、模型编译等降低算力成本,为外部企业提供普惠算力支持,打造自身的云生态。AI大模型的算力需求主要来自模型预训练、Fine-tune微调、日常运营三部分。由于同一通用大模型可以通过不同的Fine-tune生成不同的执行具体任务的大模型,因此Fine-tune环节算力需求特异性强,与下游任务的复杂度有关,较难估计。以下我们对国内大模型的预训练及日常运营所需的算力进行了简要测算。据OpenAI团队发表于2020年的论文《LanguageModelsareFew-ShotLearners》,训练一次13亿参数的GPT-3XL模型需要的全部算力约为27.5PFlop/s-day,训练一次1746亿参数的GPT-3模型需要的算力约为3640PFlop/s-day,得出参数量每增多1亿,预训练所需算力平均增加2PFlop/s-day。根据已知消息,华为盘古大模型参数量为2000亿,百度ERNIE3.0为2600亿,阿里M6大模型虽然参数量达到万亿级,但官方宣称该模型成倍降低了能耗和算力需求,以当前公告或新闻粗略统计,中国正在或计划预训练的大模型有超过30个,平均每个的参数量为2000亿,因此全部预训练一次带来的算力需求即为120000PFlop/s-day(=2PFlop/s-day*2000*30),即以一万亿次每秒的速度计算,需要120000天。据Fortune杂志,每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元。而根据国内互联网用户活跃度预测:百度搜索日活用户大约为2亿人,微信日活跃用户大约为11亿,由于现在开发NLP大模型的几家互联网企业已经覆盖了互联网的各种使用场景,在未来国内大模型初步开放使用时,假定每人同时只使用一种大模型,且日均调用次数一次,那么国内大模型日常运营成本将达到200万美元/天(2亿*0.01美元);大模型完全成熟后,日常运营成本将达到1100万美元/天(11亿*0.01美元)。此外,据Lambda,使用训练一次GPT-3模型所需花费的算力成本超过460万美元;据OpenAI,训练一次GPT-3模型需要的算力约为3640PFlop/s-day。我们假设单位算力成本固定,计算出单位算力成本为0.126万美元/(PFlop/s-day),则国内大模型初步开放使用时,日均算力需求将达到1580PFlop/s-day;当国内大模型完全成熟后,日均算力需求将达到8700PFlop/s-day。2.2.3智能算力增长对应AI服务器需求测算按照估算,假设国内存在30家大模型,则预训练算力需求大约为120000PFlop/s-day,假设大模型一次预训练需要1周,则日均算力需求约为17100PFlop/s-day;而日常运营算力需求按初步开放的日活跃用户2亿人计算,由于白天使用人数多于夜晚,因此假设白天使用热度是夜晚的2倍,再修正假设为每人每天平均与大模型互动6次,则前文估算的日常运营算力需求经折算后,日均算力需求约为6320PFlop/s-day;若按大模型成熟后活跃用户11亿人计算,日均算力需求为34760PFlop/s-day。考虑企业算力设施的可复用性,即企业用来预训练的服务器可以用于日常运营大模型,则短期预测中日均算力需求为每天17100PFlop/s-day,长期预测中日均算力需求为34760PFlop/s-day。而以浪潮AI服务器浪潮NF5688M6为例,每秒算力为5000TFlop/s=5.0e+15Flop/s,在短期内需要大约3960台服务器不停工作,在国内大模型成熟后,活跃人数进一步增加,使用频率大于6次/天之后,所需运营算力将大于34760PFlop/s-day,至少需要8050台服务器不停工作。我们认为,AI大模型的训练和运营产生的算力需求有望推动AI服务器出货量快速上升。随着预训练大模型的不断进步,人们不再满足于大语言模型的简单的文本理解和生成,而是将主要研究方向转向多模态大模型,即能够从文字、图像、视频、音频等多种模态同时理解输入信息并产生多种输出,进而执行跨模态多任务的大模型;多模态大模型能够广泛运用于情景理解、图像生成、机器视觉等人工智能前沿领域,也成为各家大模型技术竞争的焦点。多模态大模型广阔的应用场景带来了巨大的市场需求,不断推动了新的模型、技术创新涌现,也加快了多模态大模型商业化落地的步伐。在传统的“文生图”领域,已有较为成熟的多款应用,目前对大众开放的图片生成模型主要包括StableDiffusion2、OpenAI的DALL-E2、Midjourney等,此外,VisualChatGPT,即利用ChatGPT开源的api加上多个视觉模型,也可以实现图文互动。虽然“文生图”技术已经较为成熟,但目前这些大模型还未实现充分商用,未来市场空间依然广阔。在新兴的游戏开发领域,多模态大模型可以接收用户上传的图像、视频,快速实现数字人建模,相比传统建模方法具有效率高、成本低、个性化强的优势,英伟达的OmniverseAvatar就是一个利用AI技术建立数字人的成熟产品;也可以接受用户与数字人互动时的表情、语音信息,综合理解分析语义,有望应用于数字人交互领域。根据OpenAI关于GPT4的论文,使用文本+图像的混合输入方式进行提问,GPT4仍然能给出正确回答(正确率与纯文本提问方式无统计显著的差异);接受图像输入后,使用者的提问将更加简便灵活,因此在未来GPT4的应用会集中于多模态方面。由于加入了图像处理模型的GPT4参数量更大,所以也会带来更大的日常运营算力需求。国内开发的多模态大模型,也往往以图像处理、视觉模型等为一大亮点,目前较为成熟的有百度文心VIMER-UFO2.0(170亿参数)和华为盘古CV大模型(30亿参数),功能为接受、识别、理解图像信息,无论是多模态大模型的预训练、Fine-tune调试,还是日常运营,都势必会进一步推高国内的AI服务器算力需求。2.2.4服务器市场行业格局及发展展望服务器作为算力基础设施中的重要环节,有望受益于AI时代对算力需求不断提升以及数字中国建设推进两方面助力,实现快速增长。当前国家提出的数字中国建设规划中,东数西算作为重要着力点,首次将算力资源提升至水、电、燃气等基础资源的高度,全面助力我国算力基础设施建设,推动包括服务器、存储、数据中心等环节的高速发展。此外,基于前文的测算,大模型火热预计带来千台以上AI服务器增量需求,带动产业发展。从全球服务器市场的总体竞争格局方面来看,自2021年以来,Dell始终占据第一位,HPE与浪潮交替占据第二位,其他中国企业均占据一定市场份额。在市场增速方面,中国服务器市场增速快于全球市场,除2022年因国内疫情反复影响供应链以外,中国年度增速、季度同比增速均领先全球。2018年-2022年,中国市场CAGR达到11.5%,领先全球的7.3%。中国服务器市场的总体竞争格局方面,自2021年Q4超聚变成立以来,市场份额前三名基本固定,依次为浪潮、新华三和超聚变(之前第三名由华为、Intel交替占据)。在市场集中度方面,中国服务器市场CR3、CR5近年来整体呈下降趋势,表明在信创产业、数字经济发展的促进下,国产服务器厂商不断涌现。数据还显示,伴随国产服务器厂商市场份额快速增长的,是IBM、Dell等外国厂商的退出中国市场,这表明在信创政策的支持下,国产服务器逐步赢得了市场的信赖,未来市场份额与营收有望进一步提升。作为AI服务器产品中最重要的组成部分之一,GPU芯片目前出现供不应求,价格上涨的情况。根据ebay上英伟达AI芯片A100的最新报价,为大约10000英镑,较官方给出的10000美元价格明显上涨;H100由于暂未公布官方建议价格,当前最低40000美元的零售价也高于去年下半年约36000美元的价格。由于AI服务器主要成本近80%来自于CPU、GPU芯片,同时AI服务器也呈现供不应求的情况,我们预计AI服务器将跟随GPU芯片同步涨价,若供需关系进一步紧张,涨价幅度有可能超过芯片涨价比例。2.3数据相关投资机会展望2.3.1数据为AI大模型赋能,数据收费是趋势预训练模型+微调是大模型时代下的趋势,参数量和训练数据量对模型性能提升作用大,高质量数据资源是推动GPT迭代的重要因素。GPT模型采用的是Transformer结构,其训练分为预训练和微调两个阶段,主要思想是在不同层之间交换信息以更好地捕捉上下文信息。(1)预训练阶段:用大规模通用文本数据集训练模型,自动地学习到单词的语义和上下文信息;(2)微调阶段:使用特定的任务数据集对预训练好的模型进行微调,以适应特定任务的需求。纵观GPT模型的发展,参数量和训练数据量的大幅提升是GPT模型取得性能提升的关键,其中参数量方面,GPT-1只有1.17亿,GPT-3已经达到1750亿;训练数据方面,GPT-1使用了BooksCorpus数据集,包含7,000本没有发布的书籍,大小在4.6G左右;GPT-2的数据取自于Reddit上高赞的文章,命名为WebText,共有约800万篇文章,累计体积约40G;GPT-3共训练了5个不同的语料,分别是低质量的CommonCrawl,高质量的WebText2,Books1,Books2和Wikipedia,合计大小在45TB。参数量和训练数据量的大幅提升也使得大语言模型涌现出强大的学习能力。Reddit计划向通过其API使用数据的公司收费,大模型训练数据进一步规范,数据版权价值显现。大模型训练对高质量数据的需求增加,谷歌、OpenAI和微软等公司正使用Reddit平台上的用户对话语料训练AI大语言模型。4月18日,Reddit宣布,计划向通过其API使用数据的公司收费,数据收费有望成为趋势。4月27日,据Euractive报道,欧洲议会成员(MEP)就《人工智能法案》达成提案,对AI模型提出更严格监管要求,其中关于训练素材的使用方面,提出模型开发商将会被要求披露在构建其模型时使用的任何版权材料,目的是保障版权所有人索要收入的权利。在国内大厂纷纷“官宣”推出自研大模型的背景下,4月11日,国家互联网信息办公室发布关于《生成式人工智能服务管理办法(征求意见稿)》公开征求意见的通知,强调提供者需确保数据安全和个人信息保护合规,尤其是隐私保护,应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。国内大模型训练所需的文献数据来源,包括知网等,目前提供的都是付费的文献检索服务,因此训练数据的获取也是有偿的。随着国内对于AI数据监管的进一步严格,未来数据版权价值会更加凸显。ChatGPT、GPT-4效果好的关键之一就是引入基于人类反馈的强化学习(RLHF),其中新增两大数据集需求,预计未来国内大模型迭代过程也将催生更多的数据标注需求。相比之前的GPT家族,InstructGPT、GPT3.5和之后的ChatGPT主要添加了两个数据集,引入RLHF之后,其实相当于在GPT-3的基础上做了两次AIalignment,第一次是采用一个人工标注的对话数据数据集demonstrationdata,利用强监督学习来训练GPT-3预训练模型,即SFT(supervisedfine-tune)model,达到生成对话的目的。第二次是引入第二个人工标注的数据集合,排序数据集comparisondata,使奖励函数可以更加符合人对模型输出的喜好。因此,预计未来国内大模型不断发展的过程中,将催化两类数据集需求,一是训练阶段的通用数据集,二是微调优化阶段的专业辅助数据集。从第一类通用数据来看,国内数据沉淀较多,chatgpt训练数据集在国内均能找到对应的映射,关键是质量的问题,因此后续主要会带来数据清洗、加工等方面的业务需求。第二类微调数据对专业性和准确性要求较高,利好第三方专业数据标注企业。2.3.2垂直行业数据是大模型行业落地的关键,关注具备数据卡位优势的企业在以ChatGPT为代表的大语言模型出现之前,各行各业其实存在很多垂类的小模型,即采用特定领域的专业数据直接训练而得到的特定行业的AI模型,比如同花顺重点打造的“i问财”目前是财经领域落地较为成功的自然语言、语音对话交互问答系统,商汤科技SenseCore大模型装置打造的AI视觉领域基模型等。随着国内外大模型陆续推出,预计未来也会像手机操作系统领域存在闭源的iOS和开源的安卓一样,既有商业化成功的闭源大模型,也会有开源的大模型项目。未来很多垂直行业会结合大模型去做垂类应用,相比之前的小模型,在训练数据量、模型效果方面都会得到很大的提升。在这个过程中,具备数据卡位优势的垂直行业龙头,有望表现出比大模型厂商更强的竞争优势。包括金融领域的同花顺、金证股份、恒生电子,教育和医疗领域的科大讯飞,安防领域的海康威视、大华股份,高清地图领域的四维图新,航运领域的中远海科,法律领域的华宇软件、金桥信息等,未来无论是接第三方API还是自研,均有望借助大模型提升自身产品力,增强客户粘性。以上公司均是特定领域深耕多年的细分龙头企业,在为客户提供服务的过程中沉淀了很多专业数据,在大模型广泛应用之前,有些已经对这些数据进行知识图谱的构建,对数据的理解比较深厚。2.3.3政府、国央企是垂直行业数据的主要来源,其开放共享将进一步为AI赋能根据中国通信企业协会2016年估计显示,我国70%的数据集中在政府部门,另外20%的数据掌握在大型企业手中,包括运营商、大型互联网企业等,剩余10%的数据则分散在各个行业。随着各行各业数字化转型推进,当前政府部门数据占比或有下降,但预计或仍超60%。数据要素行业的下游用户目前主要分布于政府、金融、工业等领域,目前大数据最广泛应用于政府领域,金融领域位居第二,也是大数据技术应用广泛的行业之一。目前政府数据开放程度有待提高,以医保为代表的特定领域数据有望率先实现共享。2021年8月,国家医保局提出建立医保数据与商业保险数据共享机制,打造“保险+健康”服务生态闭环。2023年1月12日,全国医疗保障工作会议提出“把大数据赋能作为医保改革发展的重要借力点,最大程度发挥全国统一医保信息平台作用,更安全更积极更有序地用好医保大数据”。2023年初以来,国家医保局密集调研医保信息化标准化工作情况,强调统筹医保数据安全与共享,更好发挥数据要素作用。2023年2月7日、2月13日至16日、3月20日-23日、3月29日-4月1日,国家医保局党组成员、副局长黄华波带队分别调研和考察北京市、重庆、广东、黑龙江、吉林、上海、浙江等地医保信息化标准化工作,重点强调全国统一的医保信息平台建设及运维管理、推进医保信息业务编码贯标工作、推进医保电子凭证、移动支付、电子处方流转等便民服务功能深化应用。在加强医保大数据开发与应用,有效发挥医保大数据要素作用方面,2023年2月25日国家医保局网信办就“构建数据基础制度更好发挥数据要素作用”组织集中学习,黄华波强调,建立健全医保数据基础制度,更好发挥数据要素作用,是学习宣传贯彻党的二十大精神,落实《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》的重要举措。要明确定位,加强数据确权、授权、共享、收益分配等重点问题研究,积极探索医保数据要素化利用。加强国家医保信息平台数据治理,深化支付方式、异地就医、药耗招采、基金监管等子系统应用,不断提升数据质量,强化对医保管理、服务、改革的数据赋能,构筑医保数据应用新生态。2.3.4数据要素市场化加速,数据权属会进一步明晰,AI和数据要素有望实现共振2022年以来数据要素市场化节奏加快,相关政策法规陆续推出,包括数字经济十四五规划、“数据二十条”、数字中国建设规划等已经从制度和目标层面做了比较清晰的规划,各地也陆续建立了大数据局、数据交易平台等法定监管和运营主体,当前数据要素市场化的难点在于如何准确清晰的对数据进行确权和定价,未来数据进一步赋能AI的前提和关键也是解决权属问题。去年12月财政部已发布《企业数据资源相关会计处理暂行规定(征求意见稿)》,而企业数据资产入表的前提是数据权属和定价规则应该清晰和统一。因此,我们预计未来特别是对于企业服务客户时沉淀的、互联网上留存的相关数据的权属规定的细则或有望陆续推出,结合要素交易市场、要素定价和交易等制度,进而构建全国统一的监管体系和标准,实现数据要素市场有序、安全、可靠的平稳运行。数据权属明晰后,合作运营将是数据要素市场化的主要方式。相比土地等其他生产要素,数据要素的鲜明特点包括可共享可复制,因此我们认为未来数据要素市场的底层核心逻辑还是建立生态。作为生产要素,数据可被加工成不同产品同时赋能不同类型的客户,赋能过程需要很多合作伙伴配合,特别是垂直行业的数据服务商。政府数据未来拿出来做共享和运营,大概率还是会采用合作运营的方式,关注政务IT系统建设厂商、政府数据要素平台搭建厂商以及数据安全企业等。2.3.5数据要素试点以点带面,深圳、上海等地加快推进当前国内数据要素市场化建设以区域试点为主,以点带面,未来逐步实现规范、标准的统一。在数据权属界定方面,上海、广东、深圳先后开展“数据资产登记”“数据产品登记”“数据资产凭证”“数据生产要素统计核算”等有益探索。深圳率先规划建设数据产权登记管理制度和业务体系,将在各地区各行业数据产权制度建设中起到积极的引领示范效应。2月20日,深圳市发改委官网公布《深圳市数据产权登记管理暂行办法》(征求意见稿),其中明确数据产权登记包括首次登记、许可登记、转移登记、变更登记、注销登记和异议登记等六大类型,以期实现对数字产权登记的规范化管理,促进数据要素市场发展。早在2020年10月,中共中央办公厅、国务院办公厅印发《深圳建设中国特色社会主义先行示范区综合改革试点实施方案(2020-2025年)》,支持深圳加快培育数据要素市场,赋予深圳“率先完善数据产权制度,探索数据产权保护和利用新机制”重大改革任务。2022年以来,深圳先后出台《深圳经济特区数字经济产业促进条例》、《深圳市推进数据交易近期重点工作安排(2022-2023年)》、《深圳争创国家级数据交易所行动计划》、《深圳市数据交易管理暂行办法》等重要政策文件,坚持把大力发展数字经济作为城市主导的战略。上海则以上海数交所建设进行试点探索,发布了若干项交易规范和交易指导,积极参与数据流通交易国家标准制定的相关工作,目前已推动编制完成并发布《信息技术数据交易服务平台通用功能要求》《信息技术数据交易服务平台交易数据描述》《信息安全技术数据交易服务安全要求》三项国家标准,引领数据交易制度建设方面。预计以深圳、上海为代表的城市在数据要素市场建设过程中的先行先试,有望带动全国各地数据要素市场化建设加速。数据要素市场化试点推进过程中,特别是政务端数据运营,预计将以中国电子、中国电科、三大运营商等央企集团为主要参与方,建议关注以深桑达、易华录、太极股份为代表的政府数据要素平台建设合作伙伴。深桑达控股子公司中国系统是国内最早的数据要素化探索与实践者,致力于成为国际领先的数据资产运营商,目前积极开展数据安全与数据要素化工程建设试点,部分试点已完成整体验收。中国系统在国内首创“制度+市场+技术”三位一体总体实施架构,创造性地定义了“数据元件”、“数据金库”和“数据要素操作系统”的产品内涵和标准,培育形成资源市场、元件市场、产品市场三大市场,最终实现在数据产权、流通交易、收益分配以及安全治理方面可实际操作的方案。中国系统目前已在武汉、德阳、江门、江阴、大理、徐州等地开展数据安全与数据要素化工程试点,其中德阳已经与2022年7月份完成整体验收,部署了数据金库和数据要素加工交易中心,交易产生收入已达千万元级别。易华录自2016年搭建政务大数据底座,至今已布局32个数据湖并获取各地政府的数据运营授权;公司承建和运营抚州数据资产交易中心,采用政务数据授权运营模式,为全国首例,项目采用的“数据银行”政务数据授权运营模式被多家媒体报道,并被列入多项政府文件。2.4应用相关投资机会展望2.4.1新技术推动AIGC商业化演进加速Diffusion和Transformer模型的提出,加速AIGC商业化演进,海外2C应用的高质量反馈引发本轮AI行情。回顾GitHub在2023年至今的活跃应用,技术层面多以GPT的插件开发和LLaMA模型改进相关,场景端在聊天、语音转换/助手、图像生成等方面热度偏高。GPT的出现让市场认知到AI自我学习和进化的能力已有重大变化,为AI结合场景需求的工程落地效果奠定一个新起点。目前中美科技巨头对AI技术投入、应用和未来发展均表达了共同期待,我们认为AI进入中美科技共振周期,预判短期内会出现较多的基于AIGC技术产生的新应用。目前AIGC类模型涉及到的模态有文字、图片、视频、音频、3D模型、科学知识、代码等,可以按照输入输出的数据类型进行分类,可以被分为12类,不同形态间往往可以进行相互转化,例如文本转图片、文本转视频等。当前AIGC类的应用开发多数也是均是基于该十二类模型进行落地,满足不同场景的需求。结合目前国内外大厂的AIGC应用推出情况,我们认为主要在以下4块领域投入较多:1)代码领域,基于OpenAI的Codex模型,Github推出的Copilot具备代码的生成、补全、建议等功能,用户量突破百万级别;2)文本领域,ChatGPT目前已开放API接口,微软计划在Bing和Office等应用接入,随着生态完善将极大改善生产方式。多模态预训练大模型GPT-4发布并开放纯文本API,在学术基准和人类专业测试中都展现出其强大的性能,并展现了更广泛的应用场景;3)图像领域,Stablediffusion等文生图应用已突破千万级用户量,目前是商业模式最成熟的领域,国内也在积极布局;4)音视频/游戏领域,起步较晚,对模型复杂度和算力要求更高,未来市场空间巨大。依据红杉资本的预测,预计2023年在文本和代码领域将出现成熟的AIGC类应用。2.4.2办公、娱乐、金融等场景容易先受益AIGC技术,C端应用数据跟踪反映技术助力初显基于当前已有的AI技术和多模态的产品研发进度,应用场景百花齐放,其中办公、娱乐及传媒、教育、医疗、互联网等场景/行业可能会率先受益。1)办公:办公场景中会涉及较多的文本、数据、图表、音频处理,基于AI的自动生成分析结果、文案、图像等,都可以有效的提高办公效率。对于咨询、文案、美工等特定工种的促进效果会更明显;2)娱乐及传媒:对于非严肃场景下的内容生成、特效处理、脚本创作等,均有有效促进;3)金融:产品咨询、产品方案设计、法律法规查询、事件情况检索、智能投顾等多方面都可与AI结合,生成反馈结果与建议。4)教育:AI的自学习能力在生成题目、课题讲解、自动问答等方面多有优势,叠加考虑数据量相对清晰,落地特定场景的效果较好;5)医疗:基于图像识别、临床指南的学习,可以在诊疗、读片、检查反馈等方面提供帮助;6)互联网:生成式AI在代理、逻辑推理层面已有较大突破,以代码编写为主的互联网企业,未来可通过AI自动生成需求代理等方式提高生成效率或为工程师提供灵感。海外看,微软作为和OPENAI关联最为紧密的公司之一,其推出的Dynamic365&PowerPlatform均可为B/C端处理日常办公需求。1)Dynamic365是微软推出的企业服务平台,其中于2023年3月9日推出的的Dynamics365Copilot结合了ChatGPT相关的AI技术,用于CRM和ERP。目前处于预览阶段,其可以为销售、服务、营销到供应链等跨业务的人员提供帮助,例如实现生成回复客户信息的电子邮件,为团队创建会议摘要,为营销活动提供灵感等;2)PowerPlatform是微软旗下的开发者工具,其中于2023年3月6日推出的PowerVirtualAgents和AIBuilder都已经使用了OpenAI的GPT语言模型技术。其中PowerVirtualAgents通过聊天机器人的形式实现低代码编程,比如将AI聊天机器人指向企业的特定资源,如网站或者知识库,简单配置便可使用,无须额外编写代码。而AIBuilder结合了ChatGPTAPI(称为AzureOpenAI服务)的生成AI功能,允许开发人员使用GPT模型生成文本,包括汇总报告、生成内容创意等等。全球金融巨头Bloomberg于2023年3月31日发布转为为金融领域打造的大型语言模型——BloombergGPT,让金融领域复杂性和独特的术语与通用大模型结合,支持金融行业内各种各样的NLP任务,支持研究人员进行情感分析、命名实体识别、新闻分类和问答等。从落地和商业模式看,BloombergGPT有望融合彭博终端,利用终端的大量数据和服务需求更好的服务客户。此外,老虎证券于4月11日宣布,推出基于ChatGPT的金融问答人工智能产品——TigerGPT,是在投资软件中部署的AI投资助理,底层是利用公司自身数据库和多个付费平台的内容,覆盖上市公司背景及数据、海量金融知识、第三方观点等,以对话形式在数秒内为用户解决投资问题。金融作为高专业度、高接纳度的行业,对于新技术的融合、使用热情较其他行业更快,且金融行业本身对数据、信息处理的速度、需求也较其他传统行业更多,是较好融合AIGC类技术的落地场景。国内看,百度、阿里等互联网大厂纷纷发布自己的大模型产品,其余公司如商汤、科大讯飞、昆仑万维、360等也纷纷发布了对话类大模型产品。具体工具应用端,金山办公、福昕软件、万兴科技等也发不了融合新技术的AI产品或DEMO,可见国内厂商对AI的重视和追赶势头已不容小觑。国内金融科技公司反应迅速,同花顺、金证股份等多家金融科技公司宣布继续完善AI与金融场景的结合,基于新技术丰富现有产品线情况。同花顺于2016年开始投入AI技术研发,目前在AIGC方向已建设了自动化构建、驱动、渲染的包括2D、2.5D、3D数字人系统;短视频生成平台整合了自动写音乐、自动改写文章、摘要抽取等功能,可以快速生成短视频;智能写作系统可以自动写研报、新闻;代码生成系统能够辅助程序员提高代码效率,技术已融合进包括“i问财”在内多款自有产品中。金证股份2018年开始AI技术的投入,其AI首席詹毅先生曾任百度总技术委员会委员,在人工智能领域有着10多年的从业经验,目前金证在智能风控、智能投行、智能投顾、RPA、智能客服、智能投资等金融领域实现了多个业务方向的突破。考虑国内金融行业B端投研对数据分析的需求和庞大C端客群对信息获取的付费意愿,GPT类服务的付费有望在金融行业率先落地。应用领域的产品跟踪往往与月活、用户量等直接挂钩,C端产品月活在技术助力下易出现较快速增长。1)ChatGPT和Midjourney的月度访问量在2023年1-3月呈现快速增长,4月维持在高位;2)海外人工智能聊天机器人Replika的月活近1年多维持在500-600万左右的高位,较2020年初有明显增长。3)万兴科技率先推出结合生成式AI的更新产品,包括万兴喵影、PDF等,其新品万兴播爆针对跨境电商市场,结合脚本生成和数字人技术推出自动生成视频功能,其移动端和PC端的访问和下载量有明显快速增长。三、重点公司分析3.1中远海科智慧航运业务快速增长,集团赋能力度大。2022年公司智慧航运成为增速最快的业务板块,实现营收2.8亿元,同比增长46.70%;智慧交通板块实现收入11.64亿元,同比下滑4.98%;智慧物流板块实现营收2.76亿元,同比增长7.31%。2023年集团关联交易预期10.5亿元,较2022年实际落地交易5.1亿元,同比翻倍增长,可见集团数字化转型需求的旺盛和对公司赋能力度的明显提升。助力交通与航运业务数字化发展,打造交通与航运科技创新和数字化产业标杆。公司加快推进创新和快数字化转型,基于数据中台架构打造面向行业服务的数字化平台产品,为行业客户提供端到端的数字化、智能化解决方案。公司在智慧航运业务板块积极探索基于数据为基础的应用,其产品“船视宝”平台成为上海数据交易所首批挂牌产品,平台已汇聚了船舶、港口、航线、船期、气象等302亿条数据,形成船舶航行全生命期行为动态6700多万条,提供API查询次数7.3亿,另一产品,航运管理平台已上线服务近900条船舶。坚持创新驱动,多款智慧航运产品融入新技术。智慧航运的核心产品“船视宝”平台系列产品已初具规模,其开发的低碳宝可实时跟踪和计算船舶能耗、碳排放,利用数据技术和模型为节能减排奠定基础,产品已基本覆盖全球干散货船舶。此外,在船舶主动安全系统研发中,完成了船舶态势感知系统已完成态势预测、AR增强瞭望、智能避碰和辅助靠离泊四个功能模块开发,使用了基于AIS数据和视频多元数据判别三种会遇方式,避碰预测数据准确率达到92%。公司积极认知人工智能是引领未来的战略性技术和新一轮产业变革核心驱动力,积极将AI技术融入在航运、交通等多产品场景中。3.2深桑达A国资云核心受益标的:信创大背景下,云平台作为信息化基础设施,安全性至关重要,预计未来党政+行业的云建设将以国资云建设为主,目前我国私有云市场每年增量1500亿,未来还将持续增长,公司大股东CEC集团拥有最为完善的信创产品,中国电子云与集团内部基础软硬件做到代码级别适配,同时可通过集团获取信创订单。数据要素试点国家队:深桑达旗下中国系统是目前为数不多可以做政府数据脱敏+治理的公司,在德阳、江阴、大理等城市已经开展试点。当前数据要素政策持续推出,央企和地方政府积极响应,CEC成立数据产业集团,浙江、广东等省市进展迅速。今年数据要素试点将逐步落地,商业模式和市场空间会逐渐清晰。3.3金山办公全面拥抱AI,办公场景结合新技术推动产品智能化不断提升。在AI领域,共识自主研发的文档图片识别与理解、文档转化技术已达到国内领先水平,OCR和机器翻译技术水平位列国内第一梯队,在文档校对方向,实现了金山办公和黑马校对的双引擎整合,成为中文校对领域的佼佼者。国内端,公司和创业公司MINIMAX合作AI插件用于轻文档,实现自动文案生成、总结分析等为用户提供便捷优质的智能化服务体验;海外端,公司也在和OPENAI接触,融合AI技术与WPS产品结合。2022年,金山办公利用AI能力帮助用户校对总字数达3,340亿个,全年OCR处理图片数量达146亿份,智能美化功能月活跃用户数量达237万。国内机构业务快速发展,推进公司B端业务线的持续拓展。公司重视国内机构客户数字办公需求,持续推进数字办公平台在效率提升、数据管理、安全管控、行业场景应用等领域充分发挥作用,推进政企端云一体化及协作办公进程。公司2022年实现数字办公平台(云和协作产品)相关收入同比增长57%,数字办公产品全年新增政企客户3990家,带动国内机构订阅及服务业务高速增。目前在标杆客户方面,中国五矿、中国石化、招商银行、建设银行、比亚迪、完美世界等均为公司数字化办公标杆项目,并推动案例的不断复制与下沉。2022年内,公有云SaaS在期付费企业数同比增长51%,付费企业续约率超70%,金额续费率超100%,带动公有云领域相关收入同比增长超100%。C端会员体系变更,新体系有望带动C端Arpu值提升。本次会员体系调整,一方面取消了包含稻壳会员、WPS会员在内的低价会员体系,另一方面,降低了超级会员的入门价格,同时,推出pro版本并提供专享权益包,满足部分用户的特定需求。新会员体系运营后将有效提升公司C端用户的ARPU值。3.4同花顺Q1业绩好于预期,投资者对金融信息服务需求增加。2023Q1公司营收及销售收款实现同比增长,AI赋能优化产品,满足用户需求。市场行情回暖,公司AI相关产品的接受度提升。公司具备深厚的技术优势和流量优势,同时积累了大量高质量的行业数据。公司拥有行业领先的流量入口,同花顺APP已接入外部投顾,在C端积累了海量的个人投资者用户,注册用户超6亿。公司深耕于行业大数据,建立了行业知识图谱,沉淀了大量高质量的专业数据。拥抱AI大模型,推动用户体验的持续优化,打造国内财经AI领域的领先者。公司已构建同花顺AI开放平台,可面向客户提供智能语音、智能客服、智能金融问答、智能投顾、智能质检机、会议转写系统、虚拟数字人、智能医疗辅助系统等多项AI产品及服务,可为银行、证券、保险、基金、私募、高校、运营商、政府等行业提供智能化解决方案。2022年以来公司持续加大研发创新投入,进一步加大对机器学习、自然语言处理、智能语音、图形图像识别与处理、数字人等关键技术攻关,特别是在AI大模型、AI内容生成(AIGC)等领域的应用研究,并将相关成果运用到金融信息产品和服务中,进一步提升用户体验和产品竞争力。目前,基于自主智能语音技术的产品已应用于多家证券公司、基金公司及电信运营商;同花顺虚拟数字人对话平台,运用多模态数字人对话技术,实现与真人用户“面对面”的交互体验,该产品已落地多个大型客户。3.5金证股份组织架构创新调整提升管理效率,公司双基石业务保持快速增长。战略布局上,公司将大证券和大资管双基石业务作为公司投入和发展重点,实行公司证券和资管一体化管理,提高管理效率。证券IT受益于资本市场改革和信创推进,公司正在全力推广新一代核心产品系统。公司在资管科技领域进入发展快车道,一方面资管产品线已实现全面覆盖大资管的各个细分行业,另一方面公司在多个核心产品和技术上逐步形成优势。金融AI领域布局多年,打造金融垂直领域大模型体系,产品全面升级赋能。近年来,公司AI应用持续落地,在智能风控、智能投行、智能投顾、RPA、智能客服、智能投资等多领域实现了金融AI业务突破。2022年以来,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论