2023年度中国自然语言理解行业概览:人与机器语言交互的核心技术_第1页
2023年度中国自然语言理解行业概览:人与机器语言交互的核心技术_第2页
2023年度中国自然语言理解行业概览:人与机器语言交互的核心技术_第3页
2023年度中国自然语言理解行业概览:人与机器语言交互的核心技术_第4页
2023年度中国自然语言理解行业概览:人与机器语言交互的核心技术_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023年中国自然语言理解行业概览:人与机器语言交互的核心技术2023ChinaNaturalLanguageProcessing

Industry2023

中国自然言語理解産業201自然语言处理(NLP)是人工智能最为关键的核心技术之一自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流中国NLP市场规模于2021年达到181.3亿元;在AI技术不断融合与迭代升级的背景下,预计中国NLP市场于2026年达到836.6亿元中国NLP行业市场规模2021年达到181.3亿元,CAGR为87.4

。随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模于2026年达到836.6亿元02NLP技术在金融领域的功能作用主要包括语言交互和金融分析,分别应用于交互型场景和分析型场景在交互型场景中NLP产品的核心价值在于快速理解客户表达的语义信息并进行恰当的回复,多用于流程化和标准化的业务环节中有利于金融机构精简客服人员并提升客服效率与质量。在分析型场景中NLP产品的核心价值在于对市场的海量金融资讯进行信息处理,提供智能分析结论,为金融机构作出决策行为提供辅助03摘要©2023

LeadLeo400-072-5588研究目的——2022年NLP新模型——ChatGPT

问世,迅速获得社会各界的高度关注,其凭借高质量的文本理解和创作能力标志着NLP将进入一个新的纪元。本篇报告聚焦于中国NLP行业的发展现状,从结合行业政策、产业链分析、应用场景及落地案例等分析维度,挖掘出中国NLP行业的领导企业,并给出对于中国NLP行业发展的理解与解读Chapter

1NLP行业综述自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流,是人工智能最为关键的核心技术之一过去5年,随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达到181.3亿元,CAGR为87.4

。随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模将维持快速增长趋势,于2026年达到836.6亿元,CAGR为35.74来源:研究院中国自然语言处理行业综述——定义与概念自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流,是人工智能最为关键的核心技术之一自然语言处理的定义与内涵定义:自然语言处理是通过构建算法使计算机自动分析、表征人类自然语言的学科。自然语言处理是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本(包括字、词、句和篇章)的能力,实现人机间的信息交流自然语言处理(NLP)技术目标图灵试验·判别标准1234问答,机器能否正确回答输入文本的相关问题文摘生成,机器是否能够生成输入文本的摘要释义,机器是否能够用不同的词句复述输入的文本翻译,机器是否具有将文本翻译成另一种语言的能力判断计算机是否能够理解某种自然语言具备自学习进化能力自然语言理解的基本任务语音分析词法分析句法分析语义分析语用分析根据音位规则,对句子和短语的从语音流中区分找出词义、结构结构进行分析,研究语言所存在出一个个独立的找出词汇的各个意义及其结合意目的是要找出词、的外界环境对语音素,

再根据音词素,

从中获得义,

从而确定语短语等的相互关言使用者所产生位形态规则找出语言学的信息言所表达的真正系以及各自在句的影响音节及其对应的含义或概念中的作用词素或词推理、规划、决策感知和情感表达理解人类语言用人类语言表达©2023

LeadLeo400-072-55885来源:Archie,Google,Apple,Amazon,OpenAI,研究院中国自然语言处理行业综述——发展历程NLP技术经历了70多年的发展历史,按照技术的角度,大致可分为NLP1.0:基于规则,NLP2.0:基于统计和NLP3.0:基于深度学习三个阶段,其中2022年ChatGPT的出现使得NLP的智能化水平大幅提升自然语言处理技术发展历程194919561970s1990s200620112014201820192022WarrenWeaver提出机器翻译的概念基于规则的自然语言处理方法出现硬件性能低下,限制自然语言处理算法发展搜索引擎Archie出现以谷歌翻译为首的机器翻译模型出现以Siri为首的语音助手出现以AmazonEcho为代表的智能音响兴起OPENAI推出NLP模型ChatGPT,能够通过对话方式进行交互,并自动生成文本内容NLP1.0:基于规则NLP2.0:基于统计NLP3.0:基于深度学习按照提前设定好的规则,进行自然语言理解根据语料库中对应搭配出现的概率大小来做自然语言的理解构建类似“人脑”的神经网络,使机器能够像人脑一样理解自然语言BERT谷歌AI团队发布BERT模型,Google搜索引擎使用BERT模型后理解能力大幅提升XLNetCMU与谷歌大脑提出新的NLP预训练模型XLNet,在20项任务上超越BERTDuplex谷歌推出Duplex,模拟人类交流完成订餐,Duplex已通过图灵测试智能化水平时间©2023

LeadLeo400-072-5588中国自然语言处理行业综述——发展现状:ChatGPT2022年OpenAI推出NLP领域的新型“对话式机器人”——ChatGPT,它能够准确理解人类语言的意图,与用户进行交互,并可根据用户输入的指令高质量地自动生成新的文本内容,被称作是“AIGC的里程碑”ChatGPT概况优势不需要任何额外的训练就能在多种不同的领域中应用并快速输出高质量的文本ChatGPT

支持多轮对话,在自然语言交互方面、情感分析、情景会话等方面运行流畅,在语言模仿能力和逻辑判断方面展现出更强的能力ChatGPT支持多种语言环境,并支持长短句输入,在阅读理解、复杂语句处理、逻辑能力和文本生成方面更加灵活ChatGPT的训练模型支持大规模数据集,具备海量的话题库,通用性更强,拥有更高精度的预测能力更强的对话能力更全面的语言能力更准确的预测能力ChatGPT相较于传统NLP模型的优势文本生成机器翻译代码生成问答对话小说、商业计划书、文案等自动生成翻译、转录、总结文本等聊天、倾诉、陪伴高智能知识问答、哲学思考ChatGPTChatGPT是在GPT

3.5大模型语言模型的基础上,加入

“基于人类反馈的强化学习”来不断微调预训练语言模型,使得

ChatGPT学会理解用户输入的不同类型的指令,并通过多重标准(例如是否富含信息、内容丰富程度、是否对用户有帮助、无害、不包含歧视信息等标准)合理判断其生成和输出的内容是否为优质信息ChatGPT来源:研究院6©2023

LeadLeo400-072-5588ChatGPT是基于NLP模型—GPT开发的“对话式机器人”,能够根据用户输入的自然语言文本内容高质量地自动生成新的文本内容,被称作是“AIGC的里程碑”,亦标志着NLP进入一个新的纪元1,207

1,3041,7301,996

2,5653,9165,5508,84012,59614,27516,00014,00012,00010,0008,0006,0004,0002,0000201120122013201420152016201720182019

2020中国自然语言处理行业综述——发展现状:专利情况中国NLP技术专利呈现先平稳增长后爆发式增长的趋势,2015年后在数据量上涨,芯片算力提升和深度学习算法更新迭代的驱动下,中国NLP技术专利申请量进入高速增长区间,百度累计申请量位居榜首中国NLP技术领域专利申请情况,2011-2020年 中国部分企业/机构NLP技术累计专利申请量排名,2021年阿里巴巴浙江大学清华大学中科院所华为科大讯飞百度 2,019项腾讯 1,336项平安科技 985项国家电网 826项690项618项512项484项421项382项◼

中国NLP理技术的专利布局呈现先平稳增长后爆发式增长的趋势2015年之前中国NLP年度专利布局缓慢增长,由2011年1,207项增长至2,565项,年均复合增长率为20.74

。2015年后,在数据量上涨,芯片算力提升和深度学习算法更新迭代等因素的驱动下,NLP技术得以高速发展,推动中国NLP专利布局呈现指数级增长态势,B端NLP专利布局高度活跃来源:工信部电子知识产权中心,研究院7©2023

LeadLeo400-072-5588◼

百度以2019项的成绩占据NLP技术累计专利申请量的榜首从中国NLP主要创新主体的专利申请量来看,截至2021年百度NLP技术专利申请量为2019项,位于业内榜首,由此表明百度在NLP技术领域具有领先的技术研发创新和专利布局战略优势;腾讯集团以1,336项的申请量位居第二,具有深厚的NLP技术基础。在科研院所中,浙江大学、清华大学、中科院所名列前茅,由此表明中国高校和科研机构的NLP技术创新活跃度较高单位:[项]高速增长区间中国自然语言处理行业综述——市场规模◼

2021年中国NLP行业市场规模为203亿元,预计未来5年将维持快速增长趋势,于2026年达到500亿元过去5年,随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,

于2021

年达到181.3亿元,CAGR为87.4随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,

预计未来中国NLP行业市场规模将维持快速增长趋势,

于2026

年达到836.6

亿元,CAGR为35.7单位:[亿元]随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达181.3亿元;在AI技术不断融合与迭代升级的背景下,预计中国NLP市场于2026年达到836.6亿元中国NLP行业市场规模预测(按营收计),2017-2026年预测 头豹洞察测算逻辑NLP市场规模NLP软件市场规模NLP硬件市场规模NLP服务市场规模完整版登录搜索《2023年自然语言理解行业概览:人与机器语言交互的核心技术》来源:研究院8©2023

LeadLeo400-072-5588中国自然语言处理行业综述——发展趋势中国NLP行业发展将呈现三大发展趋势,分别为多模态语言处理加速融合、智能创作向高度智能化迈进、NLP数据服务将进入高质量发展阶段中国NLP行业发展趋势中国NLP行业发展趋势多模态语言处理加速融合智能创作向高度智能化迈进NLP数据服务将进入高质量发展阶段◼

深度学习神经网络的引进使得语言模态、文字模态、图像模态和视频模态的编码和解码可在同一个深度学习框架下统一运行。不同模态的对象可被同一模式编码与解码,同一模式的编码与解码即可使不同模态对象随意融合,各种语言分析的结果可与语音分析、图像分析结果结合应用,产生更多的产品应用模式。未来NLP技术必将与语音处理技术、图像处理技术等人工智能技术加速融合,赋予AI高度智能◼

2022年AIGC概念和ChatGPT的横空出世,标志着智能创作在文字领域已进入了一个新的纪元。ChatGPT可根据用户输入的自然言语指令自动创作新的文本内容,其高质量的生产内容甚至可媲美专家级水平。百度推出的人工智能写作辅助平台“创作大脑”,其语义智能纠错功能识别准确率超95,能为人类作者提供良好的纠错,提取信息等辅助写作服务。随着数据规模日益庞大及算法模型的不断进步,NLP模型亦呈现高度智能化的发展趋势来源:研究院9©2023

LeadLeo400-072-5588◼

NLP技术落地应用的智能化程度很大程度上依赖于上游数据语料的质量,只有被标注过的数据,AI算法才能够在此基础上进行训练和学习。同时,数据标注的质量越高,AI学习和产出的结果越精确,AI也就显得越智能。当前中国数据标注行业仅处于发展初期,大多数NLP标注数据仅能够将客服机器人训练到初级认知水平,若要想更高级的认知智能进一步发展,则需要质量更高、针对特定需求提供的NLP标注数据。对于头部企业而言,为了保持自身的竞争优势,追求高质量、符合自身业务需求的NLP标注数据将成为刚性需求Chapter

2NLP产业链分析NLP产业链上游的主要基础设施包括数据服务、AI芯片、云服务以及算法开源框架等,其中AI芯片和算法框架领域主要由海外厂商主导中国NLP行业参与者可分为以百度为代表的互联网巨头企业,以科大讯飞为代表的NLP技术型企业,及深耕于垂直领域和细分场景的创业型企业;互联网巨头凭借丰富的客户资源和完善的产品生态位于第一梯队按照NLP功能实现的不同,可分为文本分析、语音分析、舆情分析、机器翻译、虚拟人物、智能客服等功能应用,下游行业应用场景包括金融风控、零售营销、餐饮住宿等,业务应用场景覆盖语音识别、语义分析、情感分析、文本生产等。整体而言,目前智能客服为NLP最为主要的功能应用,在金融风控、企业服务、餐饮住宿等领域的渗透率最高,在语音识别、文本挖掘、情感分析等业务场景得以广泛应用中国自然语言处理产业链分析——产业链图谱中国自然语言处理产业链上游主要为数据服务商、硬件设施厂商和云服务厂商,中游厂商可分为IT互联网企业、AI技术型企业和AI创业型企业三类,下游主要为应用场景,覆盖金融、零售、政务等多个行业NLP技术产业链图谱上游中游下游数据服务商语料库数据清洗数据标注◼

提供支持大规模、高效率、多维度的数据处理服务,为NLP模型训练与学习提供支撑硬件设施厂商AI芯片传感器算法模组◼

为NLP、AI语音等厂商提供高性能、强算力的AI芯片,用以支撑算力服务云服务厂商云计算云存储云服务器◼

基于多种场景需求打造云服务器、云计算、云数据库等云端基础架构IT互联网企业◼

具备完善的产品生态、丰富的客户资源和较强的产品经验及数据,

基于客户需求推动产品创新和落地AI技术型企业◼

凭借其较强的技术优势和客户经验积累,

以垂直场景为切入口,积极布局各行业应用AI创业型企业◼

以垂直领域和细分场景为突破口,研发单一种类的应用场景或行业的NLP

产品或解决方案政务教育文娱传媒生活消费电信运营医疗用最为广泛的领域,在金融业的行业渗透率最高,达到100金融零售电商旅游出行工业制造10084

79◼

智能客服是NLP技术应 行业渗透率68636363585347

47物流……来源:研究院11©2023

LeadLeo400-072-5588中国自然语言处理产业链分析——中游:竞争格局中国NLP行业参与者可分为以百度为代表的互联网巨头企业,以科大讯飞为代表的NLP技术型企业,及深耕于垂直领域和细分场景的创业型企业;互联网巨头凭借丰富的客户资源和完善的产品生态位于第一梯队中国NLP行业竞争格局(部分企业),2021年企业名称是否上市主要产品市场竞争力参与者类型 业务拓 技术研 参与者概况展能力 发能力拥有丰富的客户资源和完善的产品生态,可将自主研发互联网巨头 的NLP产品投放于自家的产品生态中,同时可利用丰富企业 的B端和C端产品经验及用户数据为NLP产品的功能化设计提供基础,基于用户需求驱动产品发展与落地拥有较强的技术实力,在NLP领域具有较高的知名度与NLP

技术型 市场地位,占据较大的市场份额。但随着深度学习算法科技企业 的成熟,以及语料库和数据库的增长,NLP模型开发难度及成本随之下降,NLP技术型科技企业的技术优势亦随之动摇以垂直领域和细分场景为突破口,研发单一种类的应用创业型企业 场景或行业的NLP产品或解决方案,布局范围较小,覆盖的下游应用市场规模较小百度智能云是开源工具LAC、百度翻译、内容审核平台、翻译开放平台、智能文档分析平台、智能创作平台等第一梯队腾讯云是NLP行业解决方案、智能客服机器人、腾讯智能对话平台、语音合成等第一梯队阿里云是NLP自学习平台、NLP行业应用医疗版、机器翻译、智能创作等第一梯队华为云否智能问答系统、自然语言处理API、语言理解API、内容审核系统等第一梯队科大讯飞是NLP行业解决方案、同声传译、机器翻译、文本改写、NLP能力开放平台第二梯队思必驰否NLP行业解决方案、对话式机器人等第二梯队拓尔思是NLP行业解决方案、舆情监控、智能客服机器人、智能审核系统等第三梯队完整版登录搜索《2023年自然语言理解行业概览:人与机器语言交互的核心技术》追一科技否NLP行业解决方案、对话式AI、文本分析与生成系统等第三梯队达观数据否NLP平台、智能文本分析系统、文档智能审阅系统、语义AI平台等第三梯队小i机器人否智能客服、智能对话机器人等第三梯队来源:研究院12©2023

LeadLeo400-072-5588中国自然语言处理产业链分析——下游:应用场景餐饮 零售 医疗 生活 企业 科研 文体 金融住宿 营销 健康 服务 服务 教育 娱乐 风控语音 语音 语义 问答 文本 文本 文本 情感识别 合成 分析 系统 挖掘 分类 生成 分析行业应用场景 业务应用场景注文本分析语音分析舆情分析机器翻译虚拟人物智能客服:方框内颜色深浅代表NLP在行业场景或业务场景的渗透率。颜色越深,渗透率越高;例如从左往右,渗透率依次提升◼

NLP的落地应用涉及众多领域,其中智能客服为NLP最为主要的功能应用按照NLP功能实现的不同,可分为文本分析、语音分析、舆情分析、机器翻译、虚拟人物、智能客服等功能应用,下游行业应用场景包括金融风控、零售营销、餐饮住宿等,业务应用场景覆盖语音识别、语义分析、情感分析、文本生产等整体而言,目前智能客服为NLP最为主要的功能应用,尤其是在金融风控领域的渗透率最高,在语音识别、文本挖掘、情感分析等业务场景得以广泛应用,主要原因为第一,金融业(如银行、保险)所触达的用户规模庞大;其次是80

以上的处理业务为流程化及标准化业务,如密码修改,身份认证等,因此智能客服能够更为高效地完成此类流程化水平高的业务。未来随着中国各行业加速向数字化转型,NLP技术将在各行业加速渗透,智慧零售、智慧医疗、智能教育及虚拟人等具有庞大下游用户规模的领域具有较大的增长空间及潜力NLP的功能应用覆盖文本分析、语音分析、舆情分析、机器翻译、虚拟人、智能客服等,广泛应用于语音识别、问答系统、文本生产等业务场景以及金融风控、企业服务、餐饮住宿等行业场景中国NLP下游应用全景图 头豹洞察来源:机器之心,研究院13©2023

LeadLeo400-072-5588金融零售电商旅游出行政务文娱传媒电信运营教育生活消费医疗工业制造物流中国自然语言处理产业链分析——应用场景:智能客服对话式AI是基于NLP的技术实现,在智能客服的应用渗透率最高,达到35 ;智能客服帮助各类企业与客户进行智能交互,实现客服、营销等功能,有效提高客服业务响应率和准确率,助力企业降本增效对话式AI的主要应用场景,2021年智能客服行业渗透率情况,2021年智能客服是对话式AI占比最高的应用场景10084796863636358534747智能客服解决应用诉求占比,2021年◼

智能客服为对话式AI最主要的应用场景,在金融、电商、旅游出行、政务等行业的渗透率较高,有效解决客服中心劳动力不足的痛点对话式AI在B端的应用包括智能客服、智能外呼、智能营销、智能质检、虚拟助手等,其中智能客服的应用渗透程度最高,为35。在行业渗透率方面,智能客服在金融、电商、旅游、政务等领域的渗透率较高,通过帮助各类企业与客户进行智能交互,以实现7*24小时客服、标准化营销等功能,有效提高客服业务响应率和准确率,在缓解客服中心劳动力不足等问题的同时,有效提升客户体验,赋能企业创收,实现降本增效来源:专家访谈,沙利文,头豹研究院14©2023

LeadLeo400-072-5588Chapter

3企业推荐百度在全球NLP领域占据领导者地位,其最具代表性的NLP产品语义理解技术与平台——文心于2020年的世界人工智能大会上斩获最高奖项,与谷歌、微软一道被视为“全球AI三巨头”腾讯云位于中国NLP领域的第一梯队,旗下腾讯云AutoNLP平台提供了词法级、句法级、篇章级以及综合文本审核等数十个模块的文本处理能力,能够一站式地解决常见的中文语义分析需求科大讯飞自成立以来持续聚焦于自然语言理解、智能语音、机器学习等技术的自主研发,并始终保

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论