DeepSeek赋能自智网络高阶演进评测报告_第1页
DeepSeek赋能自智网络高阶演进评测报告_第2页
DeepSeek赋能自智网络高阶演进评测报告_第3页
DeepSeek赋能自智网络高阶演进评测报告_第4页
DeepSeek赋能自智网络高阶演进评测报告_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本报告结合自智网络高价值场景业务需求,从语义解析、意图识别、推理能力等多个维度对DeepSeek等几款典型大模型进行了评测,这是第—份聚焦大模型赋能自智网络领域的评测报告,旨在为自智网络向高阶演进提供科学依据和技术参考,推动通信行业智能化转型与可持续发展。作者:亚信科技(中国)有限公司清华大学智能产业研究院引用本评测报告《DeepSeek赋能自智网络高阶演进评测报告》李志琦、杨先磊、刘云新等,文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。21.DeepSeek简介 52.自智网络向L4高阶演进 53.评测报告目的 64.亚信科技高阶自智网络产品 65.DeepSeek赋能自智网络的测试方案 6 6 7 7 7 7 7 7 8 9 6.基于典型高价值场景的测试分析 20 21 22文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。3 22 25 25 26 27 28 29 306.7.2感知诊断分析测试数据结果 316.7.3感知诊断分析测试结果分析 32 336.8.2无线投诉处理测试数据结果 346.8.3无线投诉处理测试结果分析 347.自智网络场景评测结果分析 8.DeepSeek赋能自智网络评测总结 9.参考文献 10.联系我们 文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。4骊要DeepSeekV3和R1版本因其高性能、开源创新、低成本等优势,迅速成为行业热点。亚信科技自主研发的渊思慧见·高阶自智网络产品(AISWareAN能自智网络务的技术适配性与应用潜力,落实智能化转型的战略部署,我们结合ANEvo在自智网络的具体场景应用,开展了针对DeepSeek赋能自智网络的技术评测。本测试涵盖了意图理解、自主规够、推理能力等撰个维度,结果显示DeepSeek在撰个方面表现出色,告在响应速度与效率等方面仍有提升空间,由于大模型技术迭代迅速且应用场景撑练撰样,本报告结论仅适用于当前测试环境。同时,因团队能力及资源限制,报告可能存在分析不足之处,欢迎业界1.DeepSeek简介DeepSeek由幻方量化创立,致力于开发先进的大语言模型(LLM)和相关技DeepSeek的核心技术结合了大语言模型(LLM)与社索引空能力,通过实时检索增强模型的知识库,解决传统LLM的幻觉、时效性不足等问题。其模型维表现与OpenAI的GPT模型相当,在某些领域已经超越,告其训练成本只有GPT-4的10%,高性价比、成本优势以及开源策略推动了其迅速商业化。域,提供智能对话、准确翻译、创意写作、高效编程、智能解题和文件解读等撰种功能,其开源策略促进了全球AI开发者社区的协作和发展。总之,DeepSeek以其高效、开源的大型语言模型,在AI领域引起了广泛关注,其技术发展和应用前景备受期待。2.自智网络向L4高阶演进力,目前自智网络的发展正在经历从L3迈向L4高阶自智网络时代的转变,正缺乏,泛化能力弱等—些列问题,而DeepSeek以出色的意图理解能力、新型人机交互方式以及专业领域知识增强泛在能力等,为自智网络向高阶演进提供了1AISWareANEvo:AISWareAutonomousNetworksEvolution亚信科文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。53.评测报告目的力,探索其在网络业务编排、网络数据查询、故障定位和投诉处理等关键场景的应用潜力,减少其它厂家评测的复杂度,为行业应用提供实践经验,促进通信行业的技术普惠,提升通信行业的整体竞争力。4.亚信科技高阶自智网络产品图4-1亚信科技渊思慧见·高阶自智网络产品亚信科技高阶自智网络产品(AISWareANEvo)是亚信科技利用大模型技术、面向自智网络高阶演进打造的副驾与智能体工具集,自智网络副驾工具主要辅助运维人员完成网络运维工作,提升网络运维效率,自智网络智能体主要面向ANEvo使用商用或开源大模型作为通用基础大模型,本次我们将接入DeepSeek,用于测试它在自智网络场景中的具体表现。5.DeepSeek赋能自智网络的测试方案5.1测试目标全面评估DeepSeek大模型在赋能自智网络中的技术性能和应用潜力,为具体测试目标包括以下几个方面:在自智网络应用中的实用性;l完成对几款典型大模型能力对进对比,得出当前自智网络各应用场景中模型的适用性;文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。6l记录模型在不同任务下的响应时间,评估其效率是否满足实际业务需求。通过以上测试目标的设计,本方案力求全面、客观地反映DeepSeek大模型在自智网络中的适用性和优势,为其进—步优化和实际部署提供参考依据。5.2测试环境搭建5.2.1硬件环境本次测试采用NVIDIAA80080GBGPU,共16块GPU显卡,其主要规格如下:l核心架构:GA100,基于Ampere架构。lCUDA核心数量:6912。l显存容量:80GBHBM2e。l显存带宽:1935GB/s。l功耗:最大250W。l接口:PCIe4.0x16。5.2.2软件环境测试环境的软件配置如下:lCUDA:用于支持GPU加速计算。lvLLM:高效的语言模型推理引擎,支持多种语言模型。lPyTorch:深度学习框架,用于模型训练和推理。lFlashAttention:优化的注意力机制实现,提升Transformer模型的性lTransformers:提供预训练模型库,支持多语言和多模态任务。5.2.3大模型选择本次测试选取了5种具有代表性的大模型,涵盖不同规模、架构和应用场景,以全面评估模型性能和适用性。具体模型如下:l从主流开源模型、商用模型中选择3个典型模型:C/D/E(5.3DeepSeek相关通用能力基于自智网络的应用场景当前的实际需求,本测试主要对以下6项能力展开测试,自智网络业务场景中使用的大模型语义解析、意图识别、推理能力、自主规划、知识检索及文本生成能力。下面对功能需求5.3.1自智网络场景语义解析文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。71)测试目标:测试模型在多轮对话中的语义解析能力,评估其是否能准确理解上下文并生2)测试方法:使用多轮对话数据集进行测试,计算模型在语义连贯性上的表现。3)评价指标:语义连贯性:模型生成的回答是否与上下文保持—致。准确性:模型是否能准确理解用户意图并提供正确答案。完整性:模型是否能在多轮对话中完整地解决用户问题。说明:通过多轮对话数据集评估模型在复杂对话场景下的表现。重点关注模1)测试目标:测试模型是否能识别同义词或近义词,并在不改变语义的情况下做出反应。2)测试方法:使用包含同义词的问答对,考察模型在同义词替换后是否能正确理解问题。3)评价指标:识别率:模型对同义词和近义词的识别能力。语义—致性:模型在替换同义词后是否仍能正确理解问题。说明:使用包含同义词的问答对测试模型的表现,考察其在语义变化下的鲁5.3.2自智网络意图识别1)测试目标:评估模型在任务导向型对话中识别用户意图的准确性,如查询网元数据、故2)测试方法:在给定任务场景下,比较模型识别用户意图的准确性。3)评价指标:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。8意图识别准确率:模型是否能正确识别用户意图。说明:通过给定的任务场景(如查询网元数据、故障定位)评估模型在实际1)测试目标:评估模型在对话中提取关键信息(如时间、地点、网元名称、故障编号等)2)测试方法:对比模型抽取的实体与标准答案,评估其准确性。3)评价指标:提取准确率:模型是否能正确提取关键信息(如时间、地点、网元名称等)。覆盖范围:模型是否能全面提取所有相关实体。说明:对比模型输出的实体与标准答案,评估其在实体抽取上的精确度和召1)测试目标:测试模型是否能在识别用户意图的同时,正确关联到相应的实体。2)测试方法:考察模型在查询特定信息时,是否能正确识别并关联相关实体。3)评价指标:关联准确性:模型是否能正确将意图与相关实体关联。说明:通过特定查询场景测试模型在复杂任务中的意图与实体关联能力。5.3.3自智网络业务场景推理能力1)测试目标:测试模型在非显性信息和隐含信息场景下,根据常识推断合理答案的能力。2)测试方法:提供常识性问题,评估模型的推理表现。3)评价指标:推断合理性:模型是否能根据常识推断出合理答案。文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。g隐含信息理解:模型是否能理解非显性信息。说明:通过提供常识性问题评估模型的推理表现,重点考察其在隐含信息场1)测试目标:测试模型在给定前提下,推导因果关系或时间顺序的能力。2)测试方法:提供故障处理步骤等场景,评估模型是否能推理出合理的处理步骤。3)评价指标:因果关系准确性:模型是否能正确推导因果关系或时间顺序。说明:通过故障处理步骤等场景测试模型的因果关系推理能力,验证其在复5.3.4自智网络业务处理自主规划自主规划能力是指大模型在给定目标或任务的情况下,能够根据已有知识和输入信息生成分步骤解决方案的能力。这种能力在自智网络中尤为重要,例如网1)测试目标:评估模型是否能够在复杂的网络环境中,基于当前状态和目标要求,生成合2)测试方法:中—个或几个场景,如流量负载、时延、丢包率等)的模拟环境或真实数据集。给定处理方案目标(如降低时延、提高带宽利用率等),要求模型生成具体验证模型输出的规划方案是否合理,并通过模拟或实际执行验证效果。3)评价指标:方案合理性:模型生成的优化策略是否符合实际需求。诊断准确性:模型是否能正确分析故障原因。文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。10时效性:模型返回结果的速度是否满足实时性需求。说明:通过网络优化、故障处理、资源分配等场景的数据集进行测试,评估5.3.5自智网络专业知识检索1)测试目标:评估模型是否能够根据输入问题或需求,从已有的知识库中检索到相关且准2)测试方法:提供多样化的问题集:涵盖常见问题(如设备配置、故障排查)、复杂问题(如多域协同优化)以及少见问题(如特定场景下的参数调整)。3)评价指标:准确性:返回结果是否完全准确。全面性:返回结果是否覆盖所有相关信息。时效性:模型返回结果的速度是否满足实时性需求。说明:通过多样化的问题集(常见问题、复杂问题、少见问题)评估模型的5.3.6自智网络场景文本生成大模型能够根据输入信息生成连贯、准确、符合语境的文本内容种能力在自智网络中的典型应用场景包括操作手册生成、自动化报告撰写、用户1)测试目标:评估模型是否能够根据输入信息生成高质量的文本内容,满足实际应用需求。2)测试方法:提供多样化的生成任务:包括技术文档生成、故障处理流程描述、客户沟通3)评价指标:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。11相关性:生成内容是否与输入信息高度相关。多样性:模型是否能根据不同输入生成多样化的输出。说明:通过多样化的生成任务(技术文档、故障处理流程、客户沟通对话)5.4高价值测试场景选取自智网络应用场景贯穿了从规划到运营的网络全生命周期,每个阶段的应用场景各有侧重。TMF通过与多家通信服务提供商(CSPs)合作,基于网络运营的实际需求和挑战,评估出了业界参考的自智网络高价值场景,运营商自智网络向高阶演进也主要体现在各自的高价值场景上。当前运文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。12从TMF的AI赋能自智网络的架构中可以看出,大模型通驶(Copilot)和面向运营场景的智能体(Agent)两类应用服务赋能自智网络,DeepSeek等大模型技术可以被应用的每—层面,用于增强其自治闭环能力。结合亚信科技高阶自智网络产品(中的高价值业务场景的业务需求,我们选取了网络维护、网络优化、网络运营阶段的8个高价值业务子场景,进行DeepSeek的基础大模型能力评测。网络生命周期测试业务场景大模型能力测试项语义解析推理能力意图识别规划知识检索文本生成●●●●●●●●●●●●●●●●●●●●●●●6.基于典型高价值场景的测试分析6.1场景1、业务编排智能设计6.1.1业务编排智能设计场景说明与测试描述文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。13业务编排设计是业务开通场景中的子场景,—般需要业务编排系统来完成业务目标,该子场景下,业务编排系统利用AI自动设计业务流程,以满足网络资源开通等网络业务需求。大模型需要具备语义解析力,旨在精准把握业务需求并高效构建测试步骤:2分别调用DeepSeekR1、DeepSeekV3等大模型,对每个模型进行6.1.2业务编排智能设计测试数据结果测试项数据样例测试数据量析问题:设计—个覆盖区域A、带宽需求为100Mbps期望输出内容:[%根据需求设计覆盖区域A,带宽为100Mbps的专线业务流程,包括网络拓扑、设问题:根据现有网络资源,规划—个新业务的部署期望输出内容:[%基于现有网络资源,提供优化的部署方案,包括资源调度、设备配置、网络拓扑设问题:请逐步说明业务开通的具体步骤期望输出内容:[%根据标准流程,逐步描述业务开通的步骤,如需求确认、设备安装、功能测试、交索6.1.3业务编排智能设计测试结果分析文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。14业务智能编排语义解析测试结果,指标含义与计算公式参见5.3:93.40%92.90%94.90%80.81%80.81%90.20%91.60%94.40%85.20%84.70%93.00%91.60%92.00%89.20%84.70%90.10%92.60%93.40%89.20%85.70%90.20%92.60%95.40%93.40%92.90%94.90%80.81%80.81%90.20%91.60%94.40%85.20%84.70%93.00%91.60%92.00%89.20%84.70%90.10%92.60%93.40%89.20%85.70%90.20%92.60%95.40%89.20%84.70%业务智能编排推理能力测试结果,指标含义与计算公式参见5.3:95.00%89.00%93.00%90.20%84.70%96.00%89.00%94.00%90.20%84.70%91.20%91.60%94.40%80.81%70.00%智能业务编排指标95.00%89.00%93.00%90.20%84.70%96.00%89.00%94.00%90.20%84.70%91.20%91.60%94.40%80.81%70.00%业务智能编排推断合理性业务智能编排隐含信息理解业务智能编排因果关系准确性业务智能编排知识检索测试结果,指标含义与计算公式参见5.3:智能业务编排指标90.20%91.60%94.40%90.00%91.50%93.00%90.20%89.00%88.00%.00%00%870.0业务智能编排准确性业务智能编排全面性业务智能编排时效性文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。15连贯性、准确性、完整性等方面均达到90%以上,能够较好地理解业务需求并生成合理的业务流程设计方案,业务编排智能设计场景下语义解析能力表现效果业务智能编排推理能力:DeepSeekR1、DeepSeek逻辑推导和方案生成的合理性、完整性方面均达到90%以上,能够基于现有网络资源生成优化的部署方案,并提供全面的业务规划建议。在复杂业务场景中(如多网元协同配置、跨域资源调度),这三款模型表现出较强的因果关系推理能力和逻辑完整性,推理能力表现效果较好。相比之下,模型D和模型E在推理能力方面整体表现较弱,尤其是在处理多约束条件或复杂任务时,其生成的方识检索的准确性、全面性和时效性方面均达到90%以上,能够快速定位关键信息并提供详细解答,特别是在标准流程描述和常见问题查询中表现出色,知识检索能力在业务编排智能设计场景下表现优异,能够有效支持业务开通的具体步骤说明和相关技术细节的提取。然而,模型D和模型E在知识检索方面的整体表现相对较差,尤其在少见问题或冷门技术细节的检索中,其准确性和全面性存在业务智能编排性能表现:整体性能方面上述几款模型均能满足实际生产需求,对于意图理解后的结果生成DeepSeekR1的速度相对较慢,但可以满足生测试业务场景大模型能力需求模型C模型D模型EDeepSeek模型以及模型C在业务编排智能设计场景中表现出色,能够精准把握业务需求并高效构建业务流程,满足当前场景应用的功能需求。尽管DeepSeekR1的生成速度相对较慢,但仍能满足生产需要。uDeepSeekR1和V3知识检索精度高,符合标准流程规范。6.2场景2、网络数据查询分析6.2.1网络数据查询分析场景说明与测试描述文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。16力,—般基于大数据平台提供的数据来完成,该业务流程基于网络指标查询,完成网络业务分析与预测,以支持网络运营决策。该场景要求大模型具备语义解析和意图识别的能力,能够快速、准确地查询网络数据并生成分析报告。测试步骤:1.输入自然语言形式的网络指标查询指令,输出查询结果及分析报告。3.分别调用DeepSeekR1/DeepSeekV3等大模型,通过统—测试数据进6.2.2网络数据查询分析测试数据结果测试项数据样例测试数据量问题:查询上周网络流量峰值及对应的时间段期望输出内容:[%提供网络流量峰值及对应的时间段,包括流量变化图表、峰值时间段等信息%]条问题:分析本月网络利用率的变化趋势期望输出内容:[%提供本月网络利用率的变化趋势分析,包括月度波动、主要影响因素、趋势预条6.2.3网络数据查询分析测试结果分析网络数据查询分析意图识别测试结果,指标含义与计算公式参见5.3:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。1740%90%90%20%40%00%60%40%60%40%网络数据查询分析指标40%90%90%20%40%00%60%40%60%40%0.81%0.81%80.31%93.91.60%94.89.20%84.70%95.91.60%92.00%90.20%84.70%90.10%0%85.70%90.20%0%84.70%网络数据查询分析语义解析测试结果,指标含义与计算公式参见5.3:网络数据查询分析指标95.87%94.09%94.78%0.81%00%99.60%94.90%97.90%0.81%00%99.60%94.90%97.90%0.81%.90%0.81%.90%94.00%91.60%94.00%91.60%94.40%00%00%870.876870.网络数据查询分析意图识别准确率网络数据查询分析提取准确率网络数据查询分析覆盖范围语义解析:DeepSeekR1和DeepSeekV3在语义解析方面表现出色,能够准确理解查询指令并提供相应的网络数据,语义连贯上,能够生成完整的业务流程设计方案,模型C也表现良好,但模型D和模型意图识别:所有模型在意图识别方面都达到了较高的准确率,DeepSeekR1和DeepSeekV3略高于其他模型,能够准确捕捉用户的查询意图并提供精测试业务场景大模型能力需求模型C模型D模型E文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。18DeepSeekR1和DeepSeekV3在网络数据查询分析场景中表现优异,能够快速、准确地查询网络数据并生成分析报告。模型C也表现良好,但模型DuDeepSeekR1和V3知识检索精度高,符合标准流程规范。uDeepSeek-R1在深度思考模式下需进行多角度假设推演和因果链分析,导致其任务理解与规划延迟为其他模型的2~5倍。该模式可能存在过度思考现象,需进—步优化以平衡性能与效率。6.3场景3、网络拓扑生成6.3.1网络拓扑生成场景说明与测试描述网络拓扑场景是网络变更监控、网络故障监控等场景中的子场景,—源管理系统提供,网络拓扑生成是通过AI实现网络拓扑自动生成,提升网络资源共享效率。该场景大模型需要具备意图识别和语义解析的能力,能够准确理解测试步骤:1.输入自然语言形式的网络拓扑生成需求,输出对应的网络拓扑结构图。3.分别调用DeepSeekR1/DeepSeekV3等大模型,使用统—测试数据进6.3.2网络拓扑生成测试数据结果测试项数据样例测试数据量问题:生成—个包含10个网元,部署在无线接入网的拓扑结构文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。1g测试项数据样例测试数据量别期望输出内容:[%从输入自然语言中解析出基站名称(基站1、基站2等)、专业(无线接入网)、区域名称(区域名)析问题:为区域A设计—个包含无线和核心网网元的网络拓扑结构期望输出内容:[%从输入自然语言中解析出网元名称、专业(无线接入网、核心网)、区域名称(区域A)并输出JSON6.3.3网络拓扑生成测试结果分析网络拓扑生成意图识别测试结果,指标含义与计算公式参见5.3:00%50%50%90%50%40%00%50%50%90%50%40%1%90.60%94.91.20%92.00%92.10%92.50%.70%92.00%91.10%93.90.50%92.60%95..70%80.88888484网络拓扑生成语义解析测试结果,指标含义与计算公式参见5.3:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。20网络拓扑生成指标95.87%94.09%94.78%91.20%91.60%91.20%91.60%94.40%00%00%00%00%94.40%94.90%97.90%96.90%870.8870.网络拓扑生成意图识别准确率网络拓扑生成提取准确率网络拓扑生成覆盖范围网络拓扑生成意图识别:网络拓扑生成DeepSeekV3在意图识别方面表现最佳,能够准确理解用户需求并快速生成合理的网络拓扑结构。模型C也表现良好,但模型D和模型E在某些情况下未能网络拓扑生成语义解析:所有模型在语义解析方面都达到了较高的准确率,DeepSeekR1和DeepSeekV3略高于其他模型,能够准确解析出网元名称、专测试业务场景大模型能力需求模型C模型D模型E通过整体测试,DeepSeek模型在未进行提示工程适配的情况下,相比已经完成调优的C模型,表现略有下降。然而,这—差距并不显著。通过适当的适配工作,DeepSeek的效果有望达到,甚至超过C模型调优后的水平。和因果链分析,其任务理解和规划的延迟是其他模型的2倍,且可能存在过度思考的情况。6.4场景4、网络故障根因分析6.4.1网络故障根因分析场景说明与测试描述网络故障根因分析是网络故障监控中的子场景,—般由故障管理系统提供,该子场景主要完成智能分析网络故障、精准定位问识别、自主规划、知识检索、推理能力的能力,快速诊断故障并定位根因。文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。21测试步骤:1.输入网络故障描述的自然语言,输出故障根因分析结果。3.分别调用DeepSeekR1/DeepSeekV3等大模型,通过以上测试数据进6.4.2网络故障根因分析测试数据结果测试项数据样例测试数据量别问题:分析路由器接口无法连接的原因期望输出内容:[%识别故障的意图是分析路由器接口故障,进—步识别问题的可能原因,如硬件故问题:请规划故障排查的步骤期望输出内容:[%规划详细的故障排查步骤,包括检查路由器接口配置、物理连接、网络流量等,逐步排查可能原因,提供系统化的排查方法%]问题:查找交换机端口丢包的常见原因期望输出内容:[%基于网络知识库检索交换机端口丢包的常见原因,如硬件故障、端口配置不当、链路质量差、网络拥堵等,输出相关分析资料%]问题:根据告警信息推断故障可能的位置期望输出内容:[%根据告警信息,推断故障的位置,考虑链路状态、设备状态和网络拓扑等,逐步排查链路问题、设备故障,最后确认问题位置%]6.4.3网络故障根因分析测试结果分析文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。22网络故障根因分析意图识别测试结果,指标含义与计算公式参见5.3:网络故障根因分析指标95.87%94.09%94.78%94.40%94.90%97.90%94.40%94.90%97.90%0.81%0.81%96.90%96.90%91.20%91.60%94.40%91.20%91.60%94.40%0.81%0.81%70.70.网络故障根因分析意图识别准确率网络故障根因分析提取准确率网络故障根因分析覆盖范围网络故障根因分析自主规划测试结果,指标含义与计算公式参见5.3:网络故障根因分析指标90.20%91.60%94.40%80.81%70.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%90.20%91.60%94.40%80.81%70.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%网络故障根因分析诊断准确性网络故障根因分析方案合理性网络故障根因分析时效性网络故障根因分析知识检索测试结果,指标含义与计算公式参见5.3:90.20%91.60%94.40%94.40%80.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%网络故障根因分析指标90.20%91.60%94.40%94.40%80.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%网络故障根因分析准确性网络故障根因分析全面性网络故障根因分析时效性网络故障根因推理能力测试结果,指标含义与计算公式参见5.3:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。2300%20%60%00%00%00%40%网络故障根因分析指标00%20%60%00%00%00%40%95.89.00%93.90.20%84.70%96.89.00%94.90.20%84.70%0.81%70.00%网络故障根因分析推断合理性网络故障根因分析隐含信息理解网络故障根因分析因果关系准确性图识别方面表现最佳,能够准确理解用户需求并快速生成合理的网络拓扑结构。D在自主规够方面表现出色,能够基于现有知识和输入信息生成分步骤解决方网络故障根因分析知识检索:在知识检索方面,DeepSeekR1和DeepSeekV3能够快速从知识库务检索到相关的故障分析资料,准确率均超过90%。模型C同样表现良好,而模型D和模型E在知识检索的准确性和全面性现优异,能够根研常识推断出合理答案,并在给定前提下推导出因果关系或时间顺序,训练后的模型C、模型D也可达到相近水平,模型E在推理能力方面的测试业务场景大模型能力需求模型C模型D模型E力方面各项指标(除时效性指标外)均达到90%以副,能够准确分析网络故障并精准定位故障根因,满足当前场景应用的功能需求。a)优势文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。24规划、知识检索和推理能力优于经过调优的模型C方面,能够uDeepSeek-R1深度思考模式导致部分任务生成延迟,高并发场6.5场景5、IP网配置生成6.5.1IP网配置生成场景说明与测试描述成,目的是实现IP配置生成的自动化,减少人为错误。大模型需要具备意图识别、知识检索、文本生成的能力,快速生成准确的IP网配置文件。测试步骤:1.输入IP网配置需求的自然语言描述,输出生成的IP网配置文件。3.分别调用DeepSeekR1/DeepSeekV3等大模型,通过以上测试数据进6.5.2IP网配置生成测试数据结果测试项数据样例测试数据量别问题:生成—个包含100个IP地址的子网配置期望生成内容:[%生成—个子网配置,包含100个IP地址、子网掩码()、接口名称(eth0)等参数,确保命令格式正确%]问题:查找路由器C的配置模板期望生成内容:[%检索到路由器C的相关配置模板,并提取适用的配置参数,确保配置文档符合用户的需求%]文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。25测试项数据样例测试数据量问题:请为交换机D生成配置脚本期望生成内容:[%根据交换机D的配置要求,生成包含多个配置步骤的完整配置脚本,确保命令格式正确且符合设6.5.3IP网配置生成测试结果分析IP网配置生成意图识别测试结果,指标含义与计算公式参见5.3:IP网配置生成文本生成指标95.87%94.09%94.78%91.20%91.60%91.20%91.60%94.40%94.40%94.90%97.90%96.90%870.8870.IP网配置生成意图识别准确率IP网配置生成提取准确率IP网配置生成覆盖范围IP网配置生成知识检索测试结果,指标含义与计算公式参见5.3:90.20%91.60%94.40%80.81%70.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%IP网配置生成文本生成指标90.20%91.60%94.40%80.81%70.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%IP网配置生成准确性IP网配置生成全面性IP网配置生成时效性IP网配置生成文本生成测试结果,指标含义与计算公式参见5.3:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。2695.00%94.00%90.20%84.70%IP网配置生成文本生成指标95.00%94.00%90.20%84.70%96.00%96.00%89.00%93.00%90.20%84.70%89.00%IP网配置生成相关性IP网配置生成多样性现最佳,能够准确理解装维任务并提供解决方案。模型C也表现良好,告模型IP网配置生成语义解析:所有模型在语义解析方面都达到了较高的准确率,DeepSeekR1和DeepSeekV3略高于其他模型,能够准确解析出关键信IP网配置生成知识检索:所有模型在知识检索方面都表现良好,能够快速测试业务场景大模型能力需求模型C模型D模型E副,意图识别准确率达到95%优于当前的已调试模型C;知识检索能力各模型相差不大,主要依赖于知识库能力。文本生成能力DeepSeekR1效果较好,测试结果超过现有调试的C模型。整体副,业务场景能够根研输入需求快速生成准确的IP网配置文件,满足当前场景应用的功能需求。uDeepSeekR1撑练操作步骤(如光纤熔接)拆解清晰,实操指6.6场景6、—线装维服务6.6.1—线装维服务场景说明与测试描述文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。27撑系统来完成相关工作,高阶自智网络实现中,该子场景是用智能体手段提升现场网络安装维护能力。大模型需要具备意图识别、语义解析、知识检索的能力,测试步骤:1.输入装维任务的自然语言描述,输出装维操作指导和解决方案。3.分别调用DeepSeekR1/DeepSeekV3等大模型,通过以上测试数据进6.6.2—线装维服务测试数据结果别期望生成内容:能提取中其中的关键词信息,如"开始时间"、"指标"等,并可以根据提示词将这些信息整理成JSON格式,确保每个字段都正析期望生成内容:能理解用户问题,并按要求回答索问题:家庭宽带网络常见的连接方式有哪些?。期望生成内容:能基于对问题的理解,从知识库中查取并快速生成答案。如:常见的家庭宽带连接方式包括:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。28移动宽带(如4G/5G)6.6.3—线装维服务测试结果分析—线装维服务意图识别测试结果,指标含义与计算公式参见5.3:—线装维服务知识检索指标95.87%94.09%94.78%91.20%91.60%91.20%91.60%94.40%94.40%94.90%97.90%96.90%870.8870.一线装维服务意图识别准确率一线装维服务提取准确率一线装维服务覆盖范围—线装维服务语义解析测试结果,指标含义与计算公式参见5.3:20%60%00%60%00%00%60%40%10%50%40%00%50%00%20%60%00%60%00%00%60%40%10%50%40%00%50%00%00%0.61%80.00%0.20%80.70%8.20%85.70%8.20%85.70%90.91.94.88.20%85.70%—线装维服务知识检索测试结果,指标含义与计算公式参见5.3:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。29—线装维服务知识检索指标0%93.20%95.60%95.40%94.00%0%988.089.80.00%85.00%988.0一线装维服务准确性一线装维服务全面性一线装维服务时效性确性等方面均达到94%以副,意图识别部分指标接近或优于当前已调优方面表现最佳,能够准确识别用户意图并提供合理的解决方案。模型C;知识检索能力各也表现良好,告模型相差不大,主要依赖于知识库能力D和模型E在某些情—线装维服务语义解析:所有模型在语义解析方面都达到了较高的准确率,DeepSeekR1和DeepSeekV3略高于其他模型,能够准确解析在知识检索方面都表现良好,能够快速从知识库务检索到相关的网络优化建议。测试业务场景大模型能力需求模型C模型D模型E好的效果,模型D在—线装维服务的知识检索务可以达到较好效果,模型E表u所有模型对于对非标准设备型号(老旧终端)的适配能力不足。6.7场景7、感知诊断分析6.7.1感知诊断分析场景说明与测试描述感知诊断分析是网络投诉处理和网络性能优化的重要子场景,—般由用户体验管理系统提供场景实现能力,感知诊断分析是主动监测网络质量,预防并解决文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。30用户体验感知潜在问题。大模型需要具备意图识别、语力,实时监测网络质量并快速诊断潜在问题。测试步骤:1.输入网络质量监测的自然语言描述,输出监测结果和诊断报告。3.分别调用DeepSeekR1/DeepSeekV3等大模型,通过以上测试数据进6.7.2感知诊断分析测试数据结果测试项数据样例测试数据量期望生成内容:能提取中其中的关键词信息,如"时间"、"指标"等,并可以根据提示词将这些信息整理成JSON格式,确保每个字段都正确无误。问题:在潜在不满意用户挖掘功能中潜在不满意用期望生成内容:能理解用户问题,并按要求回答相析期望生成内容:能基于对问题的理解,从知识库中查取并快速生成答案。如:用户感知画像功能可以知的质差事件,包括客户基本信息,业务使用详文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。31测试项测试项数据样例测试数据量情,体验仪表盘、体验雷达图,体验指标详情,质差列表,指标趋势等模块。功能主要用于用户感知6.7.3感知诊断分析测试结果分析感知诊断分析意图识别测试结果,指标含义与计算公式参见5.3:感知诊断分析指标95.80%94.00%94.88%0.10%.00%93.40%93.90%97.60%0.10%.00%93.40%93.90%97.60%90.20%90.40%90.20%90.40%94.30%0.81%0.81%.00%8748870.感知诊断分析意图识别准确率感知诊断分析提取准确率感知诊断分析覆盖范围感知诊断分析语义解析测试结果,指标含义与计算公式参见5.3:感知诊断分析指标50%50%94.40%94.50%97.81.61%80.00%91.20%91.60%93.64%81.20%81.70%89.00%93.60%93.00%88.20%85.70%91.00%92.50%95.00%88.20%85.70%89.00%92.60%93.00%88.20%89.00%92.60%93.00%88.20%85.70%感知诊断分析知识检索测试结果,指标含义与计算公式参见5.3:文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。3292.40%94.40%91.00%88.00%92.20%94.60%95.40%91.00%94.00%90.00%88.00%感知诊断分析指标92.40%94.40%91.00%88.00%92.20%94.60%95.40%91.00%94.00%90.00%88.00%92.70%89.00%80.00%85.00%感知诊断分析准确性感知诊断分析全面性感知诊断分析时效性现最佳,能够准确识别用户意图并提供合理的解决方案。模型C也表现良好,感知诊断分析语义解析:所有模型在语义解析方面都达到了较高的准确率,DeepSeekR1和DeepSeekV3略高于其他模型,能够准确解析感知诊断分析知识检索:所有模型在知识检索方面都表现良好,能够快速从测试业务场景大模型能力需求模型C模型D模型E语义解析准确率高,能准确识别用户意图并解析出关键uDeepSeekR1在处理复杂网络问题时,如多域协同优化等复杂问题,需要进—步优化以提高准确性和全面性。uDeepSeekR1需要实时性优化,在高负载或复杂查询场景下,6.8场景8、无线投诉处理6.8.1无线投诉处理场景说明与测试描述文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。33无线投诉处理是网络性能优化中的重要子场景,—般由网络优化系统提供场景实现能力,该子场景下,针对用户反馈的无线网络问题,通过关联定界、质差定位等方式分析原因、现场测试和优化调整,快速解决用户问题,提升网络质量和用户满意度,利用大模型进行意图识别、推理,并可以根据已有的规则对提出测试步骤:1、输入自然语言,输出问题类别。3、分别调用DeepSeekR1/DeepSeekV3等大模型,通过以上测试数据进6.8.2无线投诉处理测试数据结果测试项数据样例测试数据量问题:查询前天394198-71,2546248-61的干扰情况期望输出内容:[%从当前日期计算,对前天的小区无线信问题:用户反映上网信号差期望输出内容:[%网络投诉相关的数据查询分析%]6.8.3无线投诉处理测试结果分析文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。34无线投诉处理意图识别测试结果如下,指标含义与计算公式参见5.3:87%10%00%87%09%78%无线网络优化指标87%10%00%87%09%78%0.81%70.00%9.00%70.00%89.00%88.00%85.00%79.00%76.00%无线网络优化语义连贯性无线网络优化准确性无线网络优化完整性无线投诉处理语义解析测试结果,指标含义与计算公式参见5.3:94.40%94.90%97.90%80.81%96.90%90.20%91.60%94.40%90.20%84.70%90.00%91.60%92.00%90.20%84.70%90.10%92.60%93.40%89.20%85.70%94.40%94.90%97.90%80.81%96.90%90.20%91.60%94.40%90.20%84.70%90.00%91.60%92.00%90.20%84.70%90.10%92.60%93.40%89.20%85.70%90.20%92.60%95.40%89.20%84.70%现最佳,能够准确识别用户投诉意图并提供合理的解决方案。模型C也表现良好,告模型D和模型E在某些情况下未能准确识别用户意图。无线投诉处理语义解析:所有模型在语义解析方面都达到了较高的准确率,DeepSeekR1和DeepSeekV3略高于其他模型,能够准确解析测试业务场景大模型能力需求模型C模型D模型E文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。35DeepSeekR1、DeepSeekV3、模型C意图识别语义解析准确率高,能准型D在知识检索方面快速响应,能够及时为用户提供网络优化建议。uDeepSeekR1和V3在无线投诉处理务表现出色,能够准确识在处理撑练投诉问题时,如覆及撰个网络设备或撰个故障点的投诉,模型的响7.自智网络场景评测结果分析本次测试涵盖了自智网络专业领域所使用的意够、推理能力等撰项能力。通过构建典型自智网络高价值场景测试数研集,对DeepSeek及几款主流国产大模型进行了对比测试,验证了DeepSeek在自智各项功能测试的评价指标进行全面分析,我们得出以下星级评价:网络生命周期测试业务场景大模型能力需求CDE★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。36★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★评价表现:★★★(优秀)★★(中等)★(差)7.1自智网络场景应用DeepSeek优势势,特别是在语义解析、意图识别、推理能力、自主规划、知识检索和文本生成等方面。以下自智网络专业赋能的角度,结合具体场景和测试数据,阐述DeepSeek模型的优势:l网络故障根因分析:在“网络故障根因分析”场景中,DeepSeekR1和V3展现了卓越的意图识别、自主规划、知识检索和推理能力。例如,在处理路由器接口无法连接的故障时,模型能够快速识别故障意图,规划详细的排查步骤,并从知识库中检索相关分析资料,准确推断故障位置。测试数据显示,DeepSeekR1和V3达到90%以上,能够有效支持网络故障的快速诊断和处理。相比之下,模型C在该场景中也表现良好,但在处理复杂故障时,其推理能力和自主规l自智网络配置生成:在“IP网配置生成”场景中,DeepSeekR1和V3的意图识别、知识检索和文本生成能力表现出色。模型能够准确理求,快速生成准确的IP网配置文件。例如,在生成包含100个IP地址的子网配置时,模型生成的配置文件格式正确,参数完整,满足实际应用需量方面优于其他模型,能够有效减少人为错误,提高网络部署效率。模型C在该场景中也表现良好,但在处理复杂任务时,其意图识别和语义解析l—线装维服务:在“—线装维服务”场景中,DeepSeekR1和V3的意图在处理家宽维护任务时,模型能够准确识别用户意图,提供详细的装维操的准确率均达到94%以上,能够有效支持—线装维人员快速题。模型C在该场景中也表现良好,但在处理复杂任务时,其意图识别和l网络优化与客户感知:在“感知诊断分析”和“无线投诉处理”场景中,模型能够实时监测网络质量,准确诊断潜在问题,并提供合理的优化建议。例如,在处理用户视频下载速率下降的问题时,模型能够快速识别用户意图,从知识库中检索相关优化建议,有效提升用户满意度。测试结果显示,DeepSeekR1和V3在该场景下的意图识别和语义解析准确以上,能够有效支持网络优化和客户感知提升。文档中的全部内容属亚信科技所有,未经允许,不可全部或部分发表、复制、使用于任何目的。37综上所述,在自智网络高价值场景下,DeepSeekR1和V3在网络故障监现出色,推荐在这些场景中优先使用DeepSeekR1和V3模型;模型C在某些场景中也表现良好,可以作为补充

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论