2025年机器语言大模型赋能软件自主可控与安全可信报告-清华大学(朱文宇)_第1页
2025年机器语言大模型赋能软件自主可控与安全可信报告-清华大学(朱文宇)_第2页
2025年机器语言大模型赋能软件自主可控与安全可信报告-清华大学(朱文宇)_第3页
2025年机器语言大模型赋能软件自主可控与安全可信报告-清华大学(朱文宇)_第4页
2025年机器语言大模型赋能软件自主可控与安全可信报告-清华大学(朱文宇)_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器语言大模型赋能软件自主可控与安全可信朱文宇清华大学中国电机工程学会中国电机工程学会n中国电机工程学会n背景…关键问题…典型应用总结…中国电机工程学会中国电机工程学会安全可信安全可信互联网)各种通信技术)各种通信技术301背景-需求1:软件生态面临自主可控难题中国电机工程学会关键软件长期由国外主导面临断供、安全、知识产权风险移动端操作系统分布情况移动端操作系统分布情况工业控制软件产品:ERP、CRM、SCM挑战:关键软件闭源,供应链风险高,自主可控难度大4背景-需求2:软件生态面临安全可信难题中国电机工程学会软件安全风险未知落的物作期情落的物作期情漏洞问题层出不穷恶意代码急剧增长成为网络攻击的重要突破口病毒病毒(伊朗核设施)iPhone越狱&安卓Rootn电网断电(乌克兰)WannaCry(勒索150+国家)电网断电(乌克兰)挑战:目标软件闭源,分析难度大,安全问题隐藏深5中国电机工程学会背景关键问题…智能化方案…典型应用总结…602关键问题-软件开发与安全碳件设新猫位碳件设新自主自主即作系统电电NARI疆软件分析理解KingdoeNARI疆软件分析理解Kingdoe⑤⑤应用领罐安全可信软件分析理解n发现安全问题软件设计开发发现安全问题软件测试部署防范安全问题关键问题是分析、理解目标(闭源)软件软件测试部署防范安全问题关键问题是分析、理解目标(闭源)软件7关键挑战1:软件分析——二进制信息缺失voidanswer(char*na源代码源代码}}intx=40+intx=40+机器码符号、类型、边界等信息逐步优化/丢弃汇编码8n02关键挑战1:软件分析——二进制信息缺失n中间表示中间表示IR告4=calli64名5=addi6483,17=call#include<sLdlib.h>#include<sLdlib.h>源代码}returny*y;}}反编译7f4547f454反汇编无中生有,恢复缺失的信息 9printf("Hey8s,the}returny*y;}intint}②语义分析严重依赖人工经验代码软件代码功能分析:内存分配、加密解密?敏感数据如何流动?能分析安全分析链性能优化逆向漏洞③泛磁泛磁NARI思改运互联应用领域软件分析信息缺失软件分析中国电机工程学会人在回路软件理解软件理解功能开发中国电机工程学会S*背景……中国电机工程学会信息缺失人在信息缺失人在应用领域软件分析软件理解软件分析软件理解A中A中#其出是◎NARIA部晶连改运互联信息自信息自动补偿。现有大语言模型难以分析二进制程序(闭源软件)自然语言源代码二进制程序(机器语言)人类需求设计实现x编译部署21005011加载运行中国电机工程学会中国电机工程学会i程序执行(机器语言)进程进程(时刻1)通用大模型中国电机工程学会方案简介:大语言模型中国电机工程学会(自注意力机制)(自注意力机制)少量算力(8张4090卡)十万算力适量算力(10+英伟达卡*天)百万算力(1000+英伟达卡*天)亿元算力提示词提示词工程推理(按需)Nx知识增强NxN(厂商)N工具使用工具使用Gnrokg适量标注数据muts适量标注数据muts模型优化模型优化专业数据自动生成(源代码、二进制、文本、二进制标注数据)关键技术突破关键技术突破技术技术注、对齐·优化模型设计,深刻理解机器语言,对齐人类专家·自研机器语言模型训练方法··自研机器语言模型训练方法·完善的机器语言模型基础设施IEEES&P·大规模机器语言-自然语言-源代码多模态对齐数据开数据<100GB多个关键技术零的突破多个关键技术零的突破S修改模型设计,融入代码领域知识(指令语义、跳转关系等)ax40046F:calljsjsrsp,20h11:xor17:pop25:jmpJUMP_14jmp03关键技术2:基于对比学习的语义理解中国电机工程学会r03关键技术3:基于多模态学习的语义理解中国电机工程学会利用多模态技术,将语义空间与人类意图对齐,更准确地表示二进制代码语义03我们的解决方案:机器语言大模型MLM中国电机工程学会版权保护版权保护性能功能优化翻译软件性能功能优化翻译软件迁移工具生成分析分析攻防分析多平台语义摘要语义语义摘要语义搜索功能分类函数命名类型输入格式语义语义比较多架构xB6xB6ARMMIPS调用图译调用图译边界边界控制流图关系中国电机工程学会背景智能化方案典型应用…软件逆向分析目标软件反编译生成C代码突破卡脖子技术软件一致性检测可执行程序源代码解决采购痛点AA生态软件(无源码)B生态软件信创国产化、老旧软件升级迁移漏洞挖掘目标软件目标软件漏洞大模型赋能0day、1day漏洞挖掘目标软件软件成分细粒度、高速、语义对齐的二进制代码比对软件A侵权?中国电机工程学会s04Demo-颠覆工作模式的智能逆向分析中国电机工程学会s·将黑盒二进制程序变成白盒代码专家一样理解二进制程序语义·将专家从繁琐的底层代码分析中解放出来,专注高层分析任务中国电机工程学会S背景…关键问题…智能化方案典型应用…05软件自主可控、安全可信解决方案:大语言模型salesforce辉辉信息人在中国电机工程学会KSI*中国电机工程学会KSI*软件分析软件理解电子半导体软件分析软件理解石油石化生产制造石油石化力水滤信息自信息自图对齐内容自动生成05机器语言大模型MLM(全球首个)中国电机工程学会功能安全分析、性能优化、功能拓展功能工具性能生成优化漏洞工具性能生成优化漏洞攻防保护软件迁移分析多平台语义分析语义搜索功能分类语义语义搜索功能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论