人工智能技术概览_第1页
人工智能技术概览_第2页
人工智能技术概览_第3页
人工智能技术概览_第4页
人工智能技术概览_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京久其软件股份有限企业2022年9月7日人工智能技术概览久其软件-李坤奇第1页目录北京久其软件股份有限企业2022年9月7日1、人工智能定义、关联2、人工智能主要应用领域3、机器学习算法及分类4、主流神经网络介绍5、NLP主要技术与方法第2页人工智能定义用机器,通常为电子仪器、电脑等,对人意识、思维信息过程模拟。人工智能不是人智能,但能像人那样思索、也可能超出人智能。数据:预测、挖掘语音:语音识别、语音合成、声纹检测文字:分类、翻译、对话、NLP、NLU、NLG视觉:图像识别、生成作画、视频了解运动:智能控制、仿真机器人、自动驾驶思索:简单推理、机器人写稿、AlphaGo北京久其软件股份有限企业2022年9月7日第3页2022年9月7日包括面最广交叉学科人工智能自动化控制计算机数学统计学逻辑学归纳学系统学概率论哲学心理学生物学经济学语言学工程学认知学仿生学人工智能教育要从娃娃抓起有望成为一级学科第4页工业4.0,自动化生产线意在提升制造业智能化水平,建立含有适应性、资源效率及基因工程学智慧工厂,在商业流程及价值流程中整合客户及商业搭档其技术基础是网络实体系统及物联网北京久其软件股份有限企业2022年9月7日特斯拉工厂曝光,整个工厂只有150个机器人,超震撼第5页机器人,好帮手北京久其软件股份有限企业2022年9月7日奔跑跳跃搬东西,这种机器人平衡能力比人类还强第6页自动驾驶谷歌、特斯拉、baidu、苹果……集各类人工智能技术一身北京久其软件股份有限企业2022年9月7日第7页机器学习数据爆炸式增加催热机器学习统计学、概率模型(贝叶斯)、神经网络有监督学习、半监督学习、无监督学习主要区分在于人工投入百分比无监督学习只有极少数应用投多少人工,有多少智能?北京久其软件股份有限企业2022年9月7日第8页强化学习reinforcementlearning,RL又称再励学习、评价学习智能系统从环境到行为映射学习,以使奖励信号(强化信号)函数值最大处于研究阶段无人机,自动化控制,电子游戏北京久其软件股份有限企业2022年9月7日NLP?第9页迁移学习TransferLearning,TL搜集数据成本高;训练耗时;重复利用已经有知识样本迁移、特征迁移、模型迁移、关系迁移北京久其软件股份有限企业2022年9月7日用于精准营销第10页人工神经网络人工神经网络模仿动物神经网络特征,进行分布式并行信息处理算法数学模型。网络依靠系统复杂程度,经过调整内部大量节点之间相互连接关系,从而抵达处理信息目标。优势并行分布处理高度鲁棒性和容错能力分布存放及学习能力能充分逼近复杂非线性关系激活函数、损失函数、梯度下降北京久其软件股份有限企业2022年9月7日第11页深度学习深度学习源于人工神经网络,多个隐含层感知器。深度学习经过组合低层特征形成愈加抽象高层表示属性类别或特征,以发觉数据分布式特征表示。各层设计、图形化调参、学习速率北京久其软件股份有限企业2022年9月7日端到端优势?劣势?第12页2022年9月7日CNN–卷积神经网络ConvolutionalNeuralNetwork图像领域应用非常成功,人脸识别超99.5%全连接

局部连接,权值共享图像识别、OCR、语音识别(DBN+CNN+RNN最好)特征数量卷积核大小第13页RNN–循环神经网络RecurrentNeuralNetwork(t+1)时刻网络最终止果O(t+1)是该时刻输入和全部历史共同作用结果语音识别、NLPBidirectionalRNNs、DeepRNNs、GRURNN北京久其软件股份有限企业2022年9月7日第14页2022年9月7日LSTM-长短期记忆网络LongShort-TermMemoryNeuralNetworkRNN时间上传递神经网络,可能“梯度消失”经过门开关实现时间上记忆功效,预防梯度消失遗忘门输入门输出门Seq2Seq机器翻译AttentionModel对话第15页GAN-生成性反抗生成网络GenerativeAdversarialNetworks它有两个模型:一个生成器,一个判别器没有损失函数,优化过程是“二元极小极大博”北京久其软件股份有限企业2022年9月7日第16页2022年9月7日深度学习框架库名称开发语言速度灵活性文档适合模型平台上手难易Caffec++/cuda快普通全方面CNN全部系统中等TensorFlowc++/cuda/Python中等好中等CNN/RNNLinux,OSX难MXNetc++/cuda快好全方面CNN全部系统中等Torchc/lua/cuda快好全方面CNN/RNNLinux,OSX中等Theanopython/c++/cuda中等好中等CNN/RNNLinux,OSX易Caffe底,由UCBerkelyYangqingJia开发计算机视觉领域首选CaffeTensorFlowGoogle主推开源学习框架有众多预先训练好模型,开发简单速度慢,内存占用较大TorchFacebook力推深度学习框架,主要开发语言是C和Lua有很好灵活性和速度,开发也比较简单缺点是接口为lua语言,不支持PythonPython首选语言Ubuntu首选平台第17页机器学习中问题与应对欠拟合添加其它特征,降低正则化过拟合L1、L2正则化不收敛复审输入数据、修改模型设计、改变参数初始化方法、调整学习速率数据集过小转换扩增运算过慢分布式运算,换用GPU或专用神经网络处理器调参复杂分开训练、参数各种图形化展示北京久其软件股份有限企业2022年9月7日第18页NLP-自然语言处理自然语言是人类智慧结晶,自然语言处理是人工智能中最为困难问题之一广义NLP包含NLU、NLG用到统计、概率、神经网络等各种算法文本分类信息抽取人机对话领域知识图谱自动写稿北京久其软件股份有限企业2022年9月7日第19页汉字分词11款开放汉字分词引擎大比拼当前主流分词包均采取复杂统计模型,HMM、CRF、SP(结构化感知)首先统计大量已切分文本特征训练模型,然后针对输入文本搜索最正确切分方式当前哈工大语言云、Boson云效果最正确THULAC(清华)是开源包中效果最正确,也非常快结巴分词用很广(Python),效果也不错没有完美方案,90%以后每提升1点都要巨大代价北京久其软件股份有限企业2022年9月7日第20页词性标注汉字词类活用现象非常多没有英文变形:ing、ed、er、ly词性命名标准出自北大,基本统一当前都只提供静态词性,非准确标注在关键词计算、事件发觉、情感判断有价值句法分析、语义了解前提词法分析、句法分析、语义了解相互交织依赖,制约了词法技术提升北京久其软件股份有限企业2022年9月7日第21页NER命名实体识别NamedEntityRecognition又称作“专名识别”,是指识别文本中含有特定意义实体三大类:实体类、时间类和数字类七小类:人名、机构名、地名、时间、日期、货币和百分比基于规则和词典方法采取语言学教授手工结构规则模板,选取特征包含统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要伎俩基于统计方法HMM、ME、SVM、条件随机场(CRF)神经网络识别NN、CNN-CRF、RNN-CRF、Attention机制当前缺乏成熟能够API,少数付费效果尚可训练CRF模型,人名、时间、数字识别还行,有提升空间北京久其软件股份有限企业2022年9月7日第22页2022年9月7日语言模型、词向量N-Grams:二元组、三元组、五元组……大量分词后语料进行统计正则化、平滑可用于拼写和语法检验,也可帮助分词Word2Vec:将词组转换成多维向量表示CBOW、Skip-Gram、GloVe神经网络输入需要Embedding,50,100,300维特征相同近邻经过向量距离查找关联词线性加减w2v(中国)-w2v(北京)=w2v(法国)-w2v(巴黎)只是一个高阶近似,同一含义在同一维表示,尽可能分散第23页2022年9月7日关键词、摘要提取PageRank算法原理整个www能够看作一张有向图图,节点是网页。假如网页A存在到网页B链接,那么有一条从网页A指向网页B有向边。导入链接越多,页面主要程度越高复杂迭代优化准确权重关键词距离较近词,视同有链接可依据词性、统计规律调整权重,TF-IDF是最惯用算法摘要句子初始权重为各词TF-IDF权重累计权重最高句子(必要修剪)作为摘要自上而下摘要用模板/知识库生存(事件、球赛)第24页文本分类、聚类、情感倾向文本分类属于有监督学习,需要训练贝叶斯、SVM、神经网络文本聚类属于无监督学习划分法(K-Means)、层次法、密度法、网格法文本倾向性分析,主要用于舆情监控,评价挖掘贝叶斯理论为基础褒义词、贬义词、中性词否定谓词、副词识别与地域、主体识别结合利用难点在于各门类数据抓取、行业模型训练北京久其软件股份有限企业2022年9月7日第25页句法分析上下文无关文法ContextFreeGrammar依存文法分析(DependencyParsing)经过分析语言单位内成份之间依存关系揭示其句法结构识别“主谓宾”、“定状补”算法:CYK、PCFG、CRF、神经网络(?)当前汉字句法分析短句可用,长句较差哈工大LTP语言云、Boson云(很好)StanfordParser、HanLP(稍差)北京久其软件股份有限企业2022年9月7日第26页语义分析/了解知识工程:语义树可用于句子语义了解、数据抽取、句式转换需要强大知识库配合,知识图谱(?)今天晚上吃金属吧(╳)法国一位老人以吃金属为生(√)还难以了解文章,进行摘要或推理神经网络:训练超级模型词向量(稀疏)比较成熟,生成较快Synonymy、Antonymy、Hyponym短句可用向量相加近似表示,长句、文章尚在研究北京久其软件股份有限企业2022年9月7日第27页知识图谱(KnowledgeGraph)由知识点相互连接而成语义网络用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间相互联络,并进行查询推理RDF(资源描述框架)、OWL(Web本体语言)、SparQL建立:数据源整理、实体消歧、schema(本体、关系等)构建、查询与推理、优化存放、更新维护WordNet、Yago、DbpediaCN-Dbpedia、Zhishi.Me、PKU-PIE搜索引擎、金融分析、辅助诊疗当前似乎难以表示行为动作、限定修饰北京久其软件股份有限企业2022年9月7日第28页QA-机器人问答、人机对话

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论