版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京久其软件股份有限公司2022年12月9日人工智能技术概览久其软件-李坤奇北京久其软件股份有限公司2022年12月7日人工智能技术概览目录北京久其软件股份有限公司2022年12月9日1、人工智能定义、关联2、人工智能主要应用领域3、机器学习算法及分类4、主流神经网络简介5、NLP的主要技术与方法目录北京久其软件股份有限公司2022年12月7日1、人工智能人工智能定义用机器,通常为电子仪器、电脑等,对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。数据:预测、挖掘语音:语音识别、语音合成、声纹检测文字:分类、翻译、对话、NLP、NLU、NLG视觉:图像识别、生成作画、视频理解运动:智能控制、仿真机器人、自动驾驶思考:简单推理、机器人写稿、AlphaGo北京久其软件股份有限公司2022年12月9日人工智能定义用机器,通常为电子仪器、电脑等,对人的意识、思维涉及面最广的交叉学科2022年12月9日人工智能自动化控制计算机数学统计学逻辑学归纳学系统学概率论哲学心理学生物学经济学语言学工程学认知学仿生学人工智能教育要从娃娃抓起有望成为一级学科涉及面最广的交叉学科2022年12月7日人工智能自动化控制计工业4.0,自动化生产线旨在提升制造业的智能化水平,建立具有适应性、资源效率及基因工程学的智慧工厂,在商业流程及价值流程中整合客户及商业伙伴其技术基础是网络实体系统及物联网北京久其软件股份有限公司2022年12月9日特斯拉工厂曝光,整个工厂只有150个机器人,超震撼工业4.0,自动化生产线旨在提升制造业的智能化水平,建立具有机器人,好帮手北京久其软件股份有限公司2022年12月9日奔跑跳跃搬东西,这种机器人平衡能力比人类还强机器人,好帮手北京久其软件股份有限公司2022年12月7日奔自动驾驶谷歌、特斯拉、百度、苹果……集各类人工智能技术一身北京久其软件股份有限公司2022年12月9日自动驾驶谷歌、特斯拉、百度、苹果……北京久其软件股份有限公司机器学习数据爆炸式增长催热机器学习统计学、概率模型(贝叶斯)、神经网络有监督学习、半监督学习、无监督学习主要区别在于人工投入的比例无监督学习只有极少数应用投多少人工,有多少智能?北京久其软件股份有限公司2022年12月9日机器学习数据爆炸式增长催热机器学习北京久其软件股份有限公司2强化学习reinforcementlearning,RL又称再励学习、评价学习智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大处于研究阶段无人机,自动化控制,电子游戏北京久其软件股份有限公司2022年12月9日NLP?强化学习reinforcementlearning,RL北迁移学习TransferLearning,TL收集数据成本高;训练耗时;重复利用已有知识样本迁移、特征迁移、模型迁移、关系迁移北京久其软件股份有限公司2022年12月9日用于精准营销迁移学习TransferLearning,TL北京久其软人工神经网络人工神经网络模仿动物神经网络特征,进行分布式并行信息处理的算法数学模型。网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。优势并行分布处理高度鲁棒性和容错能力分布存储及学习能力能充分逼近复杂的非线性关系激活函数、损失函数、梯度下降北京久其软件股份有限公司2022年12月9日人工神经网络人工神经网络模仿动物神经网络特征,进行分布式并行深度学习深度学习源于人工神经网络,多个隐含层感知器。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。各层设计、图形化调参、学习速率北京久其软件股份有限公司2022年12月9日端到端优势?劣势?深度学习深度学习源于人工神经网络,多个隐含层感知器。北京久其CNN–卷积神经网络ConvolutionalNeuralNetwork图像领域应用非常成功,人脸识别超99.5%全连接
局部连接,权值共享图像识别、OCR、语音识别(DBN+CNN+RNN最好)2022年12月9日特征数量卷积核大小CNN–卷积神经网络ConvolutionalNeurRNN–循环神经网络RecurrentNeuralNetwork(t+1)时刻网络的最终结果O(t+1)是该时刻输入和所有历史共同作用的结果语音识别、NLPBidirectionalRNNs、DeepRNNs、GRURNN北京久其软件股份有限公司2022年12月9日RNN–循环神经网络RecurrentNeuralNLSTM-长短期记忆网络LongShort-TermMemoryNeuralNetworkRNN时间上传递的神经网络,可能“梯度消失”通过门的开关实现时间上记忆功能,防止梯度消失遗忘门输入门输出门Seq2Seq机器翻译AttentionModel对话2022年12月9日LSTM-长短期记忆网络LongShort-TermMGAN-生成性对抗生成网络GenerativeAdversarialNetworks它有两个模型:一个生成器,一个判别器没有损失函数,优化过程是“二元极小极大博”北京久其软件股份有限公司2022年12月9日GAN-生成性对抗生成网络GenerativeAdver深度学习框架库名称开发语言速度灵活性文档适合模型平台上手难易Caffec++/cuda快一般全面CNN所有系统中等TensorFlowc++/cuda/Python中等好中等CNN/RNNLinux,OSX难MXNetc++/cuda快好全面CNN所有系统中等Torchc/lua/cuda快好全面CNN/RNNLinux,OSX中等Theanopython/c++/cuda中等好中等CNN/RNNLinux,OSX易2022年12月9日Caffe2013年底,由UCBerkely的YangqingJia开发计算机视觉领域首选CaffeTensorFlowGoogle主推的开源学习框架有众多预先训练好的模型,开发简单速度慢,内存占用较大TorchFacebook力推的深度学习框架,主要开发语言是C和Lua有较好的灵活性和速度,开发也比较简单缺点是接口为lua语言,不支持PythonPython首选语言Ubuntu首选平台深度学习框架库名称开发语言速度灵活性文档适合模型平台上手难易机器学习中的问题与应对欠拟合添加其他特征,减少正则化过拟合L1、L2正则化不收敛复审输入数据、修改模型设计、改变参数初始化方法、调整学习速率数据集过小转换扩增运算过慢分布式运算,换用GPU或专用神经网络处理器调参复杂分开训练、参数各种图形化展示北京久其软件股份有限公司2022年12月9日机器学习中的问题与应对欠拟合北京久其软件股份有限公司2022NLP-自然语言处理自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一广义的NLP包含NLU、NLG用到统计、概率、神经网络等各种算法文本分类信息抽取人机对话领域知识图谱自动写稿北京久其软件股份有限公司2022年12月9日NLP-自然语言处理自然语言是人类智慧的结晶,自然语言处中文分词11款开放中文分词引擎大比拼目前主流分词包均采用复杂的统计模型,HMM、CRF、SP(结构化感知)首先统计大量已切分文本特征训练模型,然后针对输入文本搜索最佳切分方式目前哈工大语言云、Boson云效果最佳THULAC(清华)是开源包中效果最佳,也非常快结巴分词用的很广(Python),效果也不错没有完美方案,90%以后每提升1点都要巨大代价北京久其软件股份有限公司2022年12月9日中文分词11款开放中文分词引擎大比拼北京久其软件股份有限公司词性标注中文词类活用现象非常多没有英文的变形:ing、ed、er、ly词性命名标准出自北大,基本统一目前都只提供静态词性,非准确标注在关键词计算、事件发现、情感判断有价值句法分析、语义理解的前提词法分析、句法分析、语义理解相互交织依赖,制约了词法技术提升北京久其软件股份有限公司2022年12月9日词性标注中文词类活用现象非常多北京久其软件股份有限公司202NER命名实体识别NamedEntityRecognition又称作“专名识别”,是指识别文本中具有特定意义的实体三大类:实体类、时间类和数字类七小类:人名、机构名、地名、时间、日期、货币和百分比基于规则和词典的方法采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段基于统计的方法HMM、ME、SVM、条件随机场(CRF)神经网络识别NN、CNN-CRF、RNN-CRF、Attention机制目前缺少成熟可以API,少数付费效果尚可训练的CRF模型,人名、时间、数字识别还行,有提升空间北京久其软件股份有限公司2022年12月9日NER命名实体识别NamedEntityRecognit语言模型、词向量N-Grams:二元组、三元组、五元组……大量分词后语料进行统计正则化、平滑可用于拼写和语法检查,也可协助分词Word2Vec:将词组转换成多维向量表示CBOW、Skip-Gram、GloVe神经网络输入需要Embedding,50,100,300维特性相似近邻通过向量距离查找关联词线性加减w2v(中国)-w2v(北京)=w2v(法国)-w2v(巴黎)只是一种高阶近似,同一含义在同一维表达,尽量分散2022年12月9日语言模型、词向量N-Grams:二元组、三元组、五元组……2关键词、摘要提取2022年12月9日关键词、摘要提取2022年12月7日文本分类、聚类、情感倾向文本分类属于有监督学习,需要训练贝叶斯、SVM、神经网络文本聚类属于无监督学习划分法(K-Means)、层次法、密度法、网格法文本倾向性分析,主要用于舆情监控,评价挖掘贝叶斯理论为基础褒义词、贬义词、中性词否定谓词、副词的识别与地域、主体识别结合运用难点在于各门类数据抓取、行业模型训练北京久其软件股份有限公司2022年12月9日文本分类、聚类、情感倾向文本分类属于有监督学习,需要训练北京句法分析上下文无关文法ContextFreeGrammar依存文法分析(DependencyParsing)通过分析语言单位内成分之间的依存关系揭示其句法结构识别“主谓宾”、“定状补”算法:CYK、PCFG、CRF、神经网络(?)目前中文句法分析短句可用,长句较差哈工大LTP语言云、Boson云(较好)StanfordParser、HanLP(稍差)北京久其软件股份有限公司2022年12月9日句法分析上下文无关文法北京久其软件股份有限公司2022年12语义分析/理解知识工程:语义树可用于句子语义理解、数据抽取、句式转换需要强大的知识库配合,知识图谱(?)今天晚上吃金属吧(╳)法国一位老人以吃金属为生(√)还难以理解文章,进行摘要或推理神经网络:训练超级模型词向量(稀疏)比较成熟,生成较快Synonymy、Antonymy、Hyponym短句可用向量相加近似表示,长句、文章尚在研究北京久其软件股份有限公司2022年12月9日语义分析/理解知识工程:语义树北京久其软件股份有限公司202知识图谱(KnowledgeGraph)由知识点相互连接而成的语义网络用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,并进行查询推理RDF(资源描述框架)、OWL(Web本体语言)、SparQL建立:数据源整理、实体消歧、schema(本体、关系等)构建、查询与推理、优化存储、更新维护WordNet、Yago、DbpediaCN-Dbpedia、Zhishi.Me、PKU-PIE搜索引擎、金融分析、辅助诊断目前似乎难以表达行为动作、限定修饰北京久其软件股份有限公司2022年12月9日知识图谱(KnowledgeGraph)由知识点相互连接而QA-机器人问答、人机对话IR-basedQuestionAnswering信息检索方式,抽取原文中短语、句子作答问题分析、答案类型确定、确定检索规则、句子抽取、答案生成Knowledge-basedQuestionAnswering确定提问类型及答案模板从原文抽取模板定义要素组织语言生成答案个人助理、客服/导购、专家系统北京久其软件股份有限公司2022年12月9日QA-机器人问答、人机对话IR-basedQuestiDeepBot对话框架北京久其软件股份有限公司2022年12月9日DeepBot对话框架北京久其软件股份有限公司2022年1北京久其软件股份有限公司2022年12月9日北京久其软件股份有限公司2022年12月7日北京久其软件股份有限公司2022年12月9日人工智能技术概览久其软件-李坤奇北京久其软件股份有限公司2022年12月7日人工智能技术概览目录北京久其软件股份有限公司2022年12月9日1、人工智能定义、关联2、人工智能主要应用领域3、机器学习算法及分类4、主流神经网络简介5、NLP的主要技术与方法目录北京久其软件股份有限公司2022年12月7日1、人工智能人工智能定义用机器,通常为电子仪器、电脑等,对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。数据:预测、挖掘语音:语音识别、语音合成、声纹检测文字:分类、翻译、对话、NLP、NLU、NLG视觉:图像识别、生成作画、视频理解运动:智能控制、仿真机器人、自动驾驶思考:简单推理、机器人写稿、AlphaGo北京久其软件股份有限公司2022年12月9日人工智能定义用机器,通常为电子仪器、电脑等,对人的意识、思维涉及面最广的交叉学科2022年12月9日人工智能自动化控制计算机数学统计学逻辑学归纳学系统学概率论哲学心理学生物学经济学语言学工程学认知学仿生学人工智能教育要从娃娃抓起有望成为一级学科涉及面最广的交叉学科2022年12月7日人工智能自动化控制计工业4.0,自动化生产线旨在提升制造业的智能化水平,建立具有适应性、资源效率及基因工程学的智慧工厂,在商业流程及价值流程中整合客户及商业伙伴其技术基础是网络实体系统及物联网北京久其软件股份有限公司2022年12月9日特斯拉工厂曝光,整个工厂只有150个机器人,超震撼工业4.0,自动化生产线旨在提升制造业的智能化水平,建立具有机器人,好帮手北京久其软件股份有限公司2022年12月9日奔跑跳跃搬东西,这种机器人平衡能力比人类还强机器人,好帮手北京久其软件股份有限公司2022年12月7日奔自动驾驶谷歌、特斯拉、百度、苹果……集各类人工智能技术一身北京久其软件股份有限公司2022年12月9日自动驾驶谷歌、特斯拉、百度、苹果……北京久其软件股份有限公司机器学习数据爆炸式增长催热机器学习统计学、概率模型(贝叶斯)、神经网络有监督学习、半监督学习、无监督学习主要区别在于人工投入的比例无监督学习只有极少数应用投多少人工,有多少智能?北京久其软件股份有限公司2022年12月9日机器学习数据爆炸式增长催热机器学习北京久其软件股份有限公司2强化学习reinforcementlearning,RL又称再励学习、评价学习智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大处于研究阶段无人机,自动化控制,电子游戏北京久其软件股份有限公司2022年12月9日NLP?强化学习reinforcementlearning,RL北迁移学习TransferLearning,TL收集数据成本高;训练耗时;重复利用已有知识样本迁移、特征迁移、模型迁移、关系迁移北京久其软件股份有限公司2022年12月9日用于精准营销迁移学习TransferLearning,TL北京久其软人工神经网络人工神经网络模仿动物神经网络特征,进行分布式并行信息处理的算法数学模型。网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。优势并行分布处理高度鲁棒性和容错能力分布存储及学习能力能充分逼近复杂的非线性关系激活函数、损失函数、梯度下降北京久其软件股份有限公司2022年12月9日人工神经网络人工神经网络模仿动物神经网络特征,进行分布式并行深度学习深度学习源于人工神经网络,多个隐含层感知器。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。各层设计、图形化调参、学习速率北京久其软件股份有限公司2022年12月9日端到端优势?劣势?深度学习深度学习源于人工神经网络,多个隐含层感知器。北京久其CNN–卷积神经网络ConvolutionalNeuralNetwork图像领域应用非常成功,人脸识别超99.5%全连接
局部连接,权值共享图像识别、OCR、语音识别(DBN+CNN+RNN最好)2022年12月9日特征数量卷积核大小CNN–卷积神经网络ConvolutionalNeurRNN–循环神经网络RecurrentNeuralNetwork(t+1)时刻网络的最终结果O(t+1)是该时刻输入和所有历史共同作用的结果语音识别、NLPBidirectionalRNNs、DeepRNNs、GRURNN北京久其软件股份有限公司2022年12月9日RNN–循环神经网络RecurrentNeuralNLSTM-长短期记忆网络LongShort-TermMemoryNeuralNetworkRNN时间上传递的神经网络,可能“梯度消失”通过门的开关实现时间上记忆功能,防止梯度消失遗忘门输入门输出门Seq2Seq机器翻译AttentionModel对话2022年12月9日LSTM-长短期记忆网络LongShort-TermMGAN-生成性对抗生成网络GenerativeAdversarialNetworks它有两个模型:一个生成器,一个判别器没有损失函数,优化过程是“二元极小极大博”北京久其软件股份有限公司2022年12月9日GAN-生成性对抗生成网络GenerativeAdver深度学习框架库名称开发语言速度灵活性文档适合模型平台上手难易Caffec++/cuda快一般全面CNN所有系统中等TensorFlowc++/cuda/Python中等好中等CNN/RNNLinux,OSX难MXNetc++/cuda快好全面CNN所有系统中等Torchc/lua/cuda快好全面CNN/RNNLinux,OSX中等Theanopython/c++/cuda中等好中等CNN/RNNLinux,OSX易2022年12月9日Caffe2013年底,由UCBerkely的YangqingJia开发计算机视觉领域首选CaffeTensorFlowGoogle主推的开源学习框架有众多预先训练好的模型,开发简单速度慢,内存占用较大TorchFacebook力推的深度学习框架,主要开发语言是C和Lua有较好的灵活性和速度,开发也比较简单缺点是接口为lua语言,不支持PythonPython首选语言Ubuntu首选平台深度学习框架库名称开发语言速度灵活性文档适合模型平台上手难易机器学习中的问题与应对欠拟合添加其他特征,减少正则化过拟合L1、L2正则化不收敛复审输入数据、修改模型设计、改变参数初始化方法、调整学习速率数据集过小转换扩增运算过慢分布式运算,换用GPU或专用神经网络处理器调参复杂分开训练、参数各种图形化展示北京久其软件股份有限公司2022年12月9日机器学习中的问题与应对欠拟合北京久其软件股份有限公司2022NLP-自然语言处理自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一广义的NLP包含NLU、NLG用到统计、概率、神经网络等各种算法文本分类信息抽取人机对话领域知识图谱自动写稿北京久其软件股份有限公司2022年12月9日NLP-自然语言处理自然语言是人类智慧的结晶,自然语言处中文分词11款开放中文分词引擎大比拼目前主流分词包均采用复杂的统计模型,HMM、CRF、SP(结构化感知)首先统计大量已切分文本特征训练模型,然后针对输入文本搜索最佳切分方式目前哈工大语言云、Boson云效果最佳THULAC(清华)是开源包中效果最佳,也非常快结巴分词用的很广(Python),效果也不错没有完美方案,90%以后每提升1点都要巨大代价北京久其软件股份有限公司2022年12月9日中文分词11款开放中文分词引擎大比拼北京久其软件股份有限公司词性标注中文词类活用现象非常多没有英文的变形:ing、ed、er、ly词性命名标准出自北大,基本统一目前都只提供静态词性,非准确标注在关键词计算、事件发现、情感判断有价值句法分析、语义理解的前提词法分析、句法分析、语义理解相互交织依赖,制约了词法技术提升北京久其软件股份有限公司2022年12月9日词性标注中文词类活用现象非常多北京久其软件股份有限公司202NER命名实体识别NamedEntityRecognition又称作“专名识别”,是指识别文本中具有特定意义的实体三大类:实体类、时间类和数字类七小类:人名、机构名、地名、时间、日期、货币和百分比基于规则和词典的方法采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段基于统计的方法HMM、ME、SVM、条件随机场(CRF)神经网络识别NN、CNN-CRF、RNN-CRF、Attention机制目前缺少成熟可以API,少数付费效果尚可训练的CRF模型,人名、时间、数字识别还行,有提升空间北京久其软件股份有限公司2022年12月9日NER命名实体识别NamedEntityRecognit语言模型、词向量N-Grams:二元组、三元组、五元组……大量分词后语料进行统计正则化、平滑可用于拼写和语法检查,也可协助分词Word2Vec:将词组转换成多维向量表示CBOW、Skip-Gram、GloVe神经网络输入需要Embedding,50,100,300维特性相似近邻通过向量距离查找关联词线性加减w2v(中国)-w2v(北京)=w2v(法国)-w2v(巴黎)只是一种高阶近似,同一含义在同一维表达,尽量分散2022年12月9日语言模型、词向量N-Grams:二元组、三元组、五元组……2关键词、摘要提取2022年12月9日关键词、摘要提取2022年12月7日文本分类、聚类、情感倾向文本分类属于有监督学习,需要训练贝叶斯、SVM、神经网络文本聚类属于无监督学习划分法(K-Means)、层次法、密度法、网格法文本倾向性分析,主要用于舆情监控,评价挖掘贝叶斯理论为基础褒义词、贬义词、中性词否定谓词、副词的识别与地域、主体识别结合运用难点在于各门类数据抓取、行业模型训练北京久其软件股份有限公司2022年12月9日文本分类、聚类、情感倾向文本分类属于有监督学习,需要训练北京句法分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 特殊教育学生纠纷调解协议书
- 特殊教育个性化学习方案
- 数学专项训练备考方案
- 2024年在线教育平台建设与运营合同
- 2024年大型基础设施建设用钢材供应合同
- 2024年土地整治工程承包合同
- 水处理设备运输方案及实施细节
- 2024年城市轨道交通建设投资协议
- 2024年大型飞机零部件生产与供应合同
- 2024年太阳能发电项目合作共建协议
- 大学生职业生涯规划全套教学课件
- 研学旅行概论教学课件汇总完整版电子教案
- 江苏省南通市2022届中考历史试卷
- TSG Z8001-2019特种设备无损检测人员考核规则-高清正版
- 24-计量所年度工作总结及工作计划
- 2.抗美援朝课件(共25张PPT)
- 陶瓷窑炉与设计:第一章 隧道窑-工作原理
- 急救小常识医疗PPT模板
- 人教版八上名著阅读《昆虫记》分章练习(含答案)
- 工程项目管理-英文课件-ProjectProcurement.ppt
- 鹌鹑蛋脱壳机的设计
评论
0/150
提交评论