机器学习的应用场景及数学解题_第1页
机器学习的应用场景及数学解题_第2页
机器学习的应用场景及数学解题_第3页
机器学习的应用场景及数学解题_第4页
机器学习的应用场景及数学解题_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习的应用场景及数学解题第一节

机器学习与元素周期表的重新发现创造出一个能独立发现新自然法则的AI是人类的理想,为此斯坦福大学张首晟团队创造了一个AI程序,仅仅用几个小时就完成了化学元素周期表的重建。新AI程序化学元素周期表能根据原子序数,创建从小到大排序的化学元素列表,并将化学性质相似的元素放在同一族中。该AI程序是名为Atomi2Vec的一个无监督学习程序,它首先分析了一个在线数据库中的化合物名字列表,之后它便能学习分辨出不同的原子。该程序借用了一些自然语言处理领域的概念,通过不同的化学特性将元素分类。具体方法就是通过观察上下文词语间的逻辑来达到理解一些语句的目的。Atomi2Vec使用一个被称为Word2Vec的程序,用于解析自然语言。其工作原理是将单词转换为数字代码(或称为向量),通过分析向量,可以判断在其他某些词汇也出现的情况下,一个特定词汇出现在文中的概率。“对原子,我们可以应用同样的方法,只是这次我们向Atom2Vec输入的是所有已知的化合物,如氯化钠和水等等,而不是用于自然语言处理的词汇和语句。成功重建化学元素周期表证明机器已具备这种重建人类已经完成的伟大发现的能力。在这个项目中他们使用的是无监督学习,但如果使用有监督的方式,也许就可能找到一种能够将阳光转化为能量的高效材料。现在张教授的团队已经开始研究新版程序来解决医学研究中的难题。目前,治疗癌方面最有希望的方法之一是免疫疗法,该方法通过设计合适的抗体来攻击癌细胞中的特有的抗原。人体可以产生超过1000万种独特的抗体,每种抗体都由大约50种基因以不同的组合形式构成。如果能将这些基因映射到向量上,我们就可以将所有抗体编写到类似元素周期表的表格中。如果你发现一种抗体对抗原有效但有毒,你可以在同一家族中寻找另一种同样有效但毒性较小的抗体。第二节ProjectDabter的辩论秀2018年7月,由IBM研发的人工智能辩论系统ProjectDabater与以色列两位辩论冠军举行了一次辩论。辩论的主题是从40个随机话题中抽取出来的,研究人员事先并没有对系统进行过针对辩论赛的特别训练,ProjectDabater自己对多达3亿篇的新闻文章资源库的内容进行识别、分类和选择,并从中提取出适合在辩论中使用的片段。在辩论中,机器做到了表述语法基本正确,语义和逻辑基本清晰连贯。在听取辩论对手就辩题的看法之后,还能够做出切合话题的反驳。它能够吸收大量不同的信息和观点,自主建立有说服力的论据,得出更加让人信服的结论,并取得了最终胜利。可以说从它身上,我们见证了人工智能在更高维度上对我们大脑的思维和运行方式的一次比较成功的模拟。实际上,我们所掌握的知识,对事物的认识和观点,甚至包括大部分创造力都来源于环境中的大量信息。大脑会对我们获取到的这些信息进行记忆、分类、调整、取舍等处理,从中选择出重要或多余的信息。从某种程度上说,这些信息也可以看作一个规模庞大无比、内容无所不包的数据库。如果说我们获取的信息和掌握的知识是大脑对外部信息的筛选和整合,那么情感、判断力、创造力等这些更高层面的认知能力,也可以归为大脑对信息的多次复杂处理之后得到的结果。如果这些相对更高级的能力都有望由人工智能建模实现,我们大脑的运行模式和能力就有可能被代码所重现并最终能够被学习和复制。实际上,Dabater的真正价值不在于辩论本身,而是它可以为人类决策团队做出的重要贡献。比如在办公室、教室内,都可以引入人工智能工具来参与讨论。AI能够为人类决策提供新的信息思路或者可供参考的反对意见,使得基于证据而做出的决策更加可靠合理。不管怎样,希望未来将产生能够真正理解我们,并能对我们的想法做出回应的AI,让我们拭目以待吧。第三节

神经影像领域中的人机大战全球首场神经影像人机大战在中国国家会议中心举行,在脑肿瘤和脑血管影像判读比赛中,全球首款CT、MRI神经影像人工智能辅助诊断产品,天医智(BioMind)机器学习系统最终以高出20%的准确率战胜由25名全球神经影像领域顶尖专家、学者和优秀临床医生组成的团队,今后核磁检查的出片时间有望从现在的几天缩短至几分钟啦。在参加比赛前,它已经跟着北京天坛医院神经影像学中心主任高培毅学习了半年。通过对医院近十年来接诊的数万神经系统病例影像资料的系统学习,在处理脑膜瘤、胶质瘤等常见病的磁共振影像方面,天医智的诊断能力已经达到高职医师的水平。它针对50种颅脑肿瘤,每种都学习了1000个病例,这是任何一名医生都难以实现的。大赛内容包括颅内肿瘤CT、MRI影像判读;脑血管疾病CT、MRI影像判读及血肿预测;脑血管病(狭窄、微出血、梗死、脑白质病变、腔隙灶、血肿)病灶标识,出血体积及梗死体积测量等内容。经过紧张激烈的角逐,在两轮比赛中,BioMind分别以87%、83%的准确率,战胜医生战队66%、63%的准确率。值得一提的是,两轮比赛BioMind均仅用15分钟便答完所有题目,而医生战队几乎答到最后一秒。由于AI不知道累,也不会被心情、环境等外界要素打扰而影响描绘准确性,高主任认为它的准确率最后应该在90%以上。但除了影像查看以外,要成为一个真实的放射科医师还需要会看化验单、体检单、问询宗族史、个人病史,了解患者从前接受过的药物、医治、过敏反应,并有能力归纳以上信息,做出确诊。以后人类医生将不再像以往那样,仅仅依赖临床经验的个人积累,而是越来越依赖电脑的提示。另外吴恩达团队也开发了新的医疗技术,在识别胸透照片中肺炎等疾病上的准确率上也已经超越了人类专业医师。第四节

机器学习算法在神经科学领域的应用杰克·格朗特的神经科学实验室证明,仅通过扫描人在看电影时的大脑活动,计算机就能再生成电影的画面,从某种意义上说这就是读心。2015年,他们通过观察在听播客参与者的大脑活动来预测人们在想象哪一幅名画,并绘制了有关1万个以上的独立单词处在大脑什么位置的“地图集”。随后他们通过使用机器学习工具来分析海量的大脑数据,发现了大脑活动的模式并尝试用来预测我们的感知。利用机器学习来挖掘这些数据,研究人员有潜力彻底改变我们对大脑的理解。传统的fMRI图像能够显示大脑对特定行为最重要的响应区域在哪里。例如,你可以看到我们是在哪里处理负面情绪,或者当我们看到熟悉的面孔时,大脑的哪些区域会亮起来。然而,你无法确切知道那一片区域在行为中具体扮演什么角色,也无法知道其它不那么活跃的区域是否也参与了大脑的该项活动。杰克在实验中,让数位参与者听两个小时的故事播客,并用fMRI扫描器来记录参与者的大脑活动,然后将听单个词语的活动与大脑活动的独特区域关联起来。该实验产生了多到人工无法处理的数据,但利用机器学习的程序能够生成一个展示每个单词“生活于”大脑哪个位置的“地图集”。“研究表明,大脑相当大的一部分都参与了语义理解”,意思相近的单词,如“poodle”(狮子狗)和“dog”(狗)在大脑中的位置相邻。科学最重要的任务之一就是找到能够准确的预测客观世界发展变化的规律,如果科学家能够掌握大脑活动如何转化成语言理解,那他们就能够建立一个更好的、可行的模型来描述大脑如何运作。这样人类就能够更好地理解当输入信息改变(比如发现金矿、比赛失败、大脑生病)的时候究竟发生了什么。如果有足够多大脑活动和行为方面的数据(或许来自可穿戴的脑电图监测器),机器学习就可以开始寻找大脑活动和行为之间的联系。随着机器学习对大脑运作理解的加深,它就会变得更加智能。相信经过不断改进的机器学习程序能够更好地回馈并助力神经科学的发展。第五节

分布式深度森林算法检测套现欺诈最近,周志华团队对原始的深度森林(DeepForest)模型算法进行了诸多改进,并将其运用到针对套现欺诈行为进行自动检测的实验中(拥有超过1亿的训练样本)。结果表明,在不同的评估标准下,只需微调模型的参数,深度森林模型就能够有效地阻止大量套现欺诈行为的发生。对数据科学家和机器学习工程师来说,希望通过一个理想的高性能平台来处理大规模的学习任务(经常有数百万或数十亿的训练样本)。此外,这个平台的搭建过程要简单,并能运行不同的任务以提高生产力。由于金融数据的稀疏性和高维性,我们需要将其视为离散建模或混合建模问题。因此,诸如深度神经网络结构的模型并不适用于金融公司的日常工作。在现实世界中,许多任务都包含离散特征,当使用深度神经网络进行建模时,处理这些离散特征将会变得非常棘手,因为我们需要将离散信息进行显式或隐式地连续转换,但这样的转换过程通常会导致额外的偏差或信息的丢失。而基于树结构的深度森林模型能够很好地处理这种数据类型问题。他们在分布式学习系统“鲲鹏”上实施并部署了深度森林模型,这是分布式深度森林模型在参数服务器上的第一个工业实践,能够处理数百万的高维数据。周志华团队还在人工智能平台PAI上为其搭建了一个易于使用的图形界面,对原始的深度森林模型进行了许多改进,提高了MART作为基础学习者的效率和有效性,可以方便地解决基于成本的类别不平衡数据的处理、基于MART的高维数据特征选择和不同级联水平的评估指标的自动确定等任务。结果表明,在不同的评估指标下,深度森林模型的性能都明显优于现有的所有方法,即使和目前已经部署的其他最佳模型相比,它依然能够显著减少经济损失,更重要的是模型强大的鲁棒性也在实验中得到了验证。但这是否也在暗示“知识和经验”在深度学习中的重要作用呢?第六节

可逆生成模型合成超逼真人像Glow是一种可逆生成模型,又称基于流的生成模型。研究人员在没有标签的情况下训练基于流的模型,然后将学习到的潜在表示用于下游任务,例如操纵输入图像的属性。这些属性可以是面部图像中的头发颜色,也可以是音乐的音调或者文本句子的情感。上述过程只需要相对少量的标记数据,并且可以在模型训练完成后完成(训练时不需要标签)。而使用GAN的工作需要单独训练编码器,使用VAE的方法仅能确保解码器和编码器数据兼容。OpenAI研究人员表示,这项工作是建立在非线性成分估计和RealNVP的基础上。他们的主要贡献是增加了可逆的1x1卷积,并且删除了RealNVP的其他组件,从而简化了整体架构。RealNVP架构包含两种类型的层:一种是有棋盘格masking的层,一种是有channel-wisemasking的层。OpenAI去掉了前一种棋盘格masking,简化了整体结构。在Glow模型的工作中,具有channel-wisemasking的层不断重复下列步骤:通过在channel维度上反转输入的顺序来置换输入。将输入在特征和维度的中间分为A和B两部分。将A输入一个浅层的卷积神经网络,根据神经网络的输出线性变换B连接A和B,将这些层链接起来,让A更新B,B更新A,然后A再更新B,以此往复。这种双向信息流非常rigid。研究人员发现,通过将步骤(1)的反向排列改变为(固定的)shuffle排列还能改善模型性能。此外,他们还将批归一化(BN)换成了一个激活归一化层。这个层能够转变和放大激活。因此,能将大图像最小的批量大小缩小到1,并扩大模型的大小。这个架构结合了梯度检查点优化,使研究人员能够比平常更大规模地训练基于流的生成模型。他们还使用Horovod在多台机器的集群上训练模型,演示中使用的模型在5台机器上训练,每台有8个GPU。使用这种设置,他们训练了具有超过一亿个参数的模型。这项工作中表明,可以训练基于流的模型来生成逼真的高分辨率图像,并且学习可以轻松用于下游任务(如数据操作)的潜在表示。基于流的生成模型有以下优点:精确的潜变量推断和对数似然估计;高效的推理和有效的合成;下游任务的有用潜在空间;节省内存的巨大潜力。第七节

自动化几何定律代数证明的吴方法吴文俊先生的研究工作主要成就表现在拓扑学和数学机械化两个领域。他在拓扑学上的示性类和示嵌类成果被国际数学界称为“吴示性类”,“吴示嵌类”。他把中国传统数学的思想概括为机械化思想,遵循中国传统数学中几何代数化的思想,提出了用计算机证明几何定理的吴方法。“吴方法”首次实现了高效的几何定理自动证明,许多定理的证明只需几秒甚至零点几秒就可在电子计算机上完成,至今已证明出600多条几何定理。其中有一些定理证明相当繁杂,即便交给杰出的数学家来证,也是相当困难的。吴方法进行几何定理机器证明的第一步是几何问题代数化,即为命题中涉及的几何图形上的点选取适当的坐标系,然后把命题的条件和结论表示为坐标的多项式方程组,最后判断条件方程组的解是否满足结论方程。值得注意的是,平常的几何命题涉及的多项式方程组都是非线形的,一般无法将约束变元求出。对此,吴先生天才地利用伪除法来判定条件方程组的解是否是结论方程组的解,多项式的伪余除法可以通过计算机做符号计算,从而解决了这一难题。此外利用吴方法不仅可以判断定理的正确与否,还可以自动找出定理赖以成立的非退化条件,这是传统的做法无法做到的。有趣的是,吴先生还用计算机程序从开卜勒定律推导出牛顿定律,这已超出了数学定理机械化证明的范畴,属于更广范畴的自动推理。各个科学领域研究的问题,只要涉及到方程求解,“吴方法”都会有用武之地。此外,与吴方法进行大量符号计算不同,单点例证法和数值并行法这两种方法,主要利用数值计算的方法进行定理的证明,所以有时也被单独列为几何定理证明的数值方法。最后,几何定律的证明还可以使用几何不变量和基于演绎数据库的搜索法,感兴趣的朋友可以自己了解一下。第八节

数学家的软件---MapleMaple和Matlab、Mathematica并称为三大数学工程计算软件。Maple是由加拿大滑铁卢大学研制的一种计算机代数系统,至今已有35年的历史。它是数学和符号计算软件的世界领导者,由众多的数学家参与开发,因此又有“数学家的软件”之称。用户可在智能文件环境中完成科学计算、建模仿真、可视化、程序设计、技术文件生成、报告演示等各种任务。Maple能够提供智能界面求解复杂数学问题和创建技术文件,它集成了世界上最强大的符号计算和高性能数值计算引擎。内置超过5,000个计算命令以及400多个API自动解题应用程序,可以方便地开发各种类型数学应用题的自动计算推理程序,还可以方便地生成各种API和函数库,能被包括诸如Java,C++在内的多种编程语言调用。其庞大的数学知识库覆盖几乎所有的数学领域,如微积分,线性代数,方程求解,离散变换,概率论和数理统计,物理,图论,张量分析,解析几何,矩阵计算,线性规划,组合数学,矢量分析,抽象代数,泛函分析,数论,复分析和实分析,抽象代数,级数和积分变换,特殊函数等等。各种工程计算包括优化,统计过程控制,灵敏度分析,动力系统设计,小波分析,信号处理,控制器设计,集总参数分析和建模,各种工程图形,金融数学,编码和密码理论等。Maple以良好的使用环境、强有力的符号计算能力、高精度的数字计算、灵活的图形显示和高效的可编程功能成为教师学生和科研人员所喜爱的数学处理工具。Maplesoft的旗舰产品Maple集成了世界上最强大的数学计算引擎和易于使用的接口,能够方便地分析、探索、可视化、求解数学问题。此外系列产品的解决方案还涉及了在线测试和评估、系统级建模仿真、在线STEM课件等,其产品及咨询服务已在90个国家和地区、超过8000家教育机构、研究所、实验室及企业中使用。第九节Maple在概率统计数学实验中的应用我们都熟悉物理实验和化学实验,就是利用仪器设备,通过实验来了解物理现象、化学物质等的特性。同样,数学实验就是以计算机为工具,以软件为载体,通过实验来了解数学问题的特性,解决实际中的数学问题。过去,因为实验设备和实验手段的问题,无法解决数学上的实验问题。随着计算机技术的发展,许多数学问题都可以由计算机代替完成,也为我们用实验解决数学问题提供了可能。Maple的统计包中有7个子包,其中描述性数据分析有22个描述性统计量函数:平均值、方差、标准差、协方差、相对标准差(标准差/平均值)、计数(非缺失)、计数缺失、中位数、范围、数据求和、众数、歪斜度、曲率度、几何平均值、r次均方、线性相关数、平均绝对偏差、和谐平均值、二次平均值、查找百分位数、查找分数位数据、查找四分位数、查找十分位数。拟合回归分析包括有函数最小二乘法、最小中间二乘法、回归方程、线性回归等。按分布产生随机数可用的概率分布有:(离散型)二项分布、均匀分布、经验分布、超几何反二项分布、泊松分布、连续型均匀、指数分布、正态分布、卡方分布、t-分布、F-分布、伽马、拉普拉斯、罗吉斯特、对数正态、贝塔、柯西、威布尔分布等等。另外还有数据形式变换、分布的数值计算、统计绘图、方差分析等功能模块。怎么样,很厉害的样子吧。估计一下下面的计算你要多长的时间呢?用Maple可以秒杀的哈。1、现有(x,y)的数据(0.1,3),(0.5,4)(0.4,4),(1,8)(1.2,10)(0.7,6),求回归方程y=ax+b和y=ax^2+bx+c2、设X~N(150,100),求概率(1)P(X>135);(2)P(X≤160);(3)若已知P(X>u)=0.05,求u3、生成15个参数λ=8的泊松分布随机数。4、设总体X的样本为1723,1658,1699,1702,1687,1688,1716,1689,求平均值,标准差,并验证X为正态分布总体时,总体均值是否为μ=1690。5、设(x,y)的数据(0.1,4.9),(0.5,35.5),(0.4,23),(1,440)(1.2,1200)(0.7,96)求回归方程y=ae^bx(注:先化为z=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论