版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学大数据分析常用大数据工具高等教育出版社CONTENTS目录1Hadoop简介2Python简介3R语言简介4Matlab简介5Weka简介1Hadoop简介Hadoop主要架构核心模块HadoopCommon作为Hadoop体系最底层的一个模块,HadoopCommon主要用于支持其他Hadoop模块,提供各种常用工具,如配置文件和日志操作等。HadoopYarnYarn用于作业调度和集群资源管理,其中ResourceManager负责整个集群的资源管理分配,NodeManager负责单个节点的管理。HadoopMapReduceMapReduce用于进行大规模数据集的并行计算。Map阶段将任务分解到各服务器节点进行操作,生成键值对结果作为Reduce阶段的输入,Reduce对运算结果进行聚合汇总。HadoopDistributedFileSystem(HDFS)HDFS是Hadoop体系中数据存储管理的基础,能够提供对应用程序数据的高吞吐量访问,因此适合拥有超大数据集的应用程序。Hadoop主要架构01020304Hive是一个数据仓库,并提供了一套查询语言以帮助熟悉SQL编程的用户操作查询Hadoop上的数据Pig是一个对大型数据集进行分析和评估的平台,其突出优势在于可以经受住高度并行化检验Chukwa是一个开源的数据采集系统,用于管理大型分布式系统的数据Avro是一个数据序列化系统,支持将数据结构或对象转换为方便存储和传输的格式HBase是一个面向结构化数据的开源数据库,支持对大数据的随机实时读写访问Hadoop主要架构Mahout是一个可扩展的机器学习和数据挖掘库,以帮助开发人员更加方便快捷地创建智能应用程序ZooKeeper是一个分布式的服务框架,其目标在于将关键服务封装好,提供给用户简单易用的接口和性能高效、功能稳定的系统。可靠性能够检测并快速应对硬件频繁出现故障的情况扩展性高效性兼容性Hadoop特点通过增加集群节点,实现线性横向扩展,处理更大的数据集允许编写并行代码,并自动分配数据保证节点动态平衡,处理速度非常快基于Java开发,在所有平台上兼容2Python简介Python成为数据挖掘和人工智能等领域最受欢迎的一门编程语言Python庞大的标准库中,包含大量关于机器学习、自然语言和文本处理等人工智能相关的库和软件Python相较于其他面向对象编程语言学习更简单快速主流大数据处理平台(如Hadoop)提供了Python接口NumpyNumpy支持大量的维度数组与矩阵运算,同时也针对数组运算提供大量的数学函数库PandasPandas是基于Numpy构建的一个库,广泛应用于数据处理、清洗和分析等工作Scikit_LearnScikit-Learn是重要的机器学习库,包括多种机器学习算法,如分类、回归、降维和聚类等Python主要功能010203易读易用包含相对较少的关键字,结构简单清晰,语法定义明确,具有伪代码的本质免费开源可免费使用和拷贝,且使用者可自由对其进行研究和修改可扩展可以利用C/C++完成部分程序,之后在Python中调用它们可嵌入可以嵌入C/C++程序,向使用者提供脚本功能Python特点可移植由于其开源特性,可被移植到许多平台上正常运行丰富的库一个丰富且功能强大的标准库,可帮助处理各种工作,体现了其“功能全面”的理念。010203040506Anaconda是一个开源的Python发行版本,其涵盖了数据科学工作需要用到的常见的库,因此可以方便地利用Anaconda版本进行数据科学研究,其中已默认安装多种PythonIDE,例如JupyterNotebook和Spyder等Python环境介绍JupyterNotebook可将程序、说明文档、数学方程、可视化内容等组合到一个可分享的文档中,方便用户一目了然。在数据挖掘平台Kaggle上,绝大多数使用Python的数据爱好者使用JupyterNotebook来实现分析和建模的过程Python环境介绍3R语言简介R是一套完整的数据处理和制图软件系统主要功能:数据存储和处理、数组运算、统计分析、统计制图等主要优势:拥有丰富的软件包,其功能强大,易于访问,非常适合大数据分析R语言在数据分析和挖掘领域受到越来越多用户的认可,成为数据科学家的优先选择,也是科技公司、分析和咨询公司以及学术研究机构中进行大数据分析的流行语言R语言主要功能免费开源自由、免费、开放源代码的软件,支持在各主要计算机系统平台上运行简单易学丰富的包可视化能力强R语言特点语法简单易懂,容易掌握,且代码简洁易读软件包覆盖数据清洗、转换、分析等方面,降低了数据处理难度具有强大的数据绘图功能,可针对复杂数据进行可视化,也可兼容不同来源和格式的数据R软件的用户界面如图所示,上部由标题栏、菜单栏、快捷按钮栏组成,中间打开部分是控制台窗口RConsole,其中,符号“>”
表示命令行提示符,在该符号后可输入命令,之后按下回车键,R软件就会执行刚输入的一条命令R语言环境介绍区域2控制台窗口,其功能与R软件的控制台窗口相同,显示程序运行的信息区域3常用窗口为,环境标签窗口(显示当前变量的信息)和历史标签窗口(显示代码执行的历史记录)区域4常用窗口为,文件标签窗口(显示当前工作路径下的文件),图形标签窗口(显示绘制的图形),程序包标签窗口(显示已安装的程序包),帮助标签窗口(提供函数如何使用的帮助信息)区域1脚本窗口,可以在其中编写和保存R程序代码R语言环境介绍数值(numeric)变量:代表一个实数字符(character)变量:代表一个字符串逻辑(logical)变量:只有TRUE(真)和FALSE(假)两种取值变量类型R语言基础【例2-1】创建变量并赋值a<-5 #创建一个数值变量gender<-"female" #创建一个字符变量flag<-TRUE #创建一个逻辑变量向量是R语言中基本的数据对象,一个向量只能由相同数据类型的分量组成向量R语言基础【例2-2】创建、访问与修改向量a<-c(2,20,200) #创建一个向量a:220200a #显示向量a:220200[1]220200b<-1:6 #创建一个向量b:123456b #显示向量b:123456[1]123456b[5] #显示向量b中的第5个元素b[2]<-20 #修改向量b中第2个元素的值b #显示向量b:1203456[1]1203456因子是用于对数据进行分类并存储其类别的数据类型,可以记录一组数据中的类别名称和数目因子R语言基础【例2-3】创建并查看因子属性a<-factor(c('male','female','female','male','female')) #创建一个因子levels(a) #查看因子中的类别名称[1]"female""male"nlevels(a) #查看因子中的类别数目[1]2二维数组称为矩阵,矩阵也需由相同数据类型的分量组成矩阵R语言基础【例2-4】创建与访问矩阵(1)利用matrix函数直接创建矩阵a<-matrix(0,nrow=2,ncol=3) #创建一个2行3列矩阵a,其中元素均为0a #显示矩阵a输出结果为:
[,1][,2][,3][1,]000[2,]000(2)创建向量后,以列优先的次序创建矩阵v<-seq(0,10,by=2) #创建一个向量v:0246810b<-matrix(v,3,2) #将向量v以列优先的次序转化成3行2列矩阵bb #显示矩阵b输出结果为:
[,1][,2][1,]06[2,]28[3,]410二维数组称为矩阵,矩阵也需由相同数据类型的分量组成矩阵R语言基础【例2-4】创建与访问矩阵(3)创建向量后,以行优先的次序创建矩阵c<-matrix(v,3,2,byrow=TRUE) #将向量v以行优先的次序转化成3行2列矩阵cc #显示矩阵c输出结果为:
[,1][,2][1,]02[2,]46[3,]810(4)访问矩阵中的元素c[3,1] #显示矩阵c第3行和第1列交叉位置的元素输出结果为:8数据框与Excel表格类似,由行和列组成,每一列有一个列名,每一行有一个序号。与矩阵不同的是,数据框可存储不同的数据类型数据框R语言基础【例2-5】创建与访问数据框age<-c(6,14) #创建向量age为年龄数据name<-c("Audree","Andy") #创建向量name为姓名数据gender<-c("female","male") #创建向量gender为性别数据info<-data.frame(age,name,gender) #创建数据框infoinfo #显示数据框infoinfo[2,1]<-20 #修改info第2行和第1列交叉位置的元素值输出结果为:
agenamegender16Audreefemale214Andymale列表可以包含类型的对象组成,列表中的元素可以是向量、矩阵、数据框,甚至是其他列表列表R语言基础【例2-6】创建与访问列表(1)创建列表#创建列表x,包含三个元素,名称分别为a、b和c,类型分别为向量、矩阵和列表x<-list(a=c('Alex','Andy'),b=matrix(1:6,nrow=2),c=list('R',100))x #显示列表x输出结果为:$a[1]"Alex""Andy"$b[,1][,2][,3][1,]135[2,]246$c$c[[1]][1]"R"$c[[2]][1]100列表可以包含类型的对象组成,列表中的元素可以是向量、矩阵、数据框,甚至是其他列表列表R语言基础【例2-6】创建与访问列表(2)根据索引访问列表x[1] #根据索引访问列表中的第1个元素输出结果为:$a[1]"Alex""Andy"(3)根据名称访问列表x$b #根据名称访问列表中的元素b输出结果为:
[,1][,2][,3][1,]135[2,]246R软件安装选择菜单“程序包→安装程序包”,在弹出的“SecureCRANmirrors”对话框中选择一个中国的镜像,如“China(Beijing2)[https]”,在弹出的“Packages”对话框中选择要下载安装的程序包名称,点击“确定”即可完成RStudio软件安装选择菜单“Tools→InstallPackages”,在弹出的对话框中,输入需要安装的程序包名称,点击“Install”即可完成命令安装通过在控制台窗口中输入命令install.packages('packagename')安装程序包,例如:install.packages('ggplot2')命令括号中的ggplot2为安装的程序包名称R语言基础程序包是实现特定功能的函数包,R语言的使用在很大程序上借助于各种程序包的辅助。常用的程序包下载安装方式有以下三种方式程序包4MATLAB简介拥有上百个工程中需要用到的数学函数,可实现用户所需的多种计算功能,例如线性方程组求解、概率统计、最优化问题求解等图形处理功能,可应用于科学计算和工程绘图针对多个领域开发了功能强大的工具箱,用户可直接使用而不需要自行编写程序,工具箱覆盖到的领域包括神经网络、数据采集、信号处理、图像处理、概率统计等MATLAB主要功能功能强大扩充能力强编程效率高Matlab中的运算符大部分可直接用于矩阵间的运算,且拥有丰富的库函数,同时具有完备的绘图功能用户可根据需求方便创建新的库函数,以扩充Matlab的功能。另外可方便地与Fortran、C等语言接口,充分利用各种资源Matlab是一种面向科学与工程计算的高级编程语言,采用接近数学表达式的自然化语言。程序文件是一个纯文本文件,可通过任何文字处理软件对其进行编写和修改MATLAB特点区域2命令行窗口,主要用于显示除了图形之外的所有计算运行结果区域3命令历史记录窗口,记录所有命令的历史记录,并标明使用时间区域4当前文件夹窗口,可显示或设置当前工作目录及当前目录下的文件相关信息区域1编辑器窗口,可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度绿色出行解决方案民间担保借款合同4篇
- 男方协议离婚书2025年度电子版制作与版权保护合同3篇
- 二零二五年度智能电网设备研发与销售合同范本4篇
- 二零二五版内资股协议转让知识产权保护合同4篇
- 二零二五年度爬架租赁与施工现场环境保护合同2篇
- 2025年度城市公园绿地日常养护维修服务合同规范3篇
- 二零二五年度名筑印象住宅电梯品牌代理销售合同4篇
- 二零二五年内蒙古文化旅游融合发展合同规范4篇
- 2025年度瓷砖铺贴与新型建筑材料研发合同4篇
- 二零二五年度山庄生态旅游合作开发合同范本2篇
- 二零二五年度无人驾驶车辆测试合同免责协议书
- 2025年湖北华中科技大学招聘实验技术人员52名历年高频重点提升(共500题)附带答案详解
- 高三日语一轮复习助词「と」的用法课件
- 毛渣采购合同范例
- 无子女离婚协议书范文百度网盘
- 2023中华护理学会团体标准-注射相关感染预防与控制
- 五年级上册小数递等式计算200道及答案
- 2024年广东高考政治真题考点分布汇 总- 高考政治一轮复习
- 燃气管道年度检验报告
- GB/T 44052-2024液压传动过滤器性能特性的标识
- 国际市场营销环境案例分析
评论
0/150
提交评论