版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、旅游研究院大数据挖掘与分析科研平台建设方案背景1.1数据挖掘和大数据分析行业背景和发展趋势移动互联网、电子商务以及社交媒体的快速发展使得企业 需要面临的数据量成指数增长。根据IDC数字宇宙 (Digital Universe)研究报告显示,2020年全球新建和复 制的信息量已经超过40ZB,是2015年的12倍;而中国的数 据量则会在2020年超过8ZB,比2015年增长22倍。数据量 的飞速增长带来了大数据技术和服务市场的繁荣发展。IDC 亚太区(不含日本)最新关于大数据和分析(BDA)领域的市场 研究表明,大数据技术和服务市场规模将会从2012年的5. 48 亿美元增加到2017年的23.
2、 8亿美元,未来5年的复合增长 率达到34. l%o该市场涵盖了存储、服务器、网络、软件以 及服务市场。数据量的增长是一种非线性的增长速度。据IDC分析报道,最近一年来,亚太区出现了越来越广泛 的大数据和分析领域的应用案例。在中国,从互联网企业, 到电信、金融、政府这样的传统行业,都开始采用各种大数 据和分析技术,开始了自己的大数据实践之旅;应用场景也 在逐渐拓展,从结构化数据的分析,发展到半结构化、非结 构化数据的分析,尤其是社交媒体信息分析受到用户的更多 关注。用户们开始评估以Hadoop.数据库一体机以及内存计 算技术为代表的大数据相关新型技术。最新调研结果显示,提高竞争优势,降低成本以
3、及吸引 新的客户是中国用户对大数据项目最期望的三大回报。目前 现有的大数据项目主要集中在业务流程优化以及提高客户 满意度方面的应用。IDC发现很多用户希望大数据能够为企 业带来业务创新,并且开始使用高级分析的解决方案以管理 复杂的数据环境。过去一年中用户对社交数据的收集和分析 应用的关注度增加明显。未来,地理位置信息分析将会增长 迅速,这也会推动用户对大数据安全和隐私管理的关注。在 亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要 在咨询服务方面,更关注如何根据新的最佳实践需求设计和 实施方案。中国和印度在大数据领域的硬件投资则非常明 显,更倾向于数据中心相关的基础架构的投资。在传统的数据
4、分析与商业数据挖掘中,人们通常遵循二 八原则。也就是任务20%的用户提供了 80%的价值,因此利 用优势资源用户对于少数用户的服务。随着互联网的发展, 越来越多的低价值用户进入到商业体系中,这部分用户成为 商业企业竞争的目标。比如电商行业,大量顾客都是传统意 义上的低价值客户,数据表明对于这部分用户价值的挖掘可 以改变二八原则,甚至可达到价值的几乎均匀分布。并且由 于计算技术的发展,对于大数据的分析也成为了可能。1. 2旅游行业开展大数据分析及应用的意义旅游行业有行业广、规模大、移动性强的特点,因此更 加依赖大数据。当前,旅游业也在“新常态”下迎来了升级 的挑战和变革的机遇,新常态对于一般的经
5、济部门是经济速 度放慢、人均GDP增速减小,很多传统行业在调整结构,但 新常态对旅游行业却是速度加快的。旅游大数据的解决之 道,在于整合国内多途径的大数据源,形成旅游大数据生态, 为国内旅游业提供大数据解决方案,促进旅游业的转型升 级。1. 3数据挖掘与大数据分析科研平台建设的必要性数据挖掘与大数据分析是以计算机基础为基础,以挖掘 算法为核心,紧密面向行业应用的一门综合性学科。其主要 技术涉及概率论与数理统计、数据挖掘、算法与数据结构、 计算机网络、并行计算等多个专业方向,因此该学科对于科 研平台具有较高的专业要求。科研平台不仅要提供基础的编 程环境,还要提供大数据的运算环境以及用于科学研究的
6、实 战大数据案例。这些素材的准备均需完整的科研平台作为支 撑。目前,在我国高校的专业设置上与数据挖掘与大数据分 析相关的学科专业包括:计算机科学与技术、信息管理与信 息系统、统计学、经济、金融、贸易、生物信息、旅游以及 公共卫生等。这些专业的在使用科研平台时的侧重点各不相 同,使用人员层次水平也不相同,对算法的使用也不相同, 因此,需要建设一个便利、操作简易、算法全面、可视化的 大数据科研平台是非常有必要的。数据挖掘与大数据分析科研平台总体规划2.1科研平台规划科研平台建设的基本原则是科研为主,同时为教学实验 提供部分计算资源及安全资源,系统在授权范围内共享科研 系统的计算资源,提高教学实验的
7、真实性。项目的总体架构如图1所示。图1.总体架构图系统整体由千兆核心交换机作为核心节点,并以两个千兆 接入交换机作为科研与实验环境的交换节点。科研环境由我 司开发的商业Hadoop集群为基础,上层集成便于操作的大 数据科研应用系统,集成10TB大数据案例集及可拖拽的数 据算法和可视化算法。22科研平台功能规划本科研平台针对数据挖掘有大数据分析研究内容,兼顾 科研与教学的需求,既能满足科研工作中对大数据分析高性 能平台要求也具有教学实验平台简单易用的特点。大数据资源规划内置商业级数据资源,按常见科研分类规划数据资源,可 以直接用于科学研究,具有数据资源授权管控功能。大数据分析功能规划建设以商业版
8、Hadoop为核心的大数据分析平台,系统提 供MapReduce以及Spark等大数据挖掘功能。系统具有完整 的管理调度功能。硬件资源功能规划系统具有24个Intel Xeon E5 CPU计算能力,提供超过 40TB的存储能力以及1T以上的内存,可满足1000任务共时 计算内能,方便扩充。数据挖掘与大数据分析科研平台建设方案3.1大数据科研平台设备架构图3.设备架构3.1.1主节点和备份主节点主节点负责整个分布式大数据平台的运行。主节点始终 在内存中保存整个文件系统的目录结构,每个目录有哪些文 件,每个文件有哪些分块及每个分块保存在哪个计算上,用 于处理读写请求。同时,主节点还负责将作业分解
9、成子任务, 并将这些子任务分配到各个计算节点上。备份主节点在主节 点发生故障时承担主节点的各种任务,使得分布式大数据平 台仍然能够正常运行。3.1.2管理节点管理节点用于管理整个分布式大数据平台,可进行节点 安装、配置、服务配置等,提供网页窗口界面提高了系统配 置的可见度,而且降低了集群参数设置的复杂度。3.1.3接口节点终端用户通过接口节点连接和使用分布式大数据平台, 提交任务并获得结果,并可以用其他数据分析工具做进一步 处理,与外界进行数据交互(如连接关系型数据库)。3.1.4计算节点分布式大数据平台包含了多个计算节点。计算节点是系 统中真正存储数据和做数据运算的节点。每个计算节点周期 性
10、地和主节点通信,还时不时和客户端代码以及其他计算节 点通信。计算节点还维护一个开放的socket服务器,让客 户端代码和其他计算节点通过它可以读写数据,这个服务器 还会汇报给主节点。3. 2大数据科研平台底层架构大数据科研平台低层架构以我司自主研发的商业版 Hadoop为基础架构,包含和大数据分析、数据挖掘、机器学 习等功能模块,并以HDFS以及Hbase作为存储基础。图2.软件架构3. 2.1分布式持久化数据存储一一HDFSHadoop分布式文件系统(HDFS)被设计成适合运彳亍在通 用硬件上的分布式文件系统。它和现有的分布式文件系统有 很多共同点。但同时,它和其他的分布式文件系统的区别也
11、是很明显的。HDFS是一个高度容错性的系统,适合部署在廉 价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大 规模数据集上的应用。HDFS放宽了一部分P0SIX约束,来实 现流式读取文件系统数据的目的。3. 2. 2分布式实时数据库一一HBaseHBase是一个分布式的、面向列的开源数据库,该技术 来源于Fay Chang所撰写的Google论文Bigtable: 一个 结构化数据的分布式存储系统”。就像Bigtable利用了 Google文件系统(所提供的分布式数据存储一样,HBase在 Hadoop之上提供了类似于BigTable的能力oHBase是Apache 的Hadoop项目的
12、子项目。HBase不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库。另一个不同的 是HBase基于列的而不是基于行的模式。3. 2. 3分布式资源调度管理YARNYarn 是 Hadoop2. 0 的 MapReduce 框架。YARN 分层结构 的本质是ResourceManagero这个实体控制整个集群并管理 应用程序向基础计算资源的分配。ResourceManager将各个 资源部分(计算、内存、带宽等)精心安排给基础 NodeManager (YARN 的每节点代理)。ResourceManager 还 与 ApplicationMaster 一起分配资源,与 Node
13、Manager 一 起启动和监视它们的基础应用程序。在此上下文中, ApplicationMaster 承担了 以前的 TaskTracker 的一些角 色,ResourceManager 承担了 JobTracker 的角色。3. 2. 4交互式SQL引擎HiveHive是基于Hadoop的一个数据仓库工具,可以将结构 化的数据文件映射为一张数据库表,并提供简单的SQL查询 功能,可以将SQL语句转换为MapReduce任务进行运行。其 优点是学习成本低,可以通过类SQL语句快速实现简单的 MapReduce统计,不必开发专门的MapReduce应用,十分适 合数据仓库的统计分析。3. 2.
14、 5内存计算SparkSpark是UC Berkeley AMP实验室所开源的类Hadoop MapReduce的通用的并行计算框架。Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中 间输出结果可以保存在内存中,从而不再需要读写HDFS,因 此Spark能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 算法。33科研平台的功能3. 3.1科研项目管理在科研平台中,科研计算是以计算项目来保存的,包括 了计算项目建立、计算项目维护、计算项目设计、计算项目 运行和结果可视化等几个环节。从技术角度来说,计算项目 中也包括了算法组件、算法
15、流程和数据集,一旦设计完后, 就可用于计算,后期还可以调整算法和基于新的数据资源进 行计算。计算项目完成后,可以训练出算法模型,在新的计算项 目中使用已经训练好的模型进行数据的预测,形成一次训练 多次使用的算法实现。3. 32平台内置数据集在科研工作中,如何获取到海量高质量大数据资源是最 大的难点。目前在互联网等渠道是很难找到科研工作所需的 数据源,尤其是经过数据清洗和治理后的高质量数据。数据超市平台利用以下模式,通过外部的资源,为高校 的科研工作提供优质数据资源:1)通过商务合作的模式,直接与数据所有权拥有者进行 灵活的商务沟通,获得科研的数据使用授权;2)邀请行业内优质的第三方数据服务提供
16、商入驻数据超 市平台;3)通过数据采集的方式,经过数据寻源、采集、治理、 清洗后,引入具有公开版权的数据资源;所有引入数据都会经过数据工程师的严格审核,保证数据 的清洁和质量,可以直接用于数据计算。如平台内置的专利数据,包括了国内近2000万各类商 业数据,并且不断更新,可以直接用于旅游各方面的科学研 究。有别区目前行业提供的数据库,数据超市直接提供了原 始的数据,可以打通其他的行业数据,用于深层次的数据分 析和经济预测。3. 33科研数据上传科研老师已有的数据可以上传到平台参与数据计算,老 师可以在平台上建立数据表,然后把本地数据文件上传到数 据表中。也可以维护外部的JDBC数据源,平台会把
17、外部数 据自动抽取到平台中进行计算和预测。3. 3. 4集成算法组件为了便于科研老师快速进行科研数据的加工、分析和计 算,数据超市平台集成了 50多种通用大数据算法组件,包 括回归算法、分类算法、聚类算法、关联规划算法、推荐算 法、预测评估、数据预处理算法、机器学习等。所有的算法 无须重新编程,只需要拖拽绘图完成即可进行计算,如下图:三组件列哀I机学习+处 m+ SEH分析文本分析+ IA+用络分折+敷捣可祝化+刑目标D项目:决策樹E1归组件测试9节点配算法组件经过配置可以实现强大的自定义计算功能和 效果,调整后的模型可以完成老师需要的数据分析和预测。3. 35科研平台可视化功能提供20余种可
18、视化展示模式,一键选择,一键切换,可按使用者需求展示大数据之美,根据需要展示对应的纬度, 并可以一键生成高质量PNG文件,保存到本地后可用于科研 报告和论文等。平台数据集清单科研平台为方便用户快速开展科学研究、生成科研数据 报告,平台提供了一些通用的数据集,包括各类标准科研数 据等。平台也内置了数百款可选数据集,分为多个数据包,总 量近10TB,并且随商务和采集工作推进,仍在不断增加中。定制数据服务根据科研老师的需求,数据超市平台提供数据采集和商 务合作等定制数据引入模式,数据引入后,可以直接引入数 据超市,由老师来进行使用。如老师需要旅游服务评价类数据进行服务情况的分析 和预测,可以直接通过
19、数据超市内的数据定制模块提出数据 需求,经数据超市平台管理员汇总后,可以通过数据超市平 台进行数据的准备,交给老师进行使用。科研平台算法清单平台集成的算法包括72种,全部来自科研网站,经过 了商业机构的验证,引入平台后完成了分布式优化,可以高 效执行,详细如下表:序 号算法分类算法名称算法描述1回归 算法线性回归利用线性模型对数值型变量进行拟合。2回归 算法决策树回归利用平方误差最小化准 则,进行特征选择,生 成二叉树,从而对对数 值型变量进行拟合3回归 算法随机森林回归以回归决策树为基模 型,将一定数量的基模 型组合对数值型变量拟 合,并对基模型的预测 结果平均作为算法的最 终结果4回归梯度
20、提升回归树以二叉回归决策树为基算法函数的加法模型与前向 分步结合的算法,通过 对损失函数在当前模型 的预测值的梯度作为近 似残差进行拟合,从而 对数值型变量预测。5分类算法逻辑回归一分类对目标变量为一值型分 类变量,建立参数化逻 辑斯谛分布,即sigmoid 函数,近似条件概率分 布,以实现二值分类。6分类算法逻辑回归多分类逻辑回归多分类,k个独 立的logistic回归分 类器与onevsall结合的 分类模型,分类对象类 别之间不是互斥的7分类算法So ft max回归多分类Softmax回归就是逻辑 回归的一般形式,是 logistic回归模型在多 分类问题上的推广,分 类对象类别是互斥
21、的8分类算法决策树分类利用信息增益准则或基 尼指数最小化准则,进 行特征选择,生成二叉 树,从而对对目标变量 为离散变量的数据进行 分类9分类算法随机森林分类以分类决策树为基模 型,将一定数量的基模 型组合对离散型的目标 变量拟合,并根据基模 型的预测结果进行投 票,以占多数结果的种 类作为算法的最终结果10分类算法梯度提升分类树以二叉分类决策树为基 函数的加法模型与前向 分步结合的算法,通过 对损失函数在当前模型 的预测值的梯度作为近 似残差进行拟合,从而 对分类型目标变量预 测。11分类算法BP神经网络以感知器为基函数,通 过将当前基函数的的输 出作为下一个感知器的 输入,从而实现对离散
22、型分类变量的分类12分类算法贝叶斯分类基于贝叶斯定理与特征 条件独立假设,对给定 数据集,学习输入输出 的联合概率分布,利用 贝叶斯原理输出后验概 率最大的预测类作为预 测结果13分类算法支持向量机分类在感知机的基础上,通 过在特征空间上间隔最 大和核技巧,实现对二 类目标变量分类14聚类算法K均值聚类将无标记样本根据特征 空间中的数据结构,划 入K个不相交的子集中1聚类二分K均值聚类K均值聚类的改进版,能5算法克服原算法收敛局部最 小的缺点,每次选其中 一簇分成两簇。16聚类算法高斯混合模型对于符合高斯分布的数 据,假设存在K个高斯 模型,将数据反复迭代, 期望极大化。将样本聚 到后验概率最
23、大的模型 类下。17关联规则算法频繁项集挖掘算法(FP-Growth)主要分为两个步骤: FP-tree构建、递归挖掘 FP-treeo挖掘出共同出 现的频繁物品集。18推荐算法协同过滤算法协同过滤是在海量数据 中挖掘出某部分与目标 客户行为类似的数据,并根据某种指标对其进 行排序。19预测评估分类预测及评估分类算法中,在己有训 练数据训练模型的基础上,将未训练的数据代 入算法中,预测结果与 实际目标变量比对评 估,检测模型的性能。20预测评估回归预测及评估回归算法中,在已有训 练数据训练模型的基础 上,将未训练的数据代 入算法中,预测结果与 实际目标变量比对评 估,检测模型的性能。21预测评
24、估聚类预测及评估聚类算法中,在已有训 练数据训练模型的基础 上,将未训练的数据代 入算法中,预测结果与 实际数据类型比对评 估,检测模型的性能。22预测评估推荐评估推荐算法中,在已有训 练数据训练模型的基础 上,将未训练的数据代 入算法中,预测结果与 物品类目比对评估,检测模型的性能。23数据预处理归一化将有量纲的数据转化为 无量纲的数据,min-max 标准化24数据预处理Tc : I rHi类似sql join的功能, 将两张表通过一个字段 对或者多个字段对的相 等关系关联合成一张表Join旳衣犬臥25数据预处理类型转换(string类型转换数值类型)将不同数据的类型按需 要进行转换26数
25、据预处理Union对不同数据集取并集27数据预处理标准化/正则化标准化是将数据缩放到 一个区间范围内,如正 态分布,小数定标,逻 辑斯谛分布。正则化是 利用先验知识,对模型 增加约束,防止过拟合。28数据预处理缺失值填充对数据中某项数值所对 应的某些样本缺失,通 过某种先验假设,根据 样本其他已知数据项对 缺失值拟合预测。29数据预处理拆分按照比例拆分样本集, 如设置0.6,切分成 60:40两个样本集。30数据预处理随机采样当数据量过大或模型训 练批容量有限时,随机 釆取一定量/比例的样 本集。31数据预处理增加序列号在数据表第一列追加ID 列。32数据预处理Select数据库查询操作,查询
26、某限定条件下的样本33数据预处Select_Distinet数据库查询操作,查询 某限定条件下并过滤掉理重复的样本34数据预处理Select_Where数据库查询操作,查询指定条件下的样本35数据预处理Select_And_Or数据库查询操作,查询条件的交集与并集36数据预处理Select_OrderBy数据库查询操作,查询结果按某指标排序37数据预处理Select_Limit数据库查询操作,查询 某限定段的数据38数据预处理Select_Like数据库查询操作,查询包含指定字段的数据39特征工程主成分分析数据降维去噪常用方 法,对数据的协方差矩阵取前K个最大万差万向作为新的数据方向。40特征
27、工程Onehot编码用户将特征值进行二元 编码映射成二元向量, 并与数值向量进行拼接42特征工程特征尺度变换由于计算需要或根据数 据特点将某特征对应数 据项进行缩放,不改变 样本间该数值项的相对 大小43特征工程特征重要性分析指根据数据集各项特征 在算法模型中对冃标变 量的相对重要程度的分 析,从而提出冗余特征, 关注重要特征,提高算 法模型的效率准确性44特征工程特征离散对连续型特征按某方法转换为离散型变量45文本分析SplitWord分布式jieba分词接口, 基于Trie树结构实现高 效的词图扫描,生成句了屮汉字所有可能成词 情况所构成的有向无环 图(DAG);釆用了动态 规划查找最大概
28、率路 径,找出基于词频的最 大切分组合;对于未登 录词,采用了基于汉字 成词能力的HMM模型, 使用了 Viterbi算法46文本分析文档主题生成模型(LDA)LDA(Latent Dirichlet allocation),是一种主 题模型,它可以将文档 集中每篇文档的主题按 照概率分布的形式给 出。同时它是一种无监 督学习算法,在训练时 不需要手工标注的训练 集,需要的仅仅是文档 集以及指定主题的数量 k即可。LDA首先由 David M. Blei、 Andrew Y. Ng 和 Michael I.Jordan于2003年提出, 目前在文本挖掘领域包 括文本主题识别、文本 分类以及文本
29、相似度计 算方面都有应用。47文本分析TF特征将文本文档的集合转换 为词频计数的向量。48文本分析HashingTF 特征使用散列技巧将一系列 词语映射到其词频的向 量,HashingTF的过程 就是对每个词作了次哈希并对特征维数取 余得到该词的位置,然 后按照该词出现的次数 计次。所以就不用像传 统方法一样每次维护一 张词表,运用HashingTF就可以方便 的得到该词所对应向量 元素的位置。当然这样 做的代价就是向量维数会非常大,好在spark 可以支持稀疏向量,所 以计算开销并不大。49文本分析TF-IDF特征TF-IDF (term frequency - inverse docume
30、nt frequency) 是一种用于资讯检索与 文本挖掘的常用加权技 术。TF-IDF是一种统计 方法,用以评估一字词 对于一个文件集或一个 语料库中的其中一份文 件的重要程度。字词的 重要性随着它在文件中 出现的次数成正比增 加,但冋时会随着它在 语料库中出现的频率成 反比下降。TF-IDF加权 的各种形式常被搜索引 擎应用,作为文件与用 户查询之间相关程度的度量或评级。50文本分析字符串相似度一个字符串转换成另外 一个字符串的代价,转 换的代价越高则说明两 个字符串的相似度越 低。51文本分析停用词过滤针对文档数据,将包含 的特定词汇过滤掉,不 计入统计数据中52文本分析Word2Vec
31、Word2Vec是一种着名 的词嵌入(Word Embedding)方法,它 可以计算每个单词在其 给定语料库环境下的 分布式词向重(DistributedRepresentat ion, 亦直 接被称为词向量)。词 向里表不可以在定无王 度上刻画每个单词的语 义。如果词的语义相近,它们的词向量在向量空 间中也相互接近,这使 得词语的向量化建模更 加精确,可以改善现有 方法并提高鲁棒性。词 向量已被证明在许多自 然语言处理问题,女口: 机器翻译,标注问题, 实体识别等问题中具有 非常重要的作用。 Word2Vec具有两种樓 型,其一是CBOW ,其 思想是通过每个词的上 下文窗口词词向量来预
32、测中心词的词向量。其 二是 Skip-gram,其思 想是通过每个中心词来 预测其上下文窗口词, 并根据预测结果来修正 中心词的词向量。该组 件目前只支持后者。53文本分析词频统计在对文早进行分词的基 础上,按行保序输出对 应文章ID列(docld)对 应文章的词,统计指定 文章ID列(docld)对应 文章内容(docContent) 的词频。54文本分析文本摘要通过pagera nk算法计算 得到的重要性最高的若 干句于口以当作摘要。55文本分析关键词提取全面把握文章的中心思 想的基础上,提取出若 干个代表文章语义内容 的词汇或短语56文本分析长句拆分根据长句中的标点符号 将句子进行分割成
33、多个 短句57工具算法sql脚本用户可以在该组件自定 义的SQL脚本从而完成 对数据的转换处理58统计分析单样本T检验单样本T检验:单样本t 检验(one-sample t-test)又称单样本均 数t检验,适用于样本 均数X与已知总体均数 uO的比较,其比较目的 是检验样本均数x所代 表的总体均数uO是否与 已知总体均数uO有差 别。已知总体均数uO, 一般为标准值、理论值 或经大量观察得到的较 稳定的指标值。T检验的 前提是样本总体服从正 态分布59统计分析配对样本均数T检验配对样本均数t检验(paired t test),又 称非独立两样本均数t 检验,适用于配对设计 计量资料均数的比较
34、, 其比较目的是检验两相 关样本均数所代表的未知总体均数是否有差 别。60统计分析两独立样本均数T检验两独立样本t检验 (two-sample t-test), 又称成组t检验,它适 用于完全随机设计的两 样本均数的比较,其目 的是检验两样本所来自 总体的均数是否相等。完全随机设计是将受试 对象随机地分配到两组 中,每组对象分别接受 不同的处理,分析比较 两组的处理效应。61统计分析方差齐性检验由两样本方差推断两总 体方差是否相冋。有二 种方差齐性检验的方法 可供选择。选用 Bartlett检验:如果我 们的数据服从正态分 布,那么这种方法将是最为适用的。对于正态 分布的数据,这种检验 极为灵敏;而当数据为 非正态分布时,使用该 方法则很容易导致假阳 性误判。Levene检验: 当样本数据偏态或者非 正态性的情况下,选用 Levene检验鲁棒性与精 度比Bartlett检验好。 Fligner-Killeen 检验: 这是个非参数的检验 方法,完全不依赖于对 分布的假设。62统计分析卡方适配度检验卡方适配度检验, Chi-Square Goodness of Fit Test.验证一组 观察值的次数分配是否 异于理论上的分配。其 H0假设(虚无假设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《组件层压工艺说明》课件
- 吹气球治疗肺部疾病
- 《汇编程序设计》课件
- 《各种各样的绳子》课件
- 儿童常见病治疗
- 医院医疗设备外借流程
- 八省八校2022届高三化学下学期3月第二次联考试题
- 《安全事故案例汇编》课件
- 中国母婴营养品市场洞察报告
- 微课如何撰写岗位说明书之工作目的财经管理人力资源管理系
- 民用无人机操控员执照(CAAC)考试复习重点题库500题(含答案)
- EPC项目投标人承包人工程经济的合理性分析、评价
- 房屋市政工程生产安全重大事故隐患判定标准(隐患排查表)
- 世界问候日-你的问候温暖世界主题PPT
- 压力容器基本知识课件
- 河北省廊坊市房屋租赁合同自行成交版
- 初中数学论文参考文献
- 沁园春·叠嶂西驰.中职课件电子教案
- 《留置尿管》PPT课件.ppt
- 浅谈激光标签打印机在电磁兼容测试标准及在产品设计中应关注的焦点
- 《WS/T 367-2012 医疗机构消毒技术规范》解读培训
评论
0/150
提交评论