


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、阿里巴巴1、异常值是指什么请列举1种识别连续型变量异常值的方法异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观 测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测 定值.常见的异常值检验方法如下:基于统计的方法基于距离的方法基于密度的方法基于聚类的方法基于偏差的方法基于深度的方法t检验:按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值, 然后按t分布来检验剔除的值是否为异常值。狄克逊检验法:假设一组数据有序x1vx2<vxn,且服从正态分布,那么异常值最有可能出现在两端x1和xn o格拉布斯检验法:与狄克逊检验法思想一样,其检验公
2、式为:指数分布检验:SPSS和R语言中通过绘制箱图可以找到异常值,分布在箱边框外部;2、什么是聚类分析聚类算法有哪几种请选择一种详细描述其计算原理和步骤聚类分析 (cluster analysis) 是一组将研究对象分为相对同质的群组(clusters) 的统计分析技术。聚类分析也叫分类分析 (classification analysis) 或数 值分类 (numerical taxonomy) 。聚类与分类的不同在于,聚类所要求划分的类 是未知的。聚类分析计算方法主要有: 层次的方法(hierarchical method) 、划分方法(partitioning method) 、基于 密
3、度 的方法 (density-based method) 、基于 网格 的方法 (grid-based method) 、基于 模型 的方法 (model-based method) 等。其中,前两种算法是利用统计学 定义的距离进行度量。 常见的聚类方法有:K-pototypes 算法,K-Means算法,CLARANS 算法(划分方法) , BIRCH 算法(层次方法) , CURE 算法(层次方法) , DBSCAN 算法(基 于密度的方法) , CLIQUE 算法(综合了基于密度和基于网格的算法) ;k-means 算法的工作过程说明如下:首先从 n 个数据对象任意选择 k 个 对象作为
4、初始聚类中心 ;而对于所剩下其它对象,那么根据它们与这些聚类中心的 相似度 (距离),分别将它们分配给与其最相似的 (聚类中心所代表的 )聚类;然后再 计算每个所获新聚类的聚类中心 (该聚类中所有对象的均值 );不断重复这一过程 直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数 . k 个聚 类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:(1) 从 n 个数据对象任意选择 k 个对象作为初始聚类中心(2) 根据每个聚类对象的均值 (中心对象 ),计算每个对象与这些中心对象的距离 ;并根据最小距离重新对相应对象进行划分 ;(3) 重新计算每个 (有变
5、化)聚类的均值 (中心对象 );(4) 循环(2) 、(3)直到每个聚类不再发生变化为止 (标准测量函数收敛 )。优点:本算法确定的 K 个划分到达平方误差最小。当聚类是密集的,且类 与类之间区别明显时, 效果较好。 对于处理大数据集, 这个算法是相对可伸缩和 高效的,计算的复杂度为 O(NKt) ,其中 N 是数据对象的数目, K 是聚类中心, t 是迭代的次数。缺点:1. K 是事先给定的,但非常难以选定 ;2. 初始聚类中心的选择对聚类 结果有较大的影响。3. 数据标准化技术是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制, 将其转化为无量纲的纯数值,便于不同单位或量级的
6、指标能够进行比较和加权。 常用的方法有:(1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以 该要素的数据的总和,即4. 缺失值处理方法 1) 直接丢弃含缺失数据的记录 如:个案剔除法,这种方法却有很大的局限性。它是以减少样本量来换取信息的 完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。 当缺失数 据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏 离,从而得出错误的结论。2补缺A. 用平均值来代替所有缺失数据:均值替换法,均值替换法也是一种简便、 快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计 不会产生影响。但这种
7、方法是建立在完全随机缺失MCAR 的假设之上的,而 且会造成变量的方差和标准差变小。B. K -最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数 据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。C. 用预测模型来预测每一个缺失数据:该方法最大限度地利用的相关数据,是比较流行的缺失数据处理技术。如:回归替换法,该方法也有诸多弊端,第一,容易无视随机误差,低估标准差和其他未知性质的测量值, 而且这一问题 会随着缺失信息的增多而变得更加严重。第二,研究者必须假设存在缺失值所在 的变量与其他变量存在线性关系,很多时候这种关系是不存在的。5.Apriori算法和信息熵信息熵是
8、数学中一个抽象的概念,他表示了信息源的不确定度,这里不妨把 信息熵理解成某种特定信息的出现概率, 当一种信息出现概率更高的时候,说明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的支持度:Support(A->B)=P(A U B)。支持度揭示了 A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果 A与B同时出现的非常频繁,那么说明A与B总是相关的。置信度(Confidenee)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了 A出现时,B是否也会出现或有多大概率出现。如果置信度度为 100%,那么A和B可以
9、捆绑销售了。如果置信度太低,那么说明 A的出现与B是否出现关系不大。H(x) = El(xi) = E log(2,1/p(xi)=-刀 p(xi)log(2,p(xi)(i=1,2,.n),单位是bit.其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵 也就越大,把它搞清楚所需要的信息量也就越大以频繁项集I1,I2 ,13为例产生强关联规那么,最小置信度为40%(1) 频繁项集I1,I2,I3的非空子集有11,I2,I1,I3,I2,I3,I1,I2,I3(2) 产生强关联规那么I1,12=>
10、13co nfide nce=support(l1,l2,l3)/support(l1,l2)=2/4=11,13=>12 con fide nce=support(11,I2,I3) /support(I1,I3)=2/4=I2,I3=>I1 con fide nce=support(11,I2,I3) /support(I2,I3)=2/4=I3) /support(I1)=2/6=I3) /support(I2)=2/7=I3) /support(I3)=2/6=I1=>I2,I3 con fide nce=supportI2=>I1,I3 con fide nc
11、e=supportI3=>I1,I2 con fide nce=support那么强关联规那么为:I1,I2=>I3 ; 11,13 ; I2,I3=>I13、根据要求写出 SQL 没有学习过,之后的学习中需要补表 A 结构如下:Member_ID 用户的 ID ,字符型 Log_time 用户访问页面时间,日期型 只有一天的数据 URL 访问的页面地址,字符型 要求:提取出每个用户访问的第一个 URL按时间最早,形成一个新表新 表名为B,表结构和表 A 一致参考答案:create table B as select Member_ID, minLog_time, URL f
12、rom A group by Member_ID ;5、用户调研某公司针对 A、B、C 三类客户,提出了一种统一的改进方案,用于提升客 户的周消费次数, 需要你来制定一个事前试验方案, 来支持决策, 请你思考以下 问题:a 试验需要为决策提供什么样的信息c 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以 及你选择的统计方法。a)试验要能证明该改进方案能显着提升A、B、C三类客户的周消费次数b)根据三类客户的数量,采用分层比例抽样;需要采集的数据指标项有:客户类别,改进方案前周消费次数,改进方案后周消费次数;选用统计方法为:分别针对 A、B、C三类客户,进行改进前和后的周消费 次
13、数的,两独立样本T-检验6常见的抽样方法有哪些常用的有以下六种类型:简单抽样(Simple sampling )即简单随机抽样,指保证大小为 n的每个可能的样本都有相同的被抽中的 概率。例如:按照“抽签法、“随机表法抽取访问对象,从单位人名目录中 抽取对象。优点:随机度高,在特质较均一的总体中,具有很高的总体代表度;是最简单的抽 样技术,有标准而且简单的统计公式。缺点:未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低;有可能抽到一个“差的样本,使抽出的样本分布不好,不能很好地代表总体。系统抽样 (Systematic random sampling)将总体中的各单元先按一定顺序排列,
14、并编号,然后按照不一定的规那么抽样。其中最常采用的是等距离抽样,F卩根据总体单位数和样本单位计算出抽样距离即相同的间隔,然后按相同的距离或间隔抽选样本单位。例如:从 1000个 号码中抽取10个访问号码,间距为100 ,确定起点起点V间距后每100 号码抽一访问号码。优点:兼具操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。如果起点是随机确定的,总体中单元排列是随机的,等距抽样的效果近似简 单抽样;与简单抽样相比,在一定条件下,样本的分布较好。缺点:抽样间隔可能遇到总体中某种未知的周期性, 导致“差的样本;未使用可 能有用的抽样框辅助信息抽取样本,可能导致统计效率低。分层抽样 S
15、tratified random sampling 是把调查总体分为同质的、互不交叉的层或类型,然后在各层或类型 中独立抽取样本。例如:调查零售店时,按照其规模大小或库存额大小分层,然 后在每层中按简单随机方法抽取大型零售店假设干、中型假设干、小型假设干;调查城市时,按城市总人口或工业生产额分出超 大型城市、中型城市、小型城市 等,再 抽出具体的各类型城市假设干。优点:适用于层间有较大的异质性,而每层内的个体具有同质性的总体,能提高总 体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样;能 保证“层的代表性,防止抽到“差的样本;同时,不同层可以依据情况采用 不同的抽样框和抽样方
16、法。缺点:要求有高质量的、能用于分层的辅助信息;由于需要辅助信息,抽样框的创 建需要更多的费用,更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。整群抽样Cluster sampling 层层深入抽样,不断缩小抽样的范围是先将调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调查。 例如:入户调查,按地块或居委会抽样,以地块或居委会等有地域边界的群体为 第一抽样单位,在选出的地块或居委会实施逐户抽样; 市场调查中,最后一级抽 样时,从居委会中抽取假设干户,然后调查抽中户家中所有18岁以上成年人。优点:适用于群间差异小、群内各个体差异大、可以依据外观的或地域的差异来划 分的群体。缺点:群内
17、单位有趋同性,其精度比简单抽样为低。前面谈到抽样方法的一些根本分类和各自特点,需要注意的是,在实际的运用中,一个调查方案常常不是只局限于使用某一种抽样方式,而根据研究时段的不同采用多种抽样方法的组鸽为实现不同的研究目的,有时甚至在同一时段综合运用几种抽样方法。例如,设计一个全国城市的入户工程,在抽样上可以分为几个不同的步骤, 包括:1在工程正式开始前,可以采用 判断抽样法选出某一城市先作试点,在问 卷设计初期可以采用任意抽样法选出局部人群进行问卷试访。2采用分层随机抽样法,确定全国要分别在多少个超大型市、多少个中型市、多少个小型市实施 (先分出城市的几个层次, 再依据研究需要在各层用 PPS
18、法选取具体城市)3) 采用简单抽样法或PPS抽样法,确定抽出城市中应抽的地块或居委会;4) 采用 整群抽样 法,确定抽出地块或居委会应访问的家庭户;5) 在工程后期,可以采用 判断抽样法 选取某城市进行深入研究。8.置信度与置信区间P(x1<x<x2 ) =1-a, 称 1-a 为置信度, x1,x2 为置信区间 置信度越大,置信区间越宽;置信区间越宽,置信度越大; 置信度越小,置信区间越窄曲线及含义ROC 曲线指受试者工作特征曲线 (receiver operating characteristic curve), 是反映 敏感性 和 特异性连续变量 的 综合指标 ,是用构图法揭
19、示敏感性和特异性的相互关系,它通过 将连续变量设定出多个不同的临界值, 从而计算出一系列敏感性和特异性, 再以敏感性为纵 坐标、( 1- 特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC 曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。10. 数据挖掘步骤 理解数据和数据的来源( understanding )。 获取相关知识与技术( acquisition )。 整合与检查数据( integration and checking)。 去除错误或不一致的数据( data cleaning )。 建立模型和假设( model and hypothesis dev
20、elopment)。 实际数据挖掘工作( data mining )。 测试和验证挖掘结果testing and verfication 解释和应用interpretation and use 。11. 如何评估促销活动11. Bayes公式全概率公式探索在结果的情况下,是由哪种原因引起的概率;p( Bi | A)P(BiA)P(A)P(Bi)p(A|BJ p(Bj)p(A|Bj)12. 逻辑回归分类问题逻辑回归适合求解哪些问题:逻辑回归本质上解决的是分类问题,Logistic回归的主要用途:寻找危险因素:寻找某一疾病的危险因素等;预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的
21、概率有多 大;判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情 况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。11.线性回归线性回归一元和多元中对误差的假设都是假定服从均值为 0方差为定值 的正态分布,拟合系数的求解方法可以有最小二乘法梯度下降法等。 关于残差的 假设为:零均值,同方差,正态性,不相关,样本随机。回归分析的自变量为连续性变量,而方差分析的自变量为离散型分类变量;广义线性回归于线性回归的最大区别是随机误差的分布不一定是正态分布,与非线性模型的最大区别是非线性回归无明确的随机误差分布假定。12. 过拟合现象以及防止的方法所谓过拟合问题:过拟合反映
22、的是在学习训练中,模型对训练样本到达非常高的逼近精度,为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规那么如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,在测试数据上往往显示出很差的效果产生过拟合是因为:1. 由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一2. 权值学习迭代次数足够多(Overtrai nin g),拟合了训练数据中的噪声和训练样例中没有代表性的特征.过度拟合解决方法:1. 权值衰减.它在每次迭代过程中以某个小因子降低每个权值,此方法的动机是保持权值较小,防止weight decay,从而使学习过程向着复杂决策面的反方向偏
23、。2. 减少特征的数量,有人工选择,或者采用模型选择算法3. 验证数据一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时到达最小误差with some patter ns 合问题更为严重 .k-fold 交叉方法 :把训练样例分成 k 份 ,然后进行 k 次交叉验证过程 ,每次使用不同的一份作为验证集合,其余k-1 份合并作为训练集合 .每个样例会在一次实验中被用作验证样例,在 k-1 次实验中被用作训练样例 ;5.正那么化方法正那么化是结构风险最小化策略的实现, 是在经验风险上加一个正那么化项或惩罚项。 正那么化项 一般是模型复杂度的单调递增函数,模型越复杂,正那么化项就越大,正那么化方法的作用是: 保存所有特征但减小参数的取值。13. 监督学习与非监督学习有监督学习:对具有概念标记分类的训练样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小草的力量议论文题材作文(9篇)
- 体育产业市场规模预测表
- 印章管理考试试题及答案
- 六一儿童节公司活动方案
- 六一创意班级活动方案
- 六一活动陪玩活动方案
- 六一游学活动方案
- 六一美甲店活动方案
- 六一节活动餐饮活动方案
- 六一赛车活动方案
- 中国血脂管理指南理论知识考核试题及答案
- 村级积分制管理
- Nikon尼康D3100中文说明书
- 国家开放大学2024春《1494员工劳动关系管理》期末考试真题及答案-开
- DBJ∕T 13-234-2024 不发火建筑地面应用技术标准
- 2024年安徽省高考政治+历史+地理试卷(真题+答案)
- 2024年新疆中考地理真题卷及答案
- 人教版初三物理总复习电学专题复习教学设计
- 项目风险记录及跟踪表
- 美育视域下非遗文化在高校舞蹈教育中的传承研究
- 第16课 经济危机与资本主义国家的应对(课件)-【中职专用】《世界历史》(同课异构)(高教版2023基础模块)
评论
0/150
提交评论