




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
会计学1大数据分析与挖掘机器学习的常见用途第1页/共28页统计分析与数据挖掘技术上的定义应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识这些信息和知识是隐含的、未知的、潜在有用的表示为概念、规则、规律和模式等形式商业角度的定义新型的商业分析处理技术,帮助决策者寻找数据间潜在的关联,发现被忽略的因素这些信息和因素对预测趋势和决策行为是至关重要的与传统分析方法的区别在没有明确假设的前提下去挖掘信息、发现知识所获信息具有先前未知,有效和可实用三个特征什么是数据挖掘?第2页/共28页数据分析与数据挖掘的区别数据分析数据挖掘数据量数据量一般不大数据量通常很大约束从一个既定假设(目标)出发可以不需要既定的假设(目标)对象针对数字化的数据可以针对数字化的数据,还可以针对声音,文本,图像等结果对结果进行解释,呈现有效的信息结果有时不容易解释,着眼于预测未来,提出决策建议
数据分析只是在已定的假设、先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息如果需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘
数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。第3页/共28页大数据分析与挖掘的常见用途1、自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。谷歌预测冬季流感的传播初步锁定与流感相关的关键词条谷歌数据库用户搜索记录美国疾控中心记录的流感事件发生的区域和时间预测模型预测结果谷歌准确的预测出2009年甲型H1N1流感的爆发,并明确指出爆发地所在的州以及时间。与滞后的官方数据相比,谷歌成为一个更有效及时的指示者。优化词条筛选第4页/共28页大数据分析与挖掘的常见用途2、关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。购物篮分析顾客一次购买商品1面包、黄油、啤酒、尿布、牛奶2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布、牛奶、鸡蛋、啤酒4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6啤酒、鲑鱼、尿布、牛奶7番茄、啤酒、虾、苹果8土豆、面包、牛奶、生菜9啤酒、面包、尿布、咖啡10茶叶、鸡蛋、盐、啤酒经过关联分析,发现顾客经常同时购买的产品中,啤酒与尿布同时出现的频率最高第5页/共28页大数据分析与挖掘的常见用途3、聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。经过对电信行业用户的特征进行聚类,可以完成客户的画像,可以基于多个维度完成画像,也可以基于关联分析的基础上进行降维处理后再开展画像。年龄收入话费支出群体A:年龄50岁以上
年收入20K以下
月话费支出50元以下群体B:年龄30~50岁
年收入80K以上
月话费支出200元以上群体C:年龄20~30岁
年收入50K
月话费支出100元第6页/共28页大数据分析与挖掘的常见用途4、概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。序号按时还款婚姻状态应纳税收入诈骗嫌疑1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是按时还款否婚姻状态是否应纳税收入否单身.离异已婚否是<80K>80K决策树第7页/共28页大数据分析与挖掘的常见用途4、概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。第8页/共28页大数据分析与挖掘的常见用途5、偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。一个人的年龄为-999可能是程序处理缺省数据的方式导致的一个公司的高管工资明显高于普通员工可能成为异常数据但也许是合理的一部住宅电话的话费由每月200元以内增加到数千元可能因为盗打或其他原因所致一张信用卡突然出现明显的高额消费也许是因为盗用的信用卡1、异常数据与众不同,往往具有相对性
如高与矮、疯子与常人2、常用的检测方法
异常挖掘、离群挖掘、例外挖掘、稀有事件挖掘第9页/共28页大数据分析与挖掘项目的特点1.1.大数据分析与挖掘经常是从技术角度切入:未知的探索1.2.比传统项目多了很多尝试成本:1.3.算法与模型的适用性与时间、地域以及其他外部条件影响1.4.经常要在目标要求与算法的复杂性、性能之间做出取舍第10页/共28页数据挖掘工作常见误区只依赖一项技术/算法MCLP多目标线性规划算法KNNK近邻算法第11页/共28页数据挖掘工作常见误区同样研究对象应用一种模型算法模型的选择,需要考虑模型对数据的适用性,只有结合数据的内在特征、模型的假设条件,才能建立合适的模型,也只有针对具体数据集,才能谈模型的好坏。因此数据本身的差异,决定了算法模型选择的差异。即使研究目的相同,研究对象相似,由于影响数据生成过程的因素差异性较大,数据的具体表现形态也有较大差异,算法也会有截然不同。随着时间的推移,数据的形态发生改变,因此有可能需要重新选择合适的模型,或者,对原有相同模型进行参数调整。第12页/共28页数据挖掘工作常见误区缺乏数据对于分类问题或预估问题来说,常常缺乏准确标注的案例。例如:欺诈侦测(FraudDetection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。信用评分(CreditScoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。第13页/共28页数据挖掘工作常见误区同样研究对象应用一种模型负荷较稳定专业技术支持负荷总量逐步提高至稳定周期性强节假日特性强日夜负荷差大有学校的台变成熟小区台变商铺较多的台变新建小区台变第14页/共28页大数据分析与挖掘项目的开展大数据分析与挖掘的标准流程第15页/共28页数据挖掘方法论业务理解(BusinessUnderstanding)数据理解(DataUnderstanding)建模(Modeling)数据准备(DataPreparation)评估(Evaluation)部署(Deployment)跨行业数据挖掘标准流程(CRISP-DM)第16页/共28页
业务理解数据理解数据准备评估部署需求分析:从业务的角度理解项目的目的、范围、业务定义。问题识别:识别需求中待所需业务问题的内涵。问题定义:对业务问题进行定义,确定问题概念范畴。问题分解:将复杂问题分解为几个相当对简单的子问题。问题转化:将业务问题转化为能够被数据挖掘问题。关键要素:问题转化工作内容将业务需求转化为数据挖掘问题。如:分类、推荐、回归、聚类、关联规则分析、时间序列分析、特征选择、流数据分析等。建模数据挖掘方法论第17页/共28页
关键要素:数据定义、数据质量分析工作内容熟悉并数据理解原始数据的含义及产生条件,识别数据的质量问题,发现数据的内部属性。数据定义:识别并理解原始数据中属性数据的含义。如:数据库中表的结构,数据表之间的关系,数据表每一列的含义、格式、约束条件等等。数据质量分析:对数据的质量进行分析。基本统计量:缺失值数量、均值、方差、中值、频数、分位数、T检验、Z检验等等。可视化:点图、箱型图、柱状图等。异常值:聚类、异常值检测业务理解数据理解数据准备评估部署建模数据挖掘方法论第18页/共28页
关键要素:数据选择、数据整合、数据衍生、数据转换、数据清洗工作内容从原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。数据选择:在原始数据的基础上进行筛选,根据问题定义进行数据选择。如:使用全部数据、nfold分块方式、按比例方式、Bootstrap等。数据衍生:从原始数据属性的基础上派生出新的数据属性。基本派生:均值、中值、频数、最小(大)值、线形变换等。根据业务的派生:净资产、净资产收益率、折现率等。
数据转换:对原始数据进行变换,以满足数据挖掘模型需要。离散化化处理:非数据型数据转数值型,如性别、职业、区域等。数据平滑处理:非平滑数据转化成平滑数据,如时序数据中股票价格、成交量等。可视化:点图、箱型图、柱状图等。异常值:聚类、异常值检测业务理解数据准备数据理解评估部署建模数据挖掘方法论第19页/共28页
关键要素:数据选择、数据整合、数据衍生、数据转换、数据清洗工作内容从原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。数据清洗:对数据中的异常情况进行清理,提升数据质量。缺失值处理:均值、按类别取均值、聚类均值、BayesRule、近邻学习异常值处理:装箱、聚类、回归、人工处理一致性处理:基于规则、人工数据整合:将多个数据源中的数据有机整合到一起。如:关系数据SQL查询、按ID整合、Tag信息整合、异构数据整合。数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的完整性,数据归约可以解决海量数据上造成的效率与性能问题。
如:数据方聚集、维归约、数据压缩、离散化和概念分层产生。业务理解数据准备数据理解评估部署建模数据挖掘方法论第20页/共28页
关键要素:模型选择、模型训练、模型最优参数选择、模型优化工作内容选择并应用不同的数据挖掘模型,通过模型参数调整来获得最佳模型。有些模型可以解决一类相同的数据挖掘问题。有些模型在数据生成上有特殊要求,因此可能需要经常返回到数据准备阶段。模型选择:根据业务理解阶段的问题转化选择不同的数据挖掘模型分类:SVM、LogisticRegression、MCLP、DecisionTree等。推荐:基于内容、基于知识、协同过滤、基于效用等。回归:SVM、LinearRegression、GaussianProcess等。聚类:Kmeans、Kmedoids、AffinityPropagation、EM关联规则:apriori、fp-tree等。模型训练:使用数据准备阶段所准备的数据对所选模型进行训练。概率论、统计学、随机过程;机器学习;人工智能;最优化理论业务理解建模数据理解评估部署数据准备数据挖掘方法论第21页/共28页
关键要素:模型选择、模型训练、模型最优参数选择、模型优化工作内容选择并应用不同的数据挖掘模型,通过模型参数调整来获得最佳模型。有些模型可以解决一类相同的数据挖掘问题。有些模型在数据生成上有特殊要求,因此可能需要经常返回到数据准备阶段。模型最优参数调整:在选定模型后,需要对模型的参数进行进一步的调整,以使模型对数据有良好泛化能力。
网格搜索(GridSearch):为每个模型参数设定一个候选集合,从全部参数的组合中根据评价指标选取最好的模型参数。
遗传算法:每一个候选参数集合是遗传算法中的一个个体,通过个体选择、参数间交叉、变异来选择较好的候选参数集合。模型优化:进一步优化模型以满足具体的业务需求。如:时间复杂度、空间复杂度、计算成本复杂度等等。业务理解建模数据理解评估部署数据准备数据挖掘方法论第22页/共28页
关键要素:基本指标评估、业务指标评估工作内容从数据分析的角度已经建立了一个高质量的模型。检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。基本指标评估:从模型的角度对所选模型进行评估,判断是否需要调整或重新选择模型。如:混淆矩阵(ConfusionMatrix)、ROC、AUC、K-S指标等等。业务指标评估:从业务的角度对所选模型进行评估,判断是否需要调整或重新选择模型。如,存款额、营业额、利润率、挽回客户价值等等。业务理解评估数据理解建模部署数据准备数据挖掘方法论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字化技术对粮食全要素生产率的驱动作用
- 风险评估与防控体系的构建-洞察阐释
- 湖南地理乡土文化课件
- 沈阳体育学院《数字创意项目体验》2023-2024学年第二学期期末试卷
- 广东工业大学《古代文学三》2023-2024学年第二学期期末试卷
- 牧童评画题目及答案
- 浙江育英职业技术学院《科技翻译》2023-2024学年第二学期期末试卷
- 鄂尔多斯生态环境职业学院《西方外交思想史》2023-2024学年第二学期期末试卷
- 河北石油职业技术学院《北朝史研究》2023-2024学年第二学期期末试卷
- 河北东方学院《煤岩动力灾害防治》2023-2024学年第二学期期末试卷
- GB/T 21446-2008用标准孔板流量计测量天然气流量
- 无领导小组面试评分表
- 大学语文-第四讲魏晋风度和魏晋文学-课件
- 我们毕业啦毕业季通用模板课件
- 小升初数学复习八(平面图形)讲义课件
- (完整版)基建建设工程流程图
- 墙体开槽技术交底及记录
- 国家开放大学《调剂学(本)》形考任务1-4参考答案
- 公务员工资套改和运行案例
- 哥尼斯堡七桥问题PPT课件
- 总包(消防)管理方案
评论
0/150
提交评论