2017大数据师资讲习-理论框架_第1页
2017大数据师资讲习-理论框架_第2页
2017大数据师资讲习-理论框架_第3页
2017大数据师资讲习-理论框架_第4页
2017大数据师资讲习-理论框架_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据理论框架刘鹏大数据理论

—数据挖掘技术及应用什么是数据挖掘?KDD数据库中的知识发现(KnowledgeDiscoveryinDatabases)从数据中识别有效的、新奇的、有用的以及可理解的模式的过程.机器学习(Machinelearning)数据库(Databases)统计学(Statistics)信息检索(Informationretrieval)可视化(Visualization)高性能计算(High-performancecomputing)...相关领域数据挖掘:KDD过程的核心knowledge数据清洗选取数据挖掘模式评估数据库数据仓库任务相关数据数据集成数据挖掘:数据源关系数据库数据仓库事务数据库高级数据库和信息库面向对象数据库空间和时态数据库时序数据流数据多媒体数据库异种数据库文本数据库&WWW数据挖掘任务I分类

(Classification)构造模型(函数)来描述和区分各种类别或概念用于未来的预测表示:决策树,分类规则,神经网络回归分析(Regression)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。用满意度=0.645×质量+0.221×价格概率估计

(Probabilityestimation)数据挖掘任务II聚类(Clustering)类的标签未知:对数据分组来形成新的类,如:对房子聚类来发现分布模式把类内的相似性最大化&类间的相似性最小化奇异点检测关联发现(Associationdetection)尿布à

啤酒[0.5%,75%]总结(Summarization)趋势和偏差检测(Trendanddeviationdetection)...给定一个记录(样本)集合(训练集

)每条记录有一些属性组成,其中一个属性为类别.(x1,x2,…,xn,c)找到一个将类别属性表示为其他属性的函数的模型.(如c=f(x))目标:未见过的记录尽可能准确地被分类.一个测试集用来确定模型的精度.通常,给定的数据集被分成训练集和测试集,训练集用于建立模型,而测试集用于检验该模型.分类:定义分类任务演示TIDAttrib1Attrib2Attrib3class1YesLarge125KNo2NoMedium100KNo3NoSmall70KNo4YesMedium120KNo5NoLarge95KYes6NoMedium60KNo7YesLarge220KNo8NoSmall85KYes9NoMedium75KNo10NoSmall90KYesTIDAttrib1Attrib2Attrib3class11NoSmall55K?12YesMedium80K?13YesLarge110K?14NoSmall95K?15NoLarge67K?LearnModelApplyModelModelLearningalgorithmInductionDeduction预测肿瘤细胞是良性还是恶性将信用卡交易分为正常或是欺诈对蛋白质的二级结构进行分类手写体的识别:0,1,…,9Email过滤:识别垃圾邮件分类任务例子常用的方法决策树

(Decisiontrees)规则归纳

(Ruleinduction)贝叶斯学习(Bayesianlearning)神经网络(Neuralnetworks)支持向量机(SupportVectorMachine)Ensemble方法(AdaBoost,Bagging...)……决策树例子TidRefundMaritalStatusTaxableeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes训练数据categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K划分属性MarStRefundTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K可能有多棵决策树拟合同一个数据集!另一个决策树例子TidRefundMaritalStatusTaxableeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes训练数据categoricalcategoricalcontinuousclass15RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableeCheatNoMarried80K?16RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableeCheatNoMarried80K?17RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableeCheatNoMarried80K?18RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableeCheatNoMarried80K?19RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableeCheatNoMarried80K?20RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据从树的根节点开始对测试数据应用模型RefundMaritalStatusTaxableeCheatNoMarried80K?AssignCheatto“No”21支持向量机一个可能解B122支持向量机B2另一个可能解23支持向量机B2其他可能解24支持向量机哪一个更好?B1还是B2?如何定义“更好”?B2B125支持向量机找到最大化“边际”的超平面=>B1比B2好B2b22b21b11b12marginB126支持向量机B1b11b12簇1聚类2奇异点什么是聚类?把数据聚类成多个簇同一个簇中的数据相似不同簇中数据不相似非监督学习:没有预先定义的类应用例子独立的工具:发现数据分布作为其他算法的预处理步骤模式识别,空间数据分析,图像处理,市场研究,WWW,…文档聚类对web日志数据聚类来发现不同组的相同访问模式29多少个簇?4个簇2个簇6个簇聚类的概念是模糊的划分方法:K-Means012345678910012345678910K=2任意地选取k个对象作为簇的初始中心点把每个对象分配给最相近的中心更新簇的均值012345678910012345678910更新簇的均值重新分配重新分配两个不同的K-means聚类原始数据点最优聚类次最优聚类选取初始中心点的重要性大数据平台—中科院数据挖掘平台

登录后界面工作流画布job监控框数据查看与管理预览数据创建工作流配置工作流运行工作流查看工作流结果文本ROC图Lift图数据压缩与传输工作流调度情况BC-PDM的数据加载和导出数据加载数据导出将分布式文件系统(DFS)上的没有元数据文件的数据生成元数据文件,或对数据进行断行、空行等初步处理,或作为工作流运行的起始组件。将处理后的数据文件转换成指定的格式或分隔符,数据仍然保存在DFS上。数据加载(导入)数据加载(导入)导入头文件头文件举例start_time,date,开始时间imsi,VARCHAR(10),IMSIcalling,VARCHAR(10),用户号码user_ip,VARCHAR(10),用户IP地址APN,VARCHAR(10),访问方式IMEI,VARCHAR(10),终端标识号rat,int,2G/3G网络标识App_type,int,应用类型LAC,VARCHAR(10),xmCell_ID,VARCHAR(10),xmsource_ip,VARCHAR(10),源IP地址dest_ip,VARCHAR(10),目的地址数据导出

ETL操作可以分为普通ETL和链式ETL。并行数据处理(ETL)

ETL操作普通ETL链式ETL清洗类抽样类转换类集合类集成类更新类计算类其它类清洗类抽样类转换类集合类集成类更新类计算类其它类类别组件名功能清洗类数据类型检查对输入文件逐条记录地检查每个字段的数据是否与元数据中的类型相符合外键约束升级主键表或升级外键表后的外键约束检查主键约束对数据表的主键约束检查,包括主键非空和主键唯一缺值处理按照指定的替换值填补数据文件中的缺值或Null值等空值域约束包括非空值约束、值域范围检查和自定义约束检查去重将完全重复的数据行丢弃转换类Casewhen将符合条件的数据按指定进行转换,类似SQL的casewhen计数区间化按计数将指定字段值区间化为N个区间,每个区间数据个数相等,并为该字段按不同区间设置特定值字段类型转换支持对多个字段进行字段名或字段类型的修改,提供多种数据类型字段之间的强制转换数值区间化按数值将指定字段值区间化为N个区间,每个区间数据取值范围相等,并为该字段按不同区间设置特定值归一化对指定字段按该字段的均值和标准偏差,进行zscore归一化属性交换将属性的两列互换关联规则数据生成将业务订购情况数据生成购物篮数据供关联规则算法使用PCA主成分分析将输入数据的属性由高维降到较低的维度集成类Delete组件删除符合一定表达式条件的记录Join组件可将多个表按指定的字段关联,包括主键join、维表join和普通join三个组件,针对不同关联情况使用不同组件Sort组件按用户指定排序关键字字段进行排序Where组件找出满足用户定义的表达式条件的记录。计算类计算生成列通过对现有多字段混合计算生成的新字段Groupby组件对数据按照用户指定的属性聚集、汇总统计计算每个字段的统计信息抽样类分层抽样供分类目标字段数据平衡使用采样按比例随机抽样数据集合类集合差根据用户指定的数据文件和集合运算表达式进行2个集合的差运算集合交并根据用户指定的数据文件和集合运算表达式进行多个集合间的交,并运算。更新类Update组件更新,类似数据库UpdateInsertupdate组件增量更新,类似数据库Insertupdate其他类数据集分割根据比例将数据分割为训练集和测试集两个数据清洗类-数据类型检查根据元数据中各个字段的数据类型,对输入文件逐条记录地检查每个字段的数据是否与元数据中的类型相符合,支持多种日期类型。对发现不满足数据类型的记录,应用异常数据处理规则。并在有效性验证后提供一个验证报告,包括丢弃了多少数据、对数据进行了什么处理等信息。参数说明输入文件设置输入文件的地址及文件名输出文件设置输出文件的地址及文件名另存路径设置异常数据文件的地址和文件名numOfmap设置Map个数numOfreduce设置Reduce个数根据用户输入的条件,将指定字段的值进行转换,类似SQL的casewhen。用户指定转换的字段与转换规则。支持对多字段进行转换,支持对某个字段多个转换规则,支持default规则。可以配置转换生成列的元数据信息。转换类-caseWhen参数说明输入文件设置输入文件的地址及文件名输出文件设置输出文件的地址及文件名生成字段名设置要生成字段的名字字段类型设置要生成字段的类型条件表达式当条件表达式为真时,执行替换表达式替换表达式设置替换表达式numOfmap设置Map个数numOfreduce设置Reduce个数1并行分类算法Classifiers4MR分类功能应以用户提供的历史消费清单作为训练数据,这些数据中有一个属性作为分类属性,且每条记录已标明分类属性的值。分类算法应提供两方面基本功能:学习分类模型预测从训练集数据中发现潜在的分类模型,并以特定方式表达。对用户新提供的数据集,依据分类模型预测出所属类别并行分类算法包括:EmptyClassifier4M、C45决策树、CBC分类、CBR分类、K近邻、朴素贝叶斯、层次C45决策树、线性回归分类、神经网络算法。把整个神经网络的神经元划分成不同层次,对同层次内的不同神经元进行并行参数计算,并通过统一调度和精度控制对神经元进行快速的并行化训练。训练完毕后,对于每一个输入,通过并行化神经网络快速地得到输出神经网络算法参数设置trainInputPath设置训练集在DFS上的路径testInputPath设置测试集在DFS上的路径predictInputPath设置预测测试集在DFS上的路径outputPath设置结果输出在DFS的路径numMapTasks设置Map的个数,一般取计算集群核个数的4倍numReduceTasks设置Reduce的个数,一般取计算集群核个数的2倍learningRate设置神经网络的学习率,默认为0.6moment设置神经网络的学习冲量,默认为0.9middleNum设置神经网络的中间层数目,默认为5middlePopulation设置神经网络的各个中间层上节点的数目,每一层的节点数用,隔开。比如有两个中间层,各有x个和y个节,则参数配置为x,ymin_success_ratio期望达到的最小成功率,默认为0.7index预测利用的属性,默认为出来目标属性外所有的整形和浮点型的属性TargetIndex要预测的目标属性,默认为最后一维modelPath训练中用来存储模型的路径,或者测试时要利用的模型文件的路径决策树算法结果展示2并行聚类算法Clusterers4MR自动聚类预测将数据集形成簇模型;依据形成的簇模型,对新数据判定所属的簇。聚类算法应对用户提供的全体数据集,按照一定的聚类原则,自动聚成几簇。每个簇内的数据应具有很高的相似性。应提供的功能包括:并行聚类规则算法包括:k均值算法、Clara聚类算法、DBScan聚类算法。PKmeas算法处理dm_call数据后结果聚类算法结果展示3并行关联规则算法Associations4MR关联规则挖掘工具以选定的客户消费记录全集作为输入,分析消费记录中各消费项间依赖关系,产生规则描述各消费项之间同时出现的规律。关联规则算法并行PApriori算法并行PAwfits算法并行PFPgrowth算法时序关联规则时序关联规则挖掘算法主要可以用于发现交易序列中的频繁模式。因为交易序列具有时间性,因此各数据项集之间存在时间上的先后关系,“买A又买B的顾客往往还会买C”的规则转变成了“买A后又买B的顾客往往会接下来再买C”或者“买B后又买A的顾客往往会接下来再买C”,在时序关联规则算法中,这后两者是不同的两个关联规则。时序关联规则算法参数设置inputpath设置测试集在DFS上的输入路径,例如:pku/seqpat/inputoutputpath设置DFS上的结果输出路径,例如:pku/seqpat/outputsupport设置序列的支持度(%),取值范围为:0–100,一般为20maxlength设置序列关联规则的最大长度,一般取值为6confidence设置规则的置信度(%),若小于该阈值,则不保存该规则,否则保存到规则文件中。该阈值取值范围为0~100,一般取80maptasks设置Map的个数,一般取计算集群核个数的4倍reducetasks设置Reduce的个数,一般取计算集群核个数的2倍preprocess设置预处理的输入路径,预处理的输出路径为inputpath,若路径为空值,则不进行预处理过程大数据应用—精确营销案例数据业务的营销发展粗放式营销部分精细化营销(现状)全面精细化营销与深度运营的要求仍有差距数据业务种类多,但聚焦不够;对业务进行分析的维度较少;缺乏深度的主题分析;分析方法和工具不够成熟。“基于数据挖掘技术的精确营销”将逐步成为移动数据业务市场的主导营销策略。数据分为7个类型,共833项:基本信息手机号码,手机品牌,手机型号,是否具备GPRS、彩信、KJAVA功能等承载信息是否使用点对点短信、点对点彩信、非点对点彩信、GPRS等承载方式渠道办理标签是否通过WEB/网上营业厅、WAP、短信等渠道办理业务业务标签是否使用点对点/梦网短信、彩铃、点对点/梦网彩信、手机报纸、手机邮箱等内容标签商务、生活、娱乐、游戏、资讯5大类内容,在这5大类中再进行划分,如,娱乐类再分为娱乐-交友、娱乐-聊天、娱乐-铃声等行业信息与餐馆酒楼、休闲娱乐、机关团体、金融行业、房地产等各个行业的接触信息数据业务

相对指标标识客户点对点短信上下行、点对点彩信上下行、WAP流量等的使用量及变化情况数据来源:BOSS系统、经营分析系统、相关业务支撑系统CRM项目建立数据业务客户分群——数据说明全球通品牌的数据业务客户分群结果CRM项目建立数据业务客户分群——数据挖掘的发现SS1、SS2、SS3,SS5,SS6是数据业务的活跃群;9个群的彩信渗透率、认知度均较低(认知度为通过补充调研获得),要提高彩信用量,需通过宣传提高客户彩信认知度,通过有吸引力的内容培养客户习惯。——SS5和SS6对手机邮箱的接受度较其他群高出许多,存在营销机会;手机彩票站业务在SS1、SS2、SS5和SS6群的渗透率较其他群高出2到3倍,存在销售机会。已运用于案例5-手机邮箱的沉默用户唤醒与推广已运用于案例2-彩信生活杂志的产品设计SS1:数据业务高空飞行者SS2:高价值数据业务客户SS3:高价值短信冷漠者SS4:中间价值短信冷漠者SS5:成长中的数据业务客户SS6:有下滑危险的数据业务客户SS7:节俭的本地短信依赖者SS8:低价值漫游客户SS9:数据业务冷漠客户各群均与餐馆酒楼、医疗、金融、房地产接触较多(SS1、SS3接触率最高),餐饮指南、健康保健、资讯等内容的业务存在营销机会说明:LIFT使用业务一的人群中有使用业务二的人数的百分比相对整个分析用户群中使用业务二的人数的百分比所提升的倍数。数据业务的目标客户定位产品关联性分析模型目标业务彩信、彩铃、点对点短信、手机邮箱、手机游戏、手机报纸、WAP娱乐、WAP新闻……承载与业务业务与业务客户个人信息与业务数据业务与语音行为业务一类别业务一业务一

使用用户数业务二类别业务二业务二

使用用户数两种业务用户数LIFT梦网数据业务新闻天气104452数据增值业务手机邮箱181683100855.83梦网数据业务新闻天气104452数据增值业务购买彩铃歌曲600301132182.31梦网数据业务铃图随意当217489数据增值业务手机游戏404161223815.26数据业务承载梦网彩信163267数据业务承载WAP总站929634849846.14数据增值业务购买彩铃歌曲600301梦网数据业务音乐频道123376191902.84分析纬度案例:彩信精品盒,精彩尽在掌握--产品及营销创新从CRM项目挖掘潜在需求信息,并据此制定产品开发策略:发现创意产生产品概念形成动漫、图铃是客户最感兴趣的彩信内容。彩信的渗透率和认知度低,尚未形成一定规模效应。打造以动漫图铃为主要内容的精品彩信产品,结合体验式营销提高彩信渗透率率先推出定制型的祝福、图铃类业务——“彩信精品盒”把客户“主动下载”的模式变为“自然定时接收”;为客户搭建一个简便有效的产品获取渠道;能提醒和促进客户转发祝福彩信。需求挖掘产品开发目标客户定位营销实施效益分析目标客户四大品牌客户;年龄介于18-40岁之间,追求时尚,有祝福、图铃类彩信的需求。业务简介彩信精品盒,为您及时放送精挑细选的各大节日祝福彩信让彩信贺卡随手拈来,转发祝福轻松便捷!精美月历、热门铃声、动态屏保、待机彩图等,轮流装扮你的手机,常换常新!让你的个性更张扬!资费、频次包月定制,1元/月(首次订阅客户3天免费试用期)每月发送5-8条彩信定制方式(1)短信(2)互联网(3)WAP案例:彩信精品盒,精彩尽在掌握--产品及营销创新根据客户对彩信内容的偏好,设计了“彩信精品盒”:需求挖掘产品开发目标客户定位营销实施效益分析

体验式营销――发送彩信内容,供目标客户免费体验业务;

整合营销传播――各渠道(自有渠道、社会渠道、媒介传播)同步强力宣传,形成一个立体的营销体系。联系客户数销售数成功销售率目标客户组12423287

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论