大数据分析师的卓越之道_第1页
大数据分析师的卓越之道_第2页
大数据分析师的卓越之道_第3页
大数据分析师的卓越之道_第4页
大数据分析师的卓越之道_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析师的卓越之道数据分析的典型场景DataValueKnowledgeDiscoveryDataValueInfrastructure2基础设施已经改朝换代分析师也需要与时俱进改变思维方式提高技术素养丰富分析能力3新的世界观:不确定的世界4大数据的测不准《自然》:测不准《科学》:大数据傲慢5数据分析方法论的升级HypothesesInterpretatioCollectionPreparationAnalyticsnEvaluation6数据分析方法论的升级HypothesesInterpretatioCollectionPreparationAnalyticsnEvaluation7Hypotheses机械地发掘相关性和假设直觉,拿侦探小说练手阅读广泛涉猎跨界思维碰撞融入业务部门

防止数据采集与分析、业务与数据分析的脱节8DataexchangeandsharingInterpretatioAutomatedlaboratory狐狸(一把钥匙开一把锁)数据不可名状的功效:简单模型+大数据>复杂模型+小数据?AstrongtooltodealwithlowSNRandpoorveracityEnterpriseDataWarehouseEnterpriseDataHub/DataLake分级训练、模型组合、概率图模型、深度神经网络DeepLearningImage/videoDatalifecyclemanagementPCA/LDA/pLSAvs.Scikit-learnstylepipelinesCuration,Wrangling,…InformationManagement数据分析方法论的升级HypothesesInterpretatioCollectionPreparationAnalyticsnEvaluation9数据!数据!数据!n=All!EnterpriseDataWarehouseEnterpriseDataHub/DataLakeExternaldatasourcesStructuredsemi-structuredunstructured

LoganalysisTextanalysisImage/videoDatawithgeoandtemporaltagsNetworksandgraphs10数据?数据?数据?n=All?

Moredatavs.sampling“Rawdata”isanoxymoronSignalsandnoisesSamplingbiasDataexchangeandsharing

Datarights,datapricingDatalifecyclemanagement

Provenancecapture,representation,andqueryingSometimesdataarenotassets,butcosts11数据分析方法论的升级HypothesesInterpretatioCollectionPreparationAnalyticsnEvaluation12数据质量:重中之重Noisy,biasedandpolluteddataareunavoidable

Goal:models=componentsfornoise+relativelycomplexmodelsforsignalCleansing,validation,…

Canitstartwithasmallsubset?Cantheprocessbeautomated?Worktogetherwithvisualization,machinelearningCuration,Wrangling,…

Automatedlearningtodiscoverstructure,resolveentities,andtransformdata13数据表示Reducecomputeandcommunicationcomplexity

Sparse,compresseddatastructureApproximatecomputationReducestatisticalcomplexity

UIMA:UnstructuredInformationManagementArchitectureDimensionalityreduction,clusteringSampling

Non-randomsampling,compressivesensing,……Choosebestrepresentationforspecificcomputationalmethods

E.g.tablesfordataparallelism,networks/graphsforgraphparallelism14数据分析方法论的升级HypothesesInterpretatioCollectionPreparationAnalyticsnEvaluation15ComputationalScience16检查自身装备17检查自身装备18MLPipelineScikit-learnstylepipelines19拥抱云的世界20allmodelsarewrong,butsomeareuseful刺猬(一招鲜吃遍天)模型的复杂度与问题匹配:奥卡姆剃刀原理如何做到数据越多、边际收益越大?

vs.狐狸(一把钥匙开一把锁)数据不可名状的功效:简单模型+大数据>复杂模型+小数据?Ensemble混合模型

Non-parametricvs.ParametricLinearvs.Non-LinearDiscriminativevs.Generative感知长尾信号Exponentialassumptionvs.longtail

PCA/LDA/pLSAvs.分级训练、模型组合、概率图模型、深度神经网络21VelocityInteractivequery流计算

如时空数据在线/流式/增量学习

增量训练,模型异步更新,快速部署当又大又快时,你必须懂系统

BigLearningSystem:并行化/分布式化,系统调优22DeepLearning从语音识别,到图像理解,到自然语言理解

领域特化:如医学图像分析进军“非认知”任务

搜索,广告,推荐,……,visuo-motorskills,drugdiscoveryAutomatedlaboratoryOpenSourceCollaborativeOpenComputerScience

Pylearn2,Theano,GitXiv=arXiv+Github+Links+DiscussionCaffe23SparseCodingAstrongtooltodealwithlowSNRandpoorveracitySource:HTKung24缺乏标注数据下的学习Source:AndrewNg25人的角色HumanMachineIntelligence人的工作不断被取代

特征工程比如以MLBase和VizDeck为代表的自动化分析和可视化人与机器搭配获得最佳性能

比如Exploratoryanalytics/visualization大规模人人、人机协作分析

外包Kaggle,众包CrowdDB,协作DataHub,人类计算Duolingo26数据分析方法论的升级HypothesesInterpretatioCollectionPreparationAnalyticsnEvaluation27STEMSTEAM28Storytell

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论