异构大数据的机器学习挑战_第1页
异构大数据的机器学习挑战_第2页
异构大数据的机器学习挑战_第3页
异构大数据的机器学习挑战_第4页
异构大数据的机器学习挑战_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

异构大数据的机器学习挑战胡清华huqinghua@天津大学计算机学院2014-12-12异构大数据的机器学习报告会2014.12.14,天津大学25楼C412白栓虎,社交媒体挖掘方法与技术周明,微博的文本挖掘和情感分析董军宇,海洋大数据挖掘初探陈松灿,复杂高维多视图数据的相关分析杨猛,SparseLearningforImageclassification左旺孟,面向非凸稀疏和低秩模型的优化算法孟德宇,EasySamplesFirst:Self-pacedRerankingforZero-ExampleMultimediaSearch纪荣嵘,Structured,Discriminative,3DSceneParsing吴飞,跨媒体深度学习及知识网络构建提纲大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用提纲大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用大数据研究和发展计划(2012年3月)

召开了以大数据为主题的香山科学会议(2012年5月);科技部、基金委将大数据分别列入973计划和基金申请指南。大数据和节能计算技术方案(2013年1月)开放数据战略(2011年11月)美国

英国欧盟中国新ICT战略研究计划(2012年7月)日本大数据引起各国政府高度重视大数据蕴含的巨大价值引起了科技界、企业界和各国政府的高度重视,诸多国家和国际组织已将大数据研究提升到国家重大战略层面。6图像视频文本言语

多模态异构数据正在成为信息的主要形式社交媒体数据

日平均活跃用户数(DAU)为6660万,月平均活跃用户数(MAU)为1.438亿

月平均产生信息30多亿条海量动态微博内容的深层语义理解;多粒度用户兴趣建模与用户关系发现构建基于多模态内容深度语义分析与多粒度用户关系挖掘的精准社会化推荐系统。多模态异构信息8多模态异构数据正在成为信息的主要形式太阳活动对深空探测、载人航天、卫星运行、电力网络的安全有重要影响。SDO每秒以10个波段拍摄太阳4096*4096分辨率的图像,每天数据量为1.5T。天文大数据:太阳观测数据挖掘疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶大规模性疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶多模态性疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶增长性

用户交互性强

传播速度快

传播行为复杂

……

大数据往往呈现出大规模、多模态与快速增长等特征,使得传统的数据分析理论、方法与技术面临可计算性、有效性与时效性等严峻挑战。文本音频视频图片用户多总量庞大

分布广……

数据分析的可计算性数据分析的有效性数据分析的时效性数据源多样数据类型多样

交互方式多样……

多模态异构数据正在成为信息的主要形式112010,《Nature》:文本、图像、语音、视频等多模态数据混合在一起,将成为未来信息表示的主要形式2011,《Science》组织“DealingwithData”专辑:数据的组织和使用体现多模态特征多源异构大数据不仅在互联网环境涌现,而且广泛出现在医疗、金融,科研,工业监控等领域2014年973指南“大数据计算的基础研究”:研究多源异构大数据的表示、度量和语义理解方法2014年863指南“媒体大数据内容理解与智能服务”:实现异构媒体的结构化描述和语义协同多模态异构数据正在成为信息的主要形式提纲大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用传统学习算法应对多模态数据的挑战KNN决策树LinearSVMnonlinearSVM数值数据异构数据的挑战性问题图像数据视频数据

时间序列文本数据符号数据太阳物理14如何提取和统一表示不同模态数据中的有用信息是多模态数据知识发现面临的重要科学挑战多源信息融合迁移互补异构信息表达建模协同不确定信息模型推理决策15不同型号机组数据的共用相似型号机组信息的复用声/光/电等多模态信息的全息利用不确定感知的近似推理混合数据挖掘异构大数据异构数据的挑战性问题提纲大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用我比语音识别器强研究人脑的多通道感知、学习、推理的机理,构建新型的信息处理方法是应对大数据挑战的有效途径认知计算:人脑的信息处理机制认知是为人类认识客观事物、获得知识的活动,包括知觉、记忆、学习、语言、思维和问题解决等过程;认知科学是研究人类感知和思维对信息处理过程的科学,包括从感觉的输入到复杂问题的求解,从人类个体到人类社会的智能活动,以及人类智能和机器智能的性质;如何从复杂的信息碎片中提取知识,实现类似人脑的认知与判断,发现新的关联和模式,从而做出正确的决策。认知计算的研究包括:自然的人机接口;学习能力;探索式问题求解能力。研究认知的机理,建立认知的模型,然后用计算机模拟人类认知的过程来处理实际问题是人工智能领域的重要课题,受到很多研究者的关注。认知计算:人脑的信息处理机制

视觉方面的研究已取得了大量成果视觉信息包括:亮度、形状、颜色、运动和立体视觉等信息;六类神经元(光感受器细胞、双极细胞、神经节细胞、水平细胞、无足细胞和网间细胞)处理着最初的视觉信息初级视皮层内神经元分为两大类:简单细胞/复杂细胞;简单细胞的感受野窄,复杂细胞的感受野大;形状、颜色、运动和深度视觉信息在视觉系统内的平行、分级处理域。皮层中某个特别区域主管整个图像综合

在听觉认知方面:听觉认知处理的早期阶段决定大脑半球优势的因素是声学特性,而不是听觉信号的功能;

大脑如何整合视听觉信息尚不清楚?已知具有相互启动效应认知计算:人脑的信息处理机制BizleyandCohen.Thewhat,whereandhowofauditory-objectperception.NATURE,2013认知计算:人脑的信息处理机制手势表情听觉通道内容识别话者识别互补启动启动视觉通道听觉信息多通道感知如何通过融合多通道感知机理提升言语识别系统的能力?提纲大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用多模态异构数据的向量表示多线索融合的描述符学习图像/视频动作识别多模态异构数据的向量表示多媒体数据的结构化表示多模态异构数据的向量表示面对图像中异构多模态的局部特征属性,如几何属性、颜色/纹理分布和方向梯度等,如何进行有效利用和融合以提升图像识别性能DiscriminativeGraphlets(判别式Graphlets)

Zhang,Han,Yang,etal.IEEETIP,2013多模态异构数据的结构化向量表示J.Chen,Y.Han,X.Cao,Q.Tian,ObjectCodingontheSemanticGraphforSceneClassification,ACMInternationalConferenceonMultimedia(ACMMultimedia2013)(CCFA)Y.Han,Y.Yang,X.Zhou.Co-RegularizedEnsembleforFeatureSelection,IJCAI,2013(CCFA)图像场景中的语义上下文通过语义有向无环图(SemanticDAG)进行表达;构建正则化回归模型,通过路径编码(PathCoding)正则化项将图像场景间的语义关联约束加入回归过程。多模态异构数据的表示Tao,Li,Hu,Maybank,andWu.SupervisedTensorLearning.ICDM05,

201410-YearICDMHighest-ImpactPaperAwardHao,He,Chen,andYang.ALinearSupportHigher-OrderTensorMachineforClassification.IEEETIP2013Signoretto,etal.Learningwithtensors:aframeworkbasedonconvexoptimizationandspectralregularization.MachineLearning,2014

多模态异构数据的张量表示多模态数据建模的关键问题29符号数据数值数据时间序列文本数据图像数据视频数据多模态数据科学问题----跨模态信息的集成如何定义多模态数据的距离Bellet,Habrard,Sebban.ASurveyonMetricLearningforFeatureVectorsandStructuredData.Report,2014异构数据的距离学习McFee,Lanckriet.JMLR12(2011)491-523LearningMulti-modalSimilarityMultipleKernelLearningforDimensionalityReduction32Zhang,Wang,Zhou,Yuan,Shen.NeuroImage55(2011)856–867SparseRepresentationforclassificationShekhar,Patel,Nasrabadi,

Chellappa.IEEETPAMI,2014JointSparseRepresentationforRobustMultimodalBiometricsRecognition多模态深度学习36Nigiam,Kholsa,Kim,Nam,Ng.MultimodalDeepLearning,ICML,2011Srivastava,Salakhutdinov.MultimodalLearningwithDeepBoltzmannMachines.NIPS2012多模态异构数据的表示和建模OnlineMultimodalDeepSimilarityLearningwithApplicationtoImageRetrievalWu,Hoi,Xia,Zhao,Wang,Miao.ACMMM,2014Zhou,Hu,Liu,Jia.CombiningMulti-modalDeepNeuralNetworkswithConditionalRandomFieldsforChineseDialogueActRecognition.Interspeech,2014序贯决策的多模态深度学习智能大数据分析:多模态异构数据的表示和建模提纲大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用言语碎片言语碎片言语碎片言语碎片言语碎片言语碎片言语碎片言语碎片言语碎片言语碎片互联网使得知识发现可能变成群体行为通过互联网环境言语碎片的深度利用,有可能提高从海量复杂数据中获取知识的能力,可能加速科学与工程领域的创新步伐挑战:

如何对互联网环境的言语碎片信息进行表示?如何从庞杂的言语碎片中挖掘其蕴含的知识?应用一:互联网言语深度理解中文言语深度理解言语多通道感知机理言语信息表示理论科学问题大规模语料库及标注系统言语信息服务平台与应用验证多言语空间及其映射关系多言语口语识别多通道感知机理研究内容基于语境的中文言语信息计算模型言语行为计算理论应用一:互联网言语深度理解全球近50%的居民所处环境中,每20万人口中只有≤1名精神科医生。(WHO,2011)我国目前仅有2万多名精神科专科医师

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论