大数据情景下离群数据挖掘与商务应用_第1页
大数据情景下离群数据挖掘与商务应用_第2页
大数据情景下离群数据挖掘与商务应用_第3页
大数据情景下离群数据挖掘与商务应用_第4页
大数据情景下离群数据挖掘与商务应用_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会20132013年年1212月月1414日日夏火松 博士 教授 博导 大数据情景下离群数据挖掘与大数据情景下离群数据挖掘与商务应用商务应用第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会n提纲提纲 第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会OUTLIER 离群数据挖掘(OUTLIER)问题最早就被提出(Hawkins,1980),现有的对离群数据(有的称为孤立点)的处理方法主要研究如何减少离群数据对正常数据的影响,或仅当作噪音对待 。而现实的大数据中离群数据一方面伴有大量的噪音 ,另一方

2、面又可能包括极有价值的信息。从算法上大部分的研究集中在关系的发现、类别的判定和类别的描述,而忽视了离群数据的存在和意义。离群数据的发现主要有三种研究方法:统计学的方法、基于距离的有三种研究方法:统计学的方法、基于距离的方法和基于偏离的方法。方法和基于偏离的方法。 第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会 从科学研究上:从科学研究上:随着新一代的互联网、物联网等技术的发展,处理速度、容量限制和数据质量发生了深刻的变化,大数据时代已经来临(邬贺铨院士,2012),以“数据驱动”为特征的新兴商务智能应用模式正在发生变化。利用大行为数据和大交易数据进行的大数据挖掘分析与应用的

3、重要性已经得到先进企业关注并开始应用。大数据具有体量大、类型多样复杂、快速、价值稀疏等特性(李国杰,2012)。这种价值的稀疏(大海捞针)特性,正好适合离群数据挖掘在大数据中找出有价值的模式与知识。 离群数据挖掘能够从隐藏在大量的社会网络关系数据中发现一些不易发现的未知知识,能从微博社会网络关系中分析重要突发事件的回应与正面积极的回应,为决策者提供重要的、极有价值的信息或知识,从而产生不可估量的效益。现有数据挖掘的研究一部分研究集中于算法的改进与提出上,另一部分集中于挖掘内容上的关系。 第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会 从教学上:从教学上:基于数据挖掘的信息分

4、析理论与技术成为未来信管与电商专业的重要内容。B 数据仓库与数据挖掘技术夏火松 - 2004 - 本书详细阐述了数据仓库与数据挖掘的基本原理, 系统而全面地介绍了数据仓库与数据挖掘的概念, 作用, 算法和应用举例, 并且给出了信息分析所涉及到的若干问题及框架. 本书介绍了最新的信息分析技术研究成果, 如小波分析, Rough 分析, 蚁群分析, 分形技术, .被引用次数:152第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会-第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会文献探索 关键词 领域作者 重要期刊图图 1 1 基于基于big data big d

5、ata 的的OUTLIEROUTLIER与与BIBI应用应用第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会设计科学 Design as an Artifact Problem Relevance Design Evaluation Research Contributions Research Rigor Design as a Search Communication of Research第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长

6、总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会大数据时代三大变革思维变革思维变革商业变革管理变革更多:不是随机样本,而是全体数据更杂:不是精确性,而是混杂性更好:不是因果关系,而是相关关系数据化:一切皆可“量化”价值:“取之不尽

7、,用之不竭”的数据创新角色定位:数据、技术与思维的三足鼎立风险:让数据主宰一切的隐忧掌控:责任与自由并举的信息管理维克多在大数据时代维克多在大数据时代第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会基于基于SQL语言语言: 面对OLAP的传统行和列不基于不基于SQL或或map-reduce的的: 由谷歌率先发由谷歌率先发起起数据流数据流: 基于运行商数据直接生成任意图形新平台技术新平台技术数据入数据入口口/汇聚汇聚数据平台数据平台分析分析不同范围的服务不同范围的服务传统交付模式 - 单片或基于设备的解决方案云云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据

8、库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”- Forrester analyst Jim Kobielus新的传输方案新的传输方案新模式和新技术第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会利用用户”行为指纹”创造新商机用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。第11届(20

9、13)信息管理与电子商务院长、主任专业建设与学术年会Big data 文献分析 纵观国内外研究现状可见: 1.大数据相关的研究与应用目前仍然处于起步阶段,学术研究大多局限于宏观层面。 2.企业对社交媒体和互联网中大数据的应用仍然不足,急需进一步的深入开展。 3.现在的大数据研究大多立足于信息科学,侧重于大数据的获取、存储、处理挖掘和信息安全等方面,而很少有基于管理角度的研究。第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会-第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会研究问题的述评之一:研究问题的述评之一:目前社会关系网络的研究重点关注社会网络关系与内容

10、的挖掘,可分为2类问题:第一类问题是一次承载较大信息量的社会网络关系与内容的挖掘;另一类是一次承载信息量小但总规模数据大而分布的(具有大数据特征)社会网络关系与内容的挖掘,例如微博客的关系,这种关系既有弱关系(生人间)又有强关系(熟人间)。对第2类问题的研究能够很好的分析互联网与移动网络之间的信息传递和知识发现的规律和机制,但是缺乏研究针对微博特征、分但是缺乏研究针对微博特征、分形相似不变性和大数据离群挖掘的方法来研究其内容创造形相似不变性和大数据离群挖掘的方法来研究其内容创造、共享、传播之间的社会关系网络与、共享、传播之间的社会关系网络与BI应用模式。应用模式。第11届(2013)信息管理与

11、电子商务院长、主任专业建设与学术年会研究问题的述评之二:研究问题的述评之二:在社会计算研究领域中王飞跃等人的研究主要集中在利用复杂网络理论和典型的社会问题来研究社会系统建模、实验与分析方法、相关社会学理论研究及应用研究,而采用离群数据挖掘、SVM和分形相似不变性等思路来研究社会计算在微博中的大数据社会网络关系离群挖掘与BI应用模式还少见报道。第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会研究问题的述评之三:研究问题的述评之三:现有微博挖掘研究是一种建立在文本挖掘、用户活跃指数等的假设基础上,这种假设并没有解决从大数据社会计算视这种假设并没有解决从大数据社会计算视角对微博中离

12、群数据分析,这种模型也很少考虑相似行为角对微博中离群数据分析,这种模型也很少考虑相似行为模型。模型。第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会研究问题的述评之四:研究问题的述评之四: 离群数据的发现主要研究有三种方法:统计学的方法离群数据的发现主要研究有三种方法:统计学的方法(Barnett,1994)、基于距离的方法(、基于距离的方法(Knorr&Ng,1997,1998,1999)和基于偏离的方法)和基于偏离的方法(Angiulli,2006)。 第一种方法需要知道数据的分布模型,使用假设检验来确认离群第一种方法需要知道数据的分布模型,使用假设检验来确认离群

13、数据的存在。数据的存在。 第二种是通过数据间的距离计算来确定没有足够多邻居对象的离第二种是通过数据间的距离计算来确定没有足够多邻居对象的离群数据群数据 ,但是由于需要通过抽样技术设置合适的参数,目前研,但是由于需要通过抽样技术设置合适的参数,目前研究集中在距离的定义和最近邻点的邻居方法。究集中在距离的定义和最近邻点的邻居方法。 第三种第三种通过数据中的某项记录对整个数据的影响及变化来确定离群数据,也就是求出数据子集的偏离程度,即相异度,但是由于事先并不知道数据的特性而相异函数的定义较为复杂。 缺乏集成研究大数据背景下的基于社会计算的分布式、异构微博缺乏集成研究大数据背景下的基于社会计算的分布式

14、、异构微博离群数据挖掘问题离群数据挖掘问题,最终制约新一代的社会计算环境下大数据的BI管理研究和广泛应用。 第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会-第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会应用模式: 大数据的应用模式在业界出现了大数据的应用模式在业界出现了6类代表:类代表: (1)技术提供模式)技术提供模式 (2)数据空间运营模式)数据空间运营模式 (3)数据使能模式(阿里金融的小额信贷)数据使能模式(阿里金融的小额信贷) (4)数字媒体模式)数字媒体模式 (5)租售信息)租售信息 (6)租售数据模式)租售数据模式 第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会OUTLIER应用模式: 由于传统的由于传统的BI应用模式是基于关系模型的数据仓库与数据挖掘下应用模式是基于关系模型的数据仓库与数据挖掘下的典型应用,但是这种模式忽视了新一代互联网的非结构化、异的典型应用,但是这种模式忽视了新一代互联网的非结构化、异构、分布多源的大数据视角下的稀有价值的挖掘与商务智能应用构、分布多源的大数据视角下的稀有价值的挖掘与商务智能应用, 第11届(2013)信息管理与电子商务院长、主任专

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论