商务智能理论与应用2-大数据_第1页
商务智能理论与应用2-大数据_第2页
商务智能理论与应用2-大数据_第3页
商务智能理论与应用2-大数据_第4页
商务智能理论与应用2-大数据_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与数据挖掘第二部分大数据大数据概念大数据行业应用数据分析与挖掘大数据技术大数据体系数据的大小物理属性的数据公斤、公里、升等信息属性的数据位(Bit)是量度信息的基本单位,只有0、1两种二进制状态。8位(bit)组成一个字节(1Byte,8bit),能够容纳一个英文字符,而一个汉字需要两个字节(2Byte,16bit)的存储空间。一页书籍:10KB一张低分辨率照片:100KB一次胸透视:10MB一张CD光盘:500MB一部高质量电影:1GB大数据何为大?—数据度量1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes练习题3PB=(?)GB假设《红楼梦》含标点87万字(不含标点853509字),1GB约等于(?)部红楼梦?1TB约等于(?)部?美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB),1EB=(?)倍美国国会图书馆存储的信息量大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代的到来主要有以下一些原因硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网练习题促进大数据技术到来的主要因素有那些?大数据时代的到来主要是由于网上的数据量大规模增加()大数据不仅是网络业的未来,而且是整个社会和经济发展的未来。早期的大规模数据应用文本资料的数字化将文本资料转化成数字信息存储,可进行搜索,传播。亚马逊数字图书馆文本资料的数字化亚马逊的数字图书馆地理方位的数字化对地理位置的数据化需要满足一些前提条件:需要能精确地测量相关区域内的每一块地方;需要一套标准的标记体系;需要收集和记录数据的工具。简而言之,就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些,才能把位置信息当成数据来存储和分析。莫里斯航海图表

UPS的快速定位系统UPS快递多效地利用了地理定位数据。为了使总部能及时了在车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。这些设备方便了公司监督管理员工并优化行车线路。UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。设计了尽量少左转的路线,因为左转要求货车在交叉路口穿过去,所以更容易出事故。而且,货车往往需要等待一会儿才能左转,也会更耗油,因此,减少左转使得行车的安全性和效率都得到了大幅提升。社交网络的发展简单地说,社交网络是在互联网上与其他人相联系的一个平台。社交网络站点通常围绕用户的基本信息而运作,用户基本信息是指有关用户喜欢的事、不喜欢的事、兴趣、爱好、学校、职业或任何其他共同点的集合。通常,这些站点提供不同级别的隐私控制。社交网络的目标是,通过一个或多个共同点将一些人相互联系起来而建立一个群组。国外:Facebook,twitterFacebook2012年拥有大约6.29亿用户,他们通过上千亿的朋友关系网相互连接。这个巨大的社交网络覆盖了大约10%的全球总人口。国内:新浪微博,微信,人人网社交网络的理论基础1967年,哈佛大学的心理学教授米尔格伦(1934~1984)创立了六度分割理论,简单地说:“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。”按照六度分隔理论,每个个体的

社交圈都不断放大,最后成为一个大型网络。这是社会性网络(Social

Networking)的早期理解。我国社交网络的发展E-mail点对点人与人之间可以通过电子邮件交流BBS点对面BBS将点对点形式演变为点对面,降低交流成本。实现了个人的分散信息向可共享的聚合信息的进步。天涯、猫扑、西祠胡同等产品都是BBS时代的典型企业。2006年年以前,资本主要关注BBS及博客形态的社交网络产品,但是后期来看,这类企业的发展多不尽人意。娱乐化社交网络2002年,LinkedIn成立;2003年,运用丰富的多媒体个性化空间吸引注意力的Myspace成立;2004年,复制线下真实人际关系来到线上低成本管理的Facebook成立中国社交网络产品相也继出现,如2005年成立的人人网、2008年成立的开心网。微信息社交网络时代

2009年8月,新浪推出微博产品,用户

通过推介及自行搜索等方式构建自己的朋友圈,这种产品迅速聚合了海量的用户群,当然也吸引了众多业者(如腾讯、网易、盛大)的追随。这种模式也再次将广义社交网络推向投资人视野。

随着移动互联网的发展,微信息社交产品逐渐与位置服务等移动特性相结合,相继出现微信等移动客户端产品。垂直社交网络应用时代

垂直社交网络主要是与游戏、电子商务等相结合,是社交网络探究商业模式的有利尝试。清科研究中心预计,垂直社交将成为社交网络未来发展的主要方向。根据“社交网络分析之父”贝尔纳多·哈柏曼(BernardoHuberman)的分析,社交网络中单一主题出现的频率可以用来预测很多事情,比如好莱坞的票房收入。他和一位在惠普实验室工作的同事开发了一个程序,可以用来监听微博的发布频率,基于此,他们就能预测一部电影的成败,这往往比其他传统评估预测方法还要准确。网络搜索技术的发展Google大数据的产生供应链原始材料供应商11级批发零售商1

半成品/成品供应商1核心企业2级批发零售商1原始材料供应商21级批发零售商1

半成品/成品供应商22级批发零售商2…………原始采用供应商n1级批发零售商n

半成品/成品供应商n2级批发零售商n政府部门电信、税务、银行、工商、房产、电力、自来水等多个部门数据的集成综合电商供应商、客户、商户、物流叫车出租车、客户商旅/票务客户、航空公司、旅店、饭店等哪些属于大数据的研究范畴大数据热反映出人们在猜测追寻下一个大创新交通数据?社交数据?电子商务数据?供应链数据?企业经营管理数据?数据大不等于大数据现有设备,技术,方法所能处理的不是大数据数据挖掘,精细化运营,精准广告和个性化服务推广不是未来大数据服务商业模式的主要部分大数据的特征多样性(Variety)数量巨大(Volume)速度快(Velocity)价值密度低(Value)大数据的描述性定义多样性数据来源多样性—超出一种服务,一个公司,一个地区数据种类多样性—文字,语音,图表,图片,视频数据对象多样性—个人,商业,社会,自然界大数据的多样性越高,潜在价值就越大大数据的操作定义数量以TB为基本计量单位数据间关系众多,结构复杂,变化多端大数据的体量越大,潜在价值就越大大数据的操作定义传输速度快处理的数据是TB级代替了GB级,“超大规模数据”和“海量数据”也有规模大的特点,但大数据更强调数据的快速动态变化,形成流式数据,数据流动的速度快到难以用传统的系统去处理。价值密度低数据量呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长,反而使我们获取有用信息的难度加大。以视频为例,连续的监控过程,可能有用的数据仅有一两秒传统数据与大数据的区别传统数据硬件条件IBM

System

x3100通过4个DIMM

插槽,实现512MB或1

GB/8

GB

DDR

II

667

MHz的内存容量可挂6个500G外部存储建立服务器矩阵后容量可增加需求:腾讯qq邮箱,腾讯宣称有7亿多注册账号,有3亿多活跃账号,平均每人100G空间

传统数据传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!传统数据与大数据的区别传统数据与大数据的区别传统数据处理结构化数据结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。传统数据与大数据的区别世界上跟多的是半结构和非结构化数据半结构化是指数据的字段数量不固定,大小可变化的数据非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论