下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据应用浅谈在过去的年中,各个领域都出现了大规模的数据增长,包括医疗保健和科学传感器、用户生成数据、互联网和金融公司、供应链系统等。大数据这一术语正是产生在全球数据爆炸增长的背景下,用来形容庞大的数据集合。与传统的数据集合相比,大数据通常包含大量的非结构化数据,且大数据需要更多的实时分析。此外,大数据还为挖掘隐藏的价值带来了新的机遇,同时给我们带来了新的挑战,政府机构最近也宣布了一项加快大数据进程的重大计划,各行各业也都在积极讨论大数据的吸引力。1、大数据的定义一般意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。大数据的特点可以总结为4个V,即volume(体量浩大)、variety(模态繁多)、velocity(生成快速)和value(价值巨大但密度很低)。大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。2、大数据应用大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。2.1大数据分析的关键领域根据数据的生成方式和结构特点不同,本文将数据分析划分为6个关键技术领域:2.1.1结构化数据一直是传统数据分析的重要研究对象,目前主流的结构化数据管理工具,如关系型数据库等,都提供了数据分析功能。分析商业和科研领域会产生大量的结构化数据,而这些结构化数据的管理和分析依赖于数据库、数据仓库、OLAP和业务流程管理成熟商业化技术。得益于关系型数据库技术的发展,结构化数据的分析方法较为成熟,大部分都以数据挖掘和统计分析为基础。2.1.2文本是常用的存储文字、传递信息的方式,也是最常见的非结构化数据。存储信息最常见的形式就是文本,例如电子邮件通信、公司文件到网站页面、社交媒体内容等。因此,文本分析被认为比结构化数据挖掘更具有商业化潜力。通常情况下,文本分析,也称为文本挖掘,指的是从非结构化文本中提取有用信息和知识的过程。文本挖掘是一个跨学科领域,涉及到信息检索、机器学习、统计、计算语言学尤其是数据挖掘。2.1.3Web数据Web技术的发展,极大地丰富了获取和交换数据的方式,Web数据高速的增长,使其成为大数据的主要来源。在过去的10年中,我们见证互联网信息的爆炸式增长,同时Web分析作为一个活跃的研究领域也已经出现。Web分析旨在从Web文档和服务中自动检索、提取和评估信息用以发现知识。Web分析建立在几个研究领域之上,包括数据库、信息检索、自然语言处理和文本挖掘等。Web内容涉及多种类型的数据,例如文本、图像、音频、视频、代号、元数据以及超链接等。2.1.4多媒体数据随着通讯技术的发展,图片、音频、视频等体积较大的数据,也可以被快速地传播,由于缺少文字信息,其分析方法与其他数据相比,具有显著的特点。近来,多媒体数据(主要包括图像、音频和视频)正以惊人的速度增长,几乎无处不在。由于多媒体数据多种多样而且大多数都比单一的简单结构化数据和文本数据包含更丰富的信息,提取信息这一任务正面临多媒体数据语义差距的巨大挑战。多媒体分析的研究涵盖的学科种类非常多,从多媒体摘要、多媒体注解、多媒体索引和检索、多媒体的建议和多媒体事件检测等,2.1.5社交网络数据从一定程度上反映了人类社会活动的特征,具有重要的价值。网络分析从最初的计量分析和社会学网络分析一直演化到21世纪初新兴的在线社交网络分析。许多流行的在线社交网络,例如Twitter,Facebook和LinkedIn等近年来都日益普及。这些在线社交网络通常都含有大量的链接和内容数据,其中链接数据主要为图形结构,表示两个实体之间的通信,而内容数据则包含有文本、图像以及其他网络多媒体数据。这些网络的丰富内容给数据分析带来了前所未有的挑战,同时也带来了机遇。2.2大数据的典型应用2.2.1企业内部大数据应用目前,大数据的主要来源和应用都是来自于企业内部,企业内部大数据的应用,可以在多个方面提升企业的生产效率和竞争力。具体而言:市场方面,利用大数据关联分析,更准确地了解消费者的使用行为,挖掘新的商业模式;销售规划方面,通过大量数据的比较,优化商品价格;运营方面,提高运营效率和运营满意度,优化劳动力投入,准确预测人员配置要求,避免产能过剩,降低人员成本;供应链方面,利用大数据进行库存优化、物流优化、供应商协同等工作,可以缓和供需之间的矛盾、控制预算开支,提升服务。在金融领域,企业内部大数据的应用得到了快速发展。例如,招商银行通过数据分析识别出招行信用卡价值客户经常出现在星巴克、DQ、麦当劳等场所后,通过“多倍积分累计”“积分店面兑换”等活动吸引优质客户;通过构建客户流失预警模型,对流失产品予以挽留,;通过对客户交易记录进行分析,有效识别出潜在的小微企业客户,并利用远程银行和云转介平台实施交叉销售,取得了良好成效。淘宝分析交易时间、商品价格、购买数量,更重要的是,这些信息可以与买方和卖方的年龄、性别、地址、甚至兴趣爱好等个人特征信息相匹配。淘宝数据魔方是淘宝平台上的大数据应用方案,通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此进行生产、库存决策,而与此同时,更多的消费者也能以更优惠的价格买到更心仪的宝贝。2.2.2物联网大数据应用物联网不仅是大数据的重要来源,还是大数据应用的主要市场。在物联网中,现实世界中的每个物体都可以是数据的生产者和消费者,由于物体种类繁多,物联网的应用也层出不穷。在物联网大数据的应用上,物流企业应该有深刻的体会。UPS快递为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。同时,这些设备也方便了公司监督管理员工并优化行车线路。UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。智慧城市,是一个基于物联网大数据应用的热点研究项目,帮助政府领导在治理水资源、减少交通拥堵和提升公共安全方面制定决策时获得更好的信息支撑。武汉交管局将大数据分析运用到了今年端午节的交通导流,武汉交管局科研部门与以往凭经验预测不同,此次预报利用了高德电子地图提供的大数据,经过交管部门最新开发的软件进行运算后得出结论。市交管局首次与导航服务平台合作,通过采集智能手机以及车载导航定位等信息,分析道路通行规律,合理分流,细化交通管制措施,在节假日和重要节点对交通拥堵状况进行预警。据预测,拥堵时段自端午节前的19日下午2时开始,持续到晚上9时,下午5时至6时拥堵最为严重。端午期间,20日10时至12时、22日傍晚6时至7时为拥堵高峰,建议错峰出行。大数据分析武汉高峰、平峰交通显示,6月19日14时起,我市各大主干道将提前进入拥堵,持续至21时,其中晚高峰17时至18时拥堵状况将最为严重。2.2.3面向在线社交网络大数据的应用在线社交网络,是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。在线社交网络大数据主要来自即时消息、在线社交、微博和共享空间4类应用。由于在线社交网络大数据代表了人的各类活动,因此对于此类数据的分析得到了更多关注。在线社交网络大数据分析是从网络结构、群体互动和信息传播3个维度,通过基于数学、信息学、社会学、管理学等多个学科的融合理论和方法,为理解人类社会中存在的各种关系提供的一种可计算的分析方法。目前,在线社交网络大数据的应用包括网络舆情分析、网络情报搜集与分析、社会化营销、政府决策支持、在线教育等。IBM跟温布尔登网球公开赛合作已经是第25个年头了。今年,它们又一次在网上为这次赛事加油助威。这家科技巨头为将于2015年6月29日在伦敦温布尔登全英草地网球俱乐部举办的最古老和最具声望的网球比赛设计了一个新网站,IBM在这个网站上使用了各种数字化工具,比如预测分析仪表板Slamtracker。这个仪表板能显示实时统计和对比赛的分析,比如发球速度和绝杀球数。Slamtracker还提供了以往大满贯赛事的数据,比如提供参赛者之间历史对决比分记录,还能根据以往交手情况指出参赛者应该加强哪些方面以赢得比赛。IBM的数据分析工具还能为赛事主办方实时推送运动员的历史比赛记录,以抢在其他人之前将这些信息发布到社交网络上。IBM还会聘请业务网球运动员和网球专家坐到场边专门设立的数据输入区中,手持笔记本电脑确认通过传感器和照相机捕获的动作数据,比如确认球速和轨迹是否准确。2.2.4医疗健康大数据应用医疗健康数据是持续、高增长的复杂数据,蕴涵的信息价值也是丰富多样。对其进行有效的存储、处理、查询和分析,可以开发出其潜在价值。对于医疗大数据的应用,将会深远的影响人类的健康。国内多家医药企业正在全力布局大数据医疗,目标是希望管理个人及家庭的医疗设备中的个人健康信息,现在已经可以通过移动智能设备录入上传健康信息,而且还可以第三方的机构导入个人病历记录,此外通过提供SDK以及开放的接口,支持与第三方应用的集成。2.2.5群智感知随着技术的发展,智能手机和平板电脑等移动设备集成了越来越多的传感器,计算和感知能力也愈发强大。在移动设备被广泛使用的背景下,群智感知开始成为移动计算领域的应用热点。大量用户使用移动智能设备作为基本节点,通过蓝牙、无线网络和移动互联网等方式进行协作,分发感知任务分发,收集、利用感知数据,最终完成大规模的、复杂的社会感知任务。众包以用户为基础,以自由参与的方式分发任务。目前众包已经被运用于人力密集的应用,如语言翻译、语音识别、图像地理信息标记、定位与导航、城市道路交通感知、市场预测、意见挖掘等。众包的核心思想是将任务分而治之,通过参与者的协作来完成个体不可能或者说根本想不到要完成的任务。无需部署感知模块和雇佣专业人员,众包就可以将感知范围扩展至城市规模甚至更大。众包的应用早于大数据的兴起,宝洁、宝马、奥迪等许多公司都曾借助众包提升自身的研发和设计能力。而在大数据时代,空间众包服务成为了大家关注的热点。如京东众包,亚马逊众包。3.现状与展望3.1现状大数据技术尚处于起步阶段,还有很多关键技术问题,如云计算、网格计算、流运算、并行计算、大数据体系结构、大数据的变成模型、支持大数据的软件系统等,需要深入研究,目前对大数据的应用还处于起步阶段,需要探索更多、更高效地利用大数据的模式。因此,科学、工程、医学、医疗、金融、商务、法律、教育、运输、零售、电信等特定领域的大数据应用,中小企业大数据应用,公共管理部门大数据应用,大数据服务,大数据人机交互等都具有较高的研究意义。信息技术中,安全和隐私一直是重点问题。大数据时代,随着数据的增多,数据面临更严峻的安全风险,传统的数据保护方法已经不适用于大数据,大数据安全面对挑战。3.2展望大数据的出现,开启了一次重大的时代转型。在IT时代,技术才是大家关注的重点,是技术推动了数据的发展;如今数据的价值凸显,信息的重要性日益提高。规模更大、种类更多、结构更复杂的数据库模型将会不断完善;掌控大数据资源的企业,将数据使用权进行出租和转让就可以获得巨大的利益;大数据的交叉融合大数据不仅促进了云计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论