大数据应用项目解决方案_第1页
大数据应用项目解决方案_第2页
大数据应用项目解决方案_第3页
大数据应用项目解决方案_第4页
大数据应用项目解决方案_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 20177年大数数据应用用项目解决方案案目 录TOC o 1-5 h z u HYPERLINK l _Toc378278683 1.大大数据概概述 PAGEREF _Toc378278683 h 6 HYPERLINK l _Toc378278684 1.1.概述 PAGEREF _Toc378278684 h 6 HYPERLINK l _Toc378278685 1.2.大数据据定义 PAGEREF _Toc378278685 h 6 HYPERLINK l _Toc378278686 1.3.大数据据技术发发展 PAGEREF _Toc378278686 h 8 HYPERLINK

2、l _Toc378278687 2.大大数据应应用 PAGEREF _Toc378278687 h 11 HYPERLINK l _Toc378278688 2.1.大数据据应用阐阐述 PAGEREF _Toc378278688 h 11 HYPERLINK l _Toc378278689 2.2.大数据据应用架架构 PAGEREF _Toc378278689 h 13 HYPERLINK l _Toc378278690 2.3.大数据据行业应应用 PAGEREF _Toc378278690 h 13 HYPERLINK l _Toc378278691 2.3.1.医疗行行业 PAGEREF

3、_Toc378278691 h 13 HYPERLINK l _Toc378278692 2.3.2.能源行行业 PAGEREF _Toc378278692 h 14 HYPERLINK l _Toc378278693 2.3.3.通信行行业 PAGEREF _Toc378278693 h 14 HYPERLINK l _Toc378278694 2.3.4.零售业业 PAGEREF _Toc378278694 h 15 HYPERLINK l _Toc378278695 3.大大数据解解决方案案 PAGEREF _Toc378278695 h 16 HYPERLINK l _Toc37827

4、8699 3.1.大数据据技术组组成 PAGEREF _Toc378278699 h 16 HYPERLINK l _Toc378278700 3.1.1.分析技技术 PAGEREF _Toc378278700 h 16 HYPERLINK l _Toc378278701 3.1.1.11.可视化化分析 PAGEREF _Toc378278701 h 16 HYPERLINK l _Toc378278702 3.1.1.22.数据挖挖掘算法法 PAGEREF _Toc378278702 h 16 HYPERLINK l _Toc378278703 3.1.1.33.预测分分析能力力 PAGER

5、EF _Toc378278703 h 16 HYPERLINK l _Toc378278704 3.1.1.44.语义引引擎 PAGEREF _Toc378278704 h 16 HYPERLINK l _Toc378278705 3.1.1.55.数据质质量和数数据管理理 PAGEREF _Toc378278705 h 17 HYPERLINK l _Toc378278706 3.1.2.存储数数据库 PAGEREF _Toc378278706 h 17 HYPERLINK l _Toc378278707 3.1.3.分布式式计算技技术 PAGEREF _Toc378278707 h 18

6、HYPERLINK l _Toc378278708 3.2.大数据据处理过过程 PAGEREF _Toc378278708 h 20 HYPERLINK l _Toc378278709 3.2.1.采集 PAGEREF _Toc378278709 h 20 HYPERLINK l _Toc378278710 3.2.2.导入/预处理理 PAGEREF _Toc378278710 h 21 HYPERLINK l _Toc378278711 3.2.3.统计/分析 PAGEREF _Toc378278711 h 21 HYPERLINK l _Toc378278712 3.2.4.挖掘 PAGE

7、REF _Toc378278712 h 21 HYPERLINK l _Toc378278713 3.3.大数据据处理的的核心技技术-HHadooop PAGEREF _Toc378278713 h 21 HYPERLINK l _Toc378278714 3.3.1.Haddoopp的组成成 PAGEREF _Toc378278714 h 22 HYPERLINK l _Toc378278715 3.3.2.Haddoopp的优点点: PAGEREF _Toc378278715 h 25 HYPERLINK l _Toc378278720 3.3.2.11.高可靠靠性。 PAGEREF _T

8、oc378278720 h 25 HYPERLINK l _Toc378278721 3.3.2.22.高扩展展性。 PAGEREF _Toc378278721 h 25 HYPERLINK l _Toc378278722 3.3.2.33.高效性性。 PAGEREF _Toc378278722 h 25 HYPERLINK l _Toc378278723 3.3.2.44.高容错错性。 PAGEREF _Toc378278723 h 25 HYPERLINK l _Toc378278724 3.3.3.Haddoopp的不足足 PAGEREF _Toc378278724 h 25 HYPER

9、LINK l _Toc378278725 3.3.4.主要商商业性“大数据据”处理方方案 PAGEREF _Toc378278725 h 26 HYPERLINK l _Toc378278726 3.3.2.55.IBMM InnfoSSpheere大大数据分分析平台台 PAGEREF _Toc378278726 h 26 HYPERLINK l _Toc378278727 3.3.2.66.Ora cc l e BBi gg Daa t aApppliiancc PAGEREF _Toc378278727 h 27 HYPERLINK l _Toc378278728 3.3.2.77.Mi

10、c rr o s oo f t SS QLLSerrverr PAGEREF _Toc378278728 h 27 HYPERLINK l _Toc378278729 3.3.2.88.Sybbasee IQQ PAGEREF _Toc378278729 h 28 HYPERLINK l _Toc378278730 3.3.5.其他“大数据据”解决方方案 PAGEREF _Toc378278730 h 28 HYPERLINK l _Toc378278731 3.3.2.99.EMCC PAGEREF _Toc378278731 h 28 HYPERLINK l _Toc378278732 3

11、.3.2.110.BiggQueery PAGEREF _Toc378278732 h 29 HYPERLINK l _Toc378278733 3.3.6.大数据据”与科技技文献信信息处理理 PAGEREF _Toc378278733 h 29 HYPERLINK l _Toc378278734 3.4.大数据据处理技技术发展展前景 PAGEREF _Toc378278734 h 29 HYPERLINK l _Toc378278735 3.4.1.大数据据复杂度度降低 PAGEREF _Toc378278735 h 29 HYPERLINK l _Toc378278736 3.4.2.大数

12、据据细分市市场 PAGEREF _Toc378278736 h 30 HYPERLINK l _Toc378278737 3.4.3.大数据据开源 PAGEREF _Toc378278737 h 30 HYPERLINK l _Toc378278738 3.4.4.Haddoopp将加速速发展 PAGEREF _Toc378278738 h 30 HYPERLINK l _Toc378278739 3.4.5.打包的的大数据据行业分分析应用用 PAGEREF _Toc378278739 h 30 HYPERLINK l _Toc378278740 3.4.6.大数据据分析的的革命性性方法出出现

13、 PAGEREF _Toc378278740 h 31 HYPERLINK l _Toc378278741 3.4.7.大数据据与云计计算:深深度融合合 PAGEREF _Toc378278741 h 31 HYPERLINK l _Toc378278742 3.4.8.大数据据一体机机陆续发发布 PAGEREF _Toc378278742 h 31 HYPERLINK l _Toc378278743 4.基基于基站站大数据据应用及及案例 PAGEREF _Toc378278743 h 32 HYPERLINK l _Toc378278744 4.1.气象灾灾害应急急短信发发布平台台 PAGE

14、REF _Toc378278744 h 32 HYPERLINK l _Toc378278745 4.1.1.概述 PAGEREF _Toc378278745 h 32 HYPERLINK l _Toc378278746 4.1.1.11.项目背背景 PAGEREF _Toc378278746 h 32 HYPERLINK l _Toc378278747 4.1.1.22.平台概概述 PAGEREF _Toc378278747 h 32 HYPERLINK l _Toc378278748 4.1.2.平台建建设特点点与原则则 PAGEREF _Toc378278748 h 32 HYPERLI

15、NK l _Toc378278749 4.1.2.11.建设特特点 PAGEREF _Toc378278749 h 32 HYPERLINK l _Toc378278750 4.1.2.22.建设原原则 PAGEREF _Toc378278750 h 32 HYPERLINK l _Toc378278751 4.1.2.33.大数据据管理平平台特点点 PAGEREF _Toc378278751 h 33 HYPERLINK l _Toc378278752 4.1.3.平台整整体架构构 PAGEREF _Toc378278752 h 33 HYPERLINK l _Toc378278753 4.

16、1.3.11.建设原原理 PAGEREF _Toc378278753 h 33 HYPERLINK l _Toc378278754 4.1.3.22.平台总总体设计计 PAGEREF _Toc378278754 h 35 HYPERLINK l _Toc378278755 1.平平台总体体结构 PAGEREF _Toc378278755 h 35 HYPERLINK l _Toc378278756 2.平平台技术术架构 PAGEREF _Toc378278756 h 36 HYPERLINK l _Toc378278757 4.1.3.33.平台技技术思路路 PAGEREF _Toc37827

17、8757 h 37 HYPERLINK l _Toc378278758 4.1.3.44.平台技技术路线线 PAGEREF _Toc378278758 h 38 HYPERLINK l _Toc378278759 1.内内存数据据库 PAGEREF _Toc378278759 h 38 HYPERLINK l _Toc378278760 2.短短信发送送多链路路配置 PAGEREF _Toc378278760 h 38 HYPERLINK l _Toc378278761 3.队队列缓存存 PAGEREF _Toc378278761 h 38 HYPERLINK l _Toc378278762

18、4.参参数可配配置 PAGEREF _Toc378278762 h 38 HYPERLINK l _Toc378278763 4.1.3.55.平台性性能要求求 PAGEREF _Toc378278763 h 38 HYPERLINK l _Toc378278764 4.1.4.平台网网络拓扑扑 PAGEREF _Toc378278764 h 38 HYPERLINK l _Toc378278765 4.1.5.平台关关键流程程 PAGEREF _Toc378278765 h 39 HYPERLINK l _Toc378278766 4.1.5.11.平台数数据流程程 PAGEREF _Toc

19、378278766 h 39 HYPERLINK l _Toc378278767 4.1.5.22.平台业业务主流流程 PAGEREF _Toc378278767 h 40 HYPERLINK l _Toc378278768 4.1.5.33.短信下下发审批批流程 PAGEREF _Toc378278768 h 41 HYPERLINK l _Toc378278769 4.1.5.44.信令分分析处理理流程 PAGEREF _Toc378278769 h 42 HYPERLINK l _Toc378278770 4.1.5.55.短信发发送流程程 PAGEREF _Toc378278770 h

20、 43 HYPERLINK l _Toc378278771 4.1.6.平台功功能模块块 PAGEREF _Toc378278771 h 43 HYPERLINK l _Toc378278772 4.1.6.11.信令分分析子系系统 PAGEREF _Toc378278772 h 43 HYPERLINK l _Toc378278773 4.1.6.22.短信发发送子系系统 PAGEREF _Toc378278773 h 44 HYPERLINK l _Toc378278774 1.短短信发送送功能 PAGEREF _Toc378278774 h 44 HYPERLINK l _Toc3782

21、78775 2.短短信回执执接收功功能 PAGEREF _Toc378278775 h 44 HYPERLINK l _Toc378278776 3.短短信批量量发送管管理功能能 PAGEREF _Toc378278776 h 45 HYPERLINK l _Toc378278777 4.统统计报表表 PAGEREF _Toc378278777 h 45 HYPERLINK l _Toc378278778 4.1.6.33.管理子子系统 PAGEREF _Toc378278778 h 45 HYPERLINK l _Toc378278779 1.用用户管理理 PAGEREF _Toc37827

22、8779 h 45 HYPERLINK l _Toc378278780 2.权权限管理理 PAGEREF _Toc378278780 h 46 HYPERLINK l _Toc378278781 3.实实时监控控 PAGEREF _Toc378278781 h 46 HYPERLINK l _Toc378278782 4.日日志管理理 PAGEREF _Toc378278782 h 46 HYPERLINK l _Toc378278783 5.基基站位置置信息管管理 PAGEREF _Toc378278783 h 46 HYPERLINK l _Toc378278784 6.系系统参数数配置管

23、管理 PAGEREF _Toc378278784 h 46 HYPERLINK l _Toc378278785 4.1.6.44.内容数数据库子子系统 PAGEREF _Toc378278785 h 46 HYPERLINK l _Toc378278786 4.1.7.平台外外部接口口 PAGEREF _Toc378278786 h 47 HYPERLINK l _Toc378278787 4.1.7.11.信令采采集接口口 PAGEREF _Toc378278787 h 47 HYPERLINK l _Toc378278788 1.接接口说明明 PAGEREF _Toc378278788 h

24、 47 HYPERLINK l _Toc378278789 2.数数据采集集模式 PAGEREF _Toc378278789 h 47 HYPERLINK l _Toc378278790 4.1.7.22.短信发发送接口口 PAGEREF _Toc378278790 h 47 HYPERLINK l _Toc378278791 1.短短信发送送通知接接口 PAGEREF _Toc378278791 h 47 HYPERLINK l _Toc378278792 2.短短信发送送状态查查询接口口 PAGEREF _Toc378278792 h 47 HYPERLINK l _Toc37827879

25、3 3.短短信发送送接口 PAGEREF _Toc378278793 h 47 HYPERLINK l _Toc378278794 4.1.7.33.基站位位置信息息接口 PAGEREF _Toc378278794 h 48 HYPERLINK l _Toc378278795 1.数数据同步步模式 PAGEREF _Toc378278795 h 48 HYPERLINK l _Toc378278796 2.基基站位置置信息全全量同步步接口 PAGEREF _Toc378278796 h 48 HYPERLINK l _Toc378278797 3.基基站位置置信息增增量同步步接口 PAGERE

26、F _Toc378278797 h 48 HYPERLINK l _Toc378278798 4.2.旅游客客源分析析 PAGEREF _Toc378278798 h 48 HYPERLINK l _Toc378278799 4.2.1.建设目目标 PAGEREF _Toc378278799 h 48 HYPERLINK l _Toc378278800 4.2.2.整体方方案 PAGEREF _Toc378278800 h 49 HYPERLINK l _Toc378278801 4.2.2.11.方案思思路 PAGEREF _Toc378278801 h 49 HYPERLINK l _To

27、c378278802 4.2.2.22.分析范范围 PAGEREF _Toc378278802 h 49 HYPERLINK l _Toc378278803 4.2.2.33.方案特特点 PAGEREF _Toc378278803 h 50 HYPERLINK l _Toc378278804 4.2.3.方案设设计 PAGEREF _Toc378278804 h 51 HYPERLINK l _Toc378278805 4.2.3.11.系统关关系 PAGEREF _Toc378278805 h 51 HYPERLINK l _Toc378278806 4.2.3.22.系统架架构 PAGER

28、EF _Toc378278806 h 51 HYPERLINK l _Toc378278807 1.数数据分析析后台能能力 PAGEREF _Toc378278807 h 52 HYPERLINK l _Toc378278808 2.WWeb前前台能力力 PAGEREF _Toc378278808 h 52 HYPERLINK l _Toc378278809 4.2.3.33.数据采采集 PAGEREF _Toc378278809 h 53 HYPERLINK l _Toc378278810 4.2.3.44.业务分分析 PAGEREF _Toc378278810 h 53 HYPERLINK

29、 l _Toc378278811 1.总总体分析析流程 PAGEREF _Toc378278811 h 53 HYPERLINK l _Toc378278812 2.景景区综合合流量统统计分析析 PAGEREF _Toc378278812 h 54 HYPERLINK l _Toc378278813 3.景景区游客客来源地地构成分分析 PAGEREF _Toc378278813 h 55 HYPERLINK l _Toc378278814 4.景景区全网网总游客客实时估估算 PAGEREF _Toc378278814 h 57 HYPERLINK l _Toc378278815 5.景景区流量

30、量预判模模型分析析 PAGEREF _Toc378278815 h 58 HYPERLINK l _Toc378278816 6.景景区流量量上限告告警 PAGEREF _Toc378278816 h 59 HYPERLINK l _Toc378278817 7.旅旅游景点点热度排排名分析析 PAGEREF _Toc378278817 h 59 HYPERLINK l _Toc378278818 8.旅旅游线路路归类统统计 PAGEREF _Toc378278818 h 60 HYPERLINK l _Toc378278819 9.景景区与相相关场所所关联分分析 PAGEREF _Toc378

31、278819 h 61 HYPERLINK l _Toc378278820 4.2.3.55.界面功功能介绍绍 PAGEREF _Toc378278820 h 61 HYPERLINK l _Toc378278821 1.菜菜单功能能列表 PAGEREF _Toc378278821 h 62 HYPERLINK l _Toc378278822 2.界界面辅助助功能介介绍 PAGEREF _Toc378278822 h 63 HYPERLINK l _Toc378278823 3.运运营部门门应用PPorttal PAGEREF _Toc378278823 h 64 HYPERLINK l _T

32、oc378278824 4.用用户权限限 PAGEREF _Toc378278824 h 64大数据概概述概述大数据,IT行行业的又又一次技技术变革革,大数数据的浪浪潮汹涌涌而至,对国家家治理、企业决决策和个个人生活活都在产产生深远远的影响响,并将将成为云云计算、物联网网之后信信息技术术产业领领域又一一重大创创新变革革。未来来的十年年将是一一个“大数据据”引领的的智慧科科技的时时代、随随着社交交网络的的逐渐成成熟,移移动带宽宽迅速提提升、云云计算、物联网网应用更更加丰富富、更多多的传感感设备、移动终终端接入入到网络络,由此此而产生生的数据据及增长长速度将将比历史史上的任任何时期期都要多多、都要

33、要快。数据技术术发展历历史如图图一所示示:图一大数据定定义“大数据据”是一个个涵盖多多种技术术的概念念,简单单地说,是指无无法在一一定时间间内用常常规软件件工具对对其内容容进行抓抓取、管管理和处处理的数数据集合合。IBBM将“大数据据”理念定定义为44个V,即大量量化(VVoluume)、多样样化(VVariietyy)、快快速化(Vellociity)及由此此产生的的价值(Vallue)。如图图二;图二要理解大大数据这这一概念念,首先先要从大入入手,大是是指数据据规模,大数据据一般指指在100TB(1TBB=10024GGB)规规模以上上的数据据量。大大数据同同过去的的海量数数据有所所区别,

34、其基本本特征可可以用44个V来来总结(Voll-umme、VVariietyy、Vaaluee和Veelocc-itty),即体量量大、多多样性、价值密密度低、速度快快。数据体量量巨大。从TBB级别,跃升到到PB级级别。数据类型型繁多,如前文文提到的的网络日日志、视视频、图图片、地地理位置置信息,等等。价值密度度低。以以视频为为例,连连续不间间断监控控过程中中,可能能有用的的数据仅仅仅有一一两秒。处理速度度快。11秒定律律。最后后这一点点也是和和传统的的数据挖挖掘技术术有着本本质的不不同。物物联网、云计算算、移动动互联网网、车联联网、手手机、平平板电脑脑、PCC以及遍遍布地球球各个角角落的各各

35、种各样样的传感感器,无无一不是是数据来来源或者者承载的的方式。大数据技技术是指指从各种种各样类类型的巨巨量数据据中,快快速获得得有价值值信息的的技术。解决大大数据问问题的核核心是大大数据技技术。目目前所说说的大大数据不仅指指数据本本身的规规模,也也包括采采集数据据的工具具、平台台和数据据分析系系统。大大数据研研发目的的是发展展大数据据技术并并将其应应用到相相关领域域,通过过解决巨巨量数据据处理问问题促进进其突破破性发展展。因此此,大数数据时代代带来的的挑战不不仅体现现在如何何处理巨巨量数据据从中获获取有价价值的信信息,也也体现在在如何加加强大数数据技术术研发,抢占时时代发展展的前沿沿。大数据技

36、技术发展展大数据技技术描述述了一种种新一代代技术和和构架,用于以以很经济济的方式式、以高高速的捕捕获、发发现和分分析技术术,从各各种超大大规模的的数据中中提取价价值,而而且未来来急剧增增长的数数据迫切切需要寻寻求新的的处理技技术手段段。如图图三所示示:图三在“大数数据”(Biig ddataa)时代代,通过过互联网网、社交交网络、物联网网,人们们能够及及时全面面地获得得大信息息。同时时,信息息自身存存在形式式的变化化与演进进,也使使得作为为信息载载体的数数据以远远超人们们想象的的速度迅迅速膨胀胀。云时代的的到来使使得数据据创造的的主体由由企业逐逐渐转向向个体,而个体体所产生生的绝大大部分数数据

37、为图图片、文文档、视视频等非非结构化化数据。信息化化技术的的普及使使得企业业更多的的办公流流程通过过网络得得以实现现,由此此产生的的数据也也以非结结构化数数据为主主。预计计到20012年年,非结结构化数数据将达达到互联联网整个个数据量量的755%以上上。用于于提取智智慧的“大数据据”,往往往是这些些非结构构化数据据。传统统的数据据仓库系系统、BBI、链链路挖掘掘等应用用对数据据处理的的时间要要求往往往以小时时或天为为单位。但“大数据据”应用突突出强调调数据处处理的实实时性。在线个个性化推推荐、股股票交易易处理、实时路路况信息息等数据据处理时时间要求求在分钟钟甚至秒秒级。全球技术术研究和和咨询公

38、公司Gaartnner将将“大数据据”技术列列入20012年年对众多多公司和和组织机机构具有有战略意意义的十十大技术术与趋势势之一,而其他他领域的的研究,如云计计算、下下一代分分析、内内存计算算等也都都与“大数据据”的研究究相辅相相成。GGarttnerr在其新新兴技术术成熟度度曲线中中将“大数据据”技术视视为转型型技术,这意味味着“大数据据”技术将将在未来来35年内内进入主主流。而 “大大数据”的多样样性决定定了数据据采集来来源的复复杂性,从智能能传感器器到社交交网络数数据,从从声音图图片到在在线交易易数据,可能性性是无穷穷无尽的的。选择择正确的的数据来来源并进进行交叉叉分析可可以为企企业创

39、造造最显著著的利益益。随着着数据源源的爆发发式增长长,数据据的多样样性成为为“大数据据”应用亟亟待解决决的问题题。例如如如何实实时地及及通过各各种数据据库管理理系统来来安全地地访问数数据,如如何通过过优化存存储策略略,评估估当前的的数据存存储技术术并改进进、加强强数据存存储能力力,最大大限度地地利用现现有的存存储投资资。从某某种意义义上说,数据将将成为企企业的核核心资产产。“大数据据”不仅是是一场技技术变革革,更是是一场商商业模式式变革。在“大数据据”概念提提出之前前,尽管管互联网网为传统统企业提提供了一一个新的的销售渠渠道,但但总体来来看,二二者平行行发展,鲜有交交集。我我们可以以看到,无论

40、是是Goooglee通过分分析用户户个人信信息,根根据用户户偏好提提供精准准广告,还是FFaceeboook将用用户的线线下社会会关系迁迁移在线线上,构构造一个个半真实实的实名名帝国,但这些些商业和和消费模模式仍不不能脱离离互联网网,传统统企业仍仍无法嫁嫁接到互互联网中中。同时时,传统统企业通通过传统统的用户户分析工工具却很很难获得得大范围围用户的的真实需需求。企业从大大规模制制造过渡渡到大规规模定制制,必须须掌握用用户的需需求特点点。在互互联网时时代,这这些需求求特征往往往是在在用户不不经意的的行为中中透露出出来的。通过对对信息进进行关联联、参照照、聚类类、分类类等方法法分析,才能得得到答案

41、案。“大数据据”在互联联网与传传统企业业间建立立一个交交集。它它推动互互联网企企业融合合进传统统企业的的供应链链,并在在传统企企业种下下互联网网基因。传统企企业与互互联网企企业的结结合,网网民和消消费者的的融合,必将引引发消费费模式、制造模模式、管管理模式式的巨大大变革。大数据正正成为IIT行业业全新的的制高点点,各企企业和组组织纷纷纷助推大大数据的的发展,相关技技术呈现现百花齐齐放局面面,并在在互联网网应用领领域崭露露头角,具体情情况如下下图四所所示:图四大数据将将带来巨巨大的技技术和商商业机遇遇,大数数据分析析挖掘和和利用将将为企业业带来巨巨大的商商业价值值,而随随着应用用数据规规模急剧剧

42、增加,传统计计算面临临严重挑挑战,大大规模数数据处理理和行业业应用需需求日益益增加和和迫切出出现越来来越多的的大规模模数据处处理应用用需求,传统系系统难以以提供足足够的存存储和计计算资源源进行处处理,云云计算技技术是最最理想的的解决方方案。调调查显示示:目前前,ITT专业人人员对云云计算中中诸多关关键技术术最为关关心的是是大规模模数据并并行处理理技术大大数据并并行处理理没有通通用和现现成的解解决方案案对于应应用行业业来说,云计算算平台软软件、虚虚拟化软软件都不不需要自自己开发发,但行行业的大大规模数数据处理理应用没没有现成成和通用用的软件件,需要要针对特特定的应应用需求求专门开开发,涉涉及到诸

43、诸多并行行化算法法、索引引查询优优化技术术研究、以及系系统的设设计实现现,这些些都为大大数据处处理技术术的发展展提供了了巨大的的驱动力力,大数据应应用大数据应应用阐述述大数据能能做什么么?我们们那么多多地方探探讨大数数据,无无非总结结下来就就做三件件事:第一,对对信息的的理解。你发的的每一张张图片、每一个个新闻、每一个个广告,这些都都是信息息,你对对这个信信息的理理解是大大数据重重要的领领域。第二,用用户的理理解,每每个人的的基本特特征,你你的潜在在的特征征,每个个用户上上网的习习惯等等等,这些些都是对对用户的的理解。第三,关关系。关关系才是是我们的的核心,信息与与信息之之间的关关系,一一条微

44、博博和另外外一条微微博之间间的关系系,一个个广告和和另外一一个广告告的关系系。一条条微博和和一个视视频之间间的关系系,这些些在我们们肉眼去去看的时时候是相相对简单单的。比如有条条微博说说这两天天朝鲜绑绑架我们们船的事事,那条条微博也也大概是是谈这件件事的。人眼一一眼就能能看出来来。但是是用机器器怎么能能看出来来这是一一件事,以及他他们之间间的因果果关 系系,这是是很有难难度的。然后就就是用户户与用户户之间的的关系。哪些人人你愿意意收听,是你的的朋友,哪些是是你感兴兴趣的领领域,你你是一个个音乐达达人,你你是一个个吃货,那个用用户也 是一个个吃货,你愿意意收听他他。这就就是用户户与用户户之间的的

45、关系理理解。还还有用户户与信息息之间的的理解,就是你你对哪一一类型的的微博感感兴趣,你对哪哪一类型型的信息息感兴趣趣,如果果 牵扯扯到商业业化,你你对哪一一类的广广告或者者商品感感兴趣。其实就就是用户户与信息息之间的的关系,他无非非是做这这件事。大数据说说的那么么悬,其其实主要要是做三三件事:对用户户的理解解、对信信息的理理解、对对关系的的理解。如果我我们在这这三件事事之间还还要提一一件事的的话,一一个叫趋趋势。 他也是是关系的的一种变变种,只只是关系系稍微远远一点,情感之之间的分分析,还还有我们们政府部部门做的的舆情监监控。他他可以监监控大规规模的数数据,可可以分析析出人的的动向。在美国国的

46、好莱莱 坞,这两年年也是基基于FAACEBBOOKK和TIIWTTTER的的数据来来预测即即将上映映的电影影的票房房。他也也是一个个趋势的的分析,只是我我们把这这个趋势势提前来来。核心心就是这这三件事事。大数据应应用架构构大数据行行业应用用医疗行业业Setoon HHeallthccaree是采用用IBMM最新沃沃森技术术医疗保保健内容容分析预预测的首首个客户户。该技技术允许许企业找找到大量量病人相相关的临临床医疗疗信息,通过大大数据处处理,更更好地分分析病人人的信息息。在加拿大大多伦多多的一家家医院,针对早早产婴儿儿,每秒秒钟有超超过30000次次的数据据读取。通过这这些数据据分析,医院能能

47、够提前前知道哪哪些早产产儿出现现问题并并且有针针对性地地采取措措施,避避免早产产婴儿夭夭折。它让更多多的创业业者更方方便地开开发产品品,比如如通过社社交网络络来收集集数据的的健康类类Appp。也许许未来数数年后,它们搜搜集的数数据能让让医生给给你的诊诊断变得得更为精精确,比比方说不不是通用用的成人人每日三三次一次次一片,而是检检测到你你的血液液中药剂剂已经代代谢完成成会自动动提醒你你再次服服药。能源行业业智能电网网现在欧欧洲已经经做到了了终端,也就是是所谓的的智能电电表。在在德国,为了鼓鼓励利用用太阳能能,会在在家庭安安装太阳阳能,除除了卖电电给你,当你的的太阳能能有多余余电的时时候还可可以买

48、回回来。通通过电网网收集每每隔五分分钟或十十分钟收收集一次次数据,收集来来的这些些数据可可以用来来预测客客户的用用电习惯惯等,从从而推断断出在未未来23个月月时间里里,整个个电网大大概需要要多少电电。有了了这个预预测后,就可以以向发电电或者供供电企业业购买一一定数量量的电。因为电电有点像像期货一一样,如如果提前前买就会会比较便便宜,买买现货就就比较贵贵。通过过这个预预测后,可以降降低采购购成本。维斯塔斯斯风力系系统,依依靠的是是BiggInssighhts软软件和IIBM超超级计算算机,然然后对气气象数据据进行分分析,找找出安装装风力涡涡轮机和和整个风风电场最最佳的地地点。利利用大数数据,以以

49、往需要要数周的的分析工工作,现现在仅需需要不足足1小时时便可完完成。通信行业业XO CCommmuniicattionns通过过使用IIBM SPSSS预测测分析软软件,减减少了将将近一半半的客户户流失率率。XOO现在可可以预测测客户的的行为,发现行行为趋势势,并找找出存在在缺陷的的环节,从而帮帮助公司司及时采采取措施施,保留留客户。此外,IBMM新的NNeteezzaa网络分分析加速速器,将将通过提提供单个个端到端端网络、服务、客户分分析视图图的可扩扩展平台台,帮助助通信企企业制定定更科学学、合理理决策。电信业者者透过数数以千万万计的客客户资料料,能分分析出多多种使用用者行为为和趋势势,卖给

50、给需要的的企业,这是全全新的资资料经济济。中国移动动通过大大数据分分析,对对企业运运营的全全业务进进行针对对性的监监控、预预警、跟跟踪。系系统在第第一时间间自动捕捕捉市场场变化,再以最最快捷的的方式推推送给指指定负责责人,使使他在最最短时间间内获知知市场行行情。NTT doccomoo把手机机位置信信息和互互联网上上的信息息结合起起来,为为顾客提提供附近近的餐饮饮店信息息,接近近末班车车时间时时,提供供末班车车信息服服务。零售业我们的的某个客客户,是是一家领领先的专专业时装装零售商商,通过过当地的的百货商商店、网网络及其其邮购目目录业务务为客户户提供服服务。公公司希望望向客户户提供差差异化服服

51、务,如如何定位位公司的的差异化化,他们们通过从从 Twwittter 和 FFaceeboook 上上收集社社交信息息,更深深入的理理解化妆妆品的营营销模式式,随后后他们认认识到必必须保留留两类有有价值的的客户:高消费费者和高高影响者者。希望望通过接接受免费费化妆服服务,让让用户进进行口碑碑宣传,这是交交易数据据与交互互数据的的完美结结合,为为业务挑挑战提供供了解决决方案。Innforrmatticaa的技术术帮助这这家零售售商用社社交平台台上的数数据充实实了客户户主数据据,使他他的业务务服务更更具有目目标性。零售企业业也监控控客户的的店内走走动情况况以及与与商品的的互动。它们将将这些数数据与

52、交交易记录录相结合合来展开开分析,从而在在销售哪哪些商品品、如何何摆放货货品以及及何时调调整售价价上给出出意见,此类方方法已经经帮助某某领先零零售企业业减少了了17%的存货货,同时时在保持持市场份份额的前前提下,增加了了高利润润率自有有品牌商商品的比比例。大数据解解决方案案大数据技技术组成成大数据技技术由四四种技术术构成,它们包包括:分析技术术分析技术术意味着着对海量量数据进进行分析析以实时时得出答答案,由由于大数数据的特特殊性,大数据据分析技技术还处处于发展展阶段,老技术术会日趋趋完善,新技术术会更多多出现。大数据据分析技技术涵盖盖了以下下的的五五个方面面可视化分分析数据可视视化无论论对于普

53、普通用户户或是数数据分析析专家,都是最最基本的的功能。数据图图像化可可以让数数据自己己说话,让用户户直观的的感受到到结果。数据挖掘掘算法图像化化是将机机器语言言翻译给给人看,而数据据挖掘就就是机器器的母语语。分割割、集群群、孤立立点分析析还有各各种各样样五花八八门的算算法让我我们精炼炼数据,挖掘价价值。这这些算法法一定要要能够应应付大数数据的量量,同时时还具有有很高的的处理速速度。预测分析析能力数据挖掘掘可以让让分析师师对数据据承载信信息更快快更好地地消化理理解,进进而提升升判断的的准确性性,而预预测性分分析可以以让分析析师根据据图像化化分析和和数据挖挖掘的结结果做出出一些前前瞻性判判断。语义

54、引擎擎非结构化化数据的的多元化化给数据据分析带带来新的的挑战,我们需需要一套套工具系系统的去去分析,提炼数数据。语语义引擎擎需要设设计到有有足够的的人工智智能以足足以从数数据中主主动地提提取信息息。数据质量量和数据据管理数据质量量与管理理是管理理的最佳佳实践,透过标标准化流流程和机机器对数数据进行行处理可可以确保保获得一一个预设设质量的的分析结结果。我们知道道大数据据分析技技术最初初起源于于互联网网行业。网页存存档、用用户点击击、商品品信息、用户关关系等数数据形成成了持续续增长的的海量数数据集。这些大大数据中中蕴藏着着大量可可以用于于增强用用户体验验、提高高服务质质量和开开发新型型应用的的知识

55、,而如何何高效和和准确的的发现这这些知识识就基本本决定了了各大互互联网公公司在激激烈竞争争环境中中的位置置。首先先,以GGooggle为为首的技技术型互互联网公公司提出出了MaapReeducce的技技术框架架,利用用廉价的的PC服服务器集集群,大大规模并并发处理理批量事事务。利用文件件系统存存放非结结构化数数据,加加上完善善的备份份和容灾灾策略,这套经经济实惠惠的大数数据解决决方案与与之前昂昂贵的企企业小型型机集群群+商业业数据库库方案相相比,不不仅没有有丢失性性能,而而且还赢赢在了可可扩展性性上。之之前,我我们在设设计一个个数据中中心解决决方案的的前期,就要考考虑到方方案实施施后的可可扩展

56、性性。通常常的方法法是预估估今后一一段时期期内的业业务量和和数据量量,加入入多余的的计算单单元(CCPU)和存储储,以备备不时只只需。这样的方方式直接接导致了了前期一一次性投投资的巨巨大,并并且即使使这样也也依然无无法保证证计算需需求和存存储超出出设计量量时的系系统性能能。而一一旦需要要扩容,问题就就会接踵踵而来。首先是是商业并并行数据据库通常常需要各各节点物物理同构构,也就就是具有有近似的的计算和和存储能能力。而而随着硬硬件的更更新,我我们通常常加入的的新硬件件都会强强于已有有的硬件件。这样样,旧硬硬件就成成为了系系统的瓶瓶颈。为为了保证证系统性性能,我我们不得得不把旧旧硬件逐逐步替换换掉,

57、经经济成本本损失巨巨大。其其次,即即使是当当前最强强的商业业并行数数据库,其所能能管理的的数据节节点也只只是在几几十或上上百这个个数量级级,这主主要是由由于架构构上的设设计问题题,所以以其可扩扩展性必必然有限限。而MMapRReduuce+GFSS框架,不受上上述问题题的困扰扰。需要要扩容了了,只需需增加个个机柜,加入适适当的计计算单元元和存储储,集群群系统会会自动分分配和调调度这些些资源,丝毫不不影响现现有系统统的运行行存储数据据库存储数据据库(IIn-MMemoory Dattabaasess)让信信息快速速流通,大数据据分析经经常会用用到存储储数据库库来快速速处理大大量记录录的数据据流通

58、。比方说说,它可可以对某某个全国国性的连连锁店某某天的销销售记录录进行分分析,得得出某些些特征进进而根据据某种规规则及时时为消费费者提供供奖励回回馈。但传统的的关系型型数据库库严格的的设计定定式、为为保证强强一致性性而放弃弃性能、可扩展展性差等等问题在在大数据据分析中中被逐渐渐暴露。随之而而来,NNoSQQL数据据存储模模型开始始风行。NoSSQL,也有人人理解为为Nott Onnly SQLL,并不不是一种种特定的的数据存存储模型型,它是是一类非非关系型型数据库库的统称称。其特特点是:没有固固定的数数据表模模式、可可以分布布式和水水平扩展展。NooSQLL并不是是单纯的的反对关关系型数数据库

59、,而是针针对其缺缺点的一一种补充充和扩展展。典型型的NooSQLL数据存存储模型型有文档档存储、键-值值存储、图存储储、对象象数据库库、列存存储等NoSSQL数数据库是是一种建建立在云云平台的的新型数数据处理理模式,NoSSQL在在很多情情况下又又叫做云云数据库库。由于于其处理理数据的的模式完完全是分分布于各各种低成成本服务务器和存存储磁盘盘,因此此它可以以帮助网网页和各各种交互互性应用用快速处处理过程程中的海海量数据据。它为为Zynnga、AOLL、Ciiscoo以及其其它一些些企业提提供网页页应用支支持。正正常的数数据库需需要将数数据进行行归类组组织,类类似于姓姓名和帐帐号这些些数据需需要

60、进行行结构化化和标签签化。但但是NooSQLL数据库库则完全全不关心心这些,它能处处理各种种类型的的文档。在处理海海量数据据同时请请求时,它也不不会有任任何问题题。比方方说,如如果有110000万人同同时登录录某个ZZyngga游戏戏,它会会将这些些数据分分布于全全世界的的服务器器并通过过它们来来进行数数据处理理,结果果与1万万人同时时在线没没什么两两样。现现今有多多种不同同类型的的NoSSQL模模式。商商业化的的模式如如Couuchbbasee、100genn的moongooDB以以及Orraclle的NNoSQQL;开开源免费费的模式式如CoouchhDB和和Casssanndraa;还有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论