数据基础知识及数据处理_第1页
数据基础知识及数据处理_第2页
数据基础知识及数据处理_第3页
数据基础知识及数据处理_第4页
数据基础知识及数据处理_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据处理(从小数据到大数据)一、小数据1、信息的度量在计算机中:最小数据单位:位(bit)Bit:0或1(由电的状态产生:有电1,无电0)基本数据单位:字节(Byte,B)1B=8bit1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB。2、不同数制的表示方法十进制(Decimalnotation),如120,(120)10,120D二进制(Binarynotation),如(1010)2,1010B八进制(Octalnotation),如(175)8,175O十六进制数(Hexdecimalnotation),如(2BF)16,2BF03H

十进制数二进制数八进制数十六进制数000011112102231133410044510155611066711177810001089100111910101012A11101113B12110014C13110115D14111016E15111117F161000020103、不同数制之间的转换方法任意其他进制(二、八、十六)转换成十进制,可“利用按权展开式展开”。例如:10110.101B=1X24+0X23+1X22+1X21+0X20+1X2-1+0X2-2+1X2-3=22.625D347.6O=3X82+4X81+7X80+6X8-1=231.75DD5.6H=DX161+5XI60+6X16-1=213.375D(2)十进制转换成任意其他进制(二、八、十六),整数部分的转换可按“除基取余,倒序排列”的方法,小数部分的转换可按“乘基取整,顺序排列”的方法(除倒取,乘正取)例,十进制数59转换为二进制数111011B例:十进制数0.8125转换为二进制数0.1101B同理:317D=100111101B=475O例:十进制数0.8125转换为二进制数0.1101B同理:317D=100111101B=475O=13DH(3)八进制数转换成二进制数可按“逐位转换,一位拆三位的方法。(8421法)例如:3107.4603107=011001000111=011001000111.100110B(4)十六进制数转换成二进制数,可按“逐位转换,一位拆四位”的方法(8421法)例如:4A7.1CH=4A7.1CH=010010100111.00011100B=10010100111.000111B(5)二进制数转换成八进制数,可按“三位合一位,分节转换的方法(8421法,三位时为/21法)例如:11010101.1101B=011010101.110100B=325.64O=325.64O(6)二进制数转换成十六进制数可按“四位合一位,分节转换”的方法。例如:1011010101.11101B=001011010101.11101000B=2D5.E8H=2D5.E8H二、大数据大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据特征:(Volume大量)、(Variety多样)(Velocity高速)、(Value(价值)核心特征)(—)Volume(大量,>1PB)1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BBm^W357GGB(二)Variety(多样)在大数据这个房间里,住着各种各样的“人”,它们分别叫做视频、聊天记录、人口普查结果、天气预报……(三)Velocity(高速)以一个存储1PB的数据为例,即使带宽(网速)能达到1G/s,且电脑的容量足够且24小时运行,要将1PB的数据存入电脑也需要12天。大数据通过云计算,可以实现将12天才能存储完毕的数据,在20分钟之内完成。渚旧存注个黑爱穿会7需要3天20分钟4、Value(价值)这是大数据的核心特征,其最大价值在于从大量不相关的各类数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习(MachineLearning)、人工智能(ArtificialIntelligenc©或数据挖掘(DataMining)等方法深度分析,发现新规律和新知识,并运用于社会各领域,从而达到改善社会治理、提高生产效率、推进科学研究的效果。云计算云计算,作为一个新兴的技术时尚名词,正受到计算机软件和互联网技能人员及商业模式研究人员的高度追捧,他们百折不回地认为云计算能把他们带出创新枯竭的互联网应用沙漠,并让他们跃升到同行中更高的岗位。他们视其为救命稻草,他们计划抓住云计算这根看起来模模糊糊的稻草,正是如此,云计算文章铺天盖地,种种格局的研讨会此起彼伏,以致已经生长到以讹传讹、神乎其神、不能自拔的田地了。到底什么才是云计算呢?来看看下面这段对话吧!最开始,人们使用算盘后来,人们用电脑再后来,人们有了网络就匡-号:cluud_zrclLl网再后来,中国人口大爆炸,男女比例:男的比女的多3700万,这三千多万人没事干,都去上网。于是服务器吃不消了。于是人们就发明了很牛的技术,用更好更多的服务器再后来,人更多了,于是服务器也更多了但事实上这样的效果并不好,过度繁重的结构加大了网站设计和构架的难度,而且越是复杂的系统越是不稳定。有可能一个出问题,这样一个完整的系统就彻底挂掉。如果考虑到系统的崩溃情况,那势必要引入一个更复杂的方案来保证不同的服务器可以做不同的支援。这是一个无解的循环,大量的计算资源被浪费在无限制的互相纠结中,很快到了瓶颈。-L翎房号:口心•囹人们想,那我不用这么乱七八糟复杂的系统,我上个极其牛的服务器不就好了?可是,太贵了……而且最牛的也还没制造出来……于是人们突然想到了一个好办法:把所有计算资源集结起来看成是一个整体(一朵云),通过并发使用资源完成操作请求。每个操作请求都可以按照一定的规则分割成小片段,分发给不同的机器同时运算,每个机器其实只要做很小的计算就可以,哪怕286机器都轻松完成的。最后将这些机器的计算结果整合,输出给用户。对用户看来,他其实根本面对的不是许多机器,而是一个似乎真正存在的计算能力巨牛无比的单个服务器。事实上这个服务器是不存在的,但它拥有着成千上万台服务器的能力。大数据技术基础知识大数据的概念“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用,已逐渐成为行业人士争相追捧的利润焦点。早在1980年,著名未来学家阿尔文•托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和或虚拟化技术。随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台一并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。对于“大数据”,研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。大数据的特征大数据的4个“V”,或者说特点有四个层面:(1)数据体量巨大从TB级别,跃升到PB级别。最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算。1Byte=8bit1KB=1024Bytes1MB=1024KB=1048576Bytes1GB=1024MB=1048576KB1TB=1024GB=1048576MB1PB=1024TB=1048576GB1EB=1024PB=1048576TB1ZB=1024EB=1048576PB1YB=1024ZB=1048576EB1BB=1024YB=1048576ZB1NB=1024BB=1048576YB1DB=1024NB=1048576BB(2)数据类型繁多诸如网络日志、视频、图片、地理位置信息等。(3)价值密度低,商业价值高以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。(4)处理速度快1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”一Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。数据与机遇众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式等,所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊人新视角和机会。数据属于所有人有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数据科学家和高级开发员的天下。数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出竞争优势。数据就是机遇自从有了IT部门,董事会就一直在要求信息管理专家提供洞察力。实际上,早在1951年,对预测小吃店蛋糕需求的诉求就催生了计算机的首次商业应用。自那以后,我们利用技术来识别趋势和制定战略战术的能力不断呈指数级日臻完善。今天,商业智能(使用数据模式看清曲线周围的一切)稳居CXO们的重中之重。在理想的世界中,IT是巨大的杠杆,改变了公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。大数据分析是商业智能的演进。当今,传感器、GPS系统、QR码、社交网络等正在创建新的数据流。所有这些都可以得到发掘,正是这种真正广度和深度的信息在创造不胜枚举的机会。要使大数据言之有物,以便让大中小企业都能通过更加贴近客户的方式取得竞争优势,数据集成和数据管理是核心所在。面临从全球化到衰退威胁的风暴,IT部门领导需要在掘金大数据中打头阵,新经济环境中的赢家将会是最好地理解哪些指标影响其大步前进的人。当然,企业仍将需要聪明的人员做出睿智的决策,了解他们面临着什么,在充分利用的情况下,大数据可以赋予人们近乎超感官知觉的能力。CharlesDuigg是《习惯的力量》一书的作者,他找出的一个黄金案例分析的例子是美国零售商Target,其发现妇女在怀孕的中间三个月会经常购买没有气味的护肤液和某些维生素。通过锁定这些购物者,商店可提供将这些妇女变成忠诚客户的优惠券。实际上,Target知道一位妇女怀孕时,那位妇女甚至还没有告诉最亲近的亲朋好友,更不要说商店自己了。很明显,在可以预见的将来,隐私将仍是重要的考量,但是归根结底,用于了解行为的技术会为方方面面带来双赢,让卖家了解买家,让买家喜欢买到的东西。再看一下作家兼科学家StephenWolfram的例子,他收集有关自身习惯的数据,以分析他的个人行为,预测事件在未来的可能性。大数据将会放大我们的能力,了解看起来难以理解和随机的事物。对其前途的了解提供了获取崭新知识和能力的机会,将改变您的企业运作的方式。数据回报率简而言之,企业可以通过思考数据战略的总体回报,来应对大数据的挑战,抓住大数据的机会。Informatica所指的“数据回报率”,是为帮助高级IT和业务部门领导者进行大数据基本的战术和战略含义的讨论而设计的一个简单概念。等式非常简单:如果您提高数据对于业务部门的价值,同时降低管理数据的成本,从数据得到的回报就会增加,无论是用金钱衡量,还是更好的决策。数据回报率=数据价值/数据成本在技术层面,数据回报率为数据集成、数据管理、商业智能和分析方面的投入提供了业务背景和案例。它还与解决业务的基础有关:挣钱、省钱、创造机会和管理风险。它涉及对效率的考虑,同时推动了改变游戏规则的洞察力。云计算基础知识云计算的概念云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式。美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务等),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。“云计算”概念被大量运用到生产环境中,国内的“阿里云”与云谷公司的XenSystem,以及在国外已经非常成熟的Intel和IBM,各种“云计算”的服务范围正日渐扩大,影响力也无可估量。云计算常与网格计算、效用计算、自主计算相混淆。网格计算:分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机,常用来执行一些大型任务;效用计算:IT资源的一种打包和计费方式,比如按照计算、存储分别计量费用,像传统的电力等公共设施一样;自主计算:具有自我管理功能的计算机系统。事实上,许多云计算部署依赖于计算机集群(但与网格的组成、体系结构、目的、工作方式大相径庭),也吸收了自主计算和效用计算的特点。云计算由一系列可以动态升级和被虚拟化的资源组成,这些资源被所有云计算的用户共享并且可以方便地通过网络访问,用户无需掌握云计算的技术,只需要按照个人或者团体的需要租赁云计算的资源。继个人计算机变革、互联网变革之后,云计算被看作第三次IT浪潮,是中国战略性新兴产业的重要组成部分。它将带来生活、生产方式和商业模式的根本性改变,云计算将成为当前全社会关注的热点。云计算(CloudComputing)是分布式计算(DistributedComputing)>并行计算(ParallelComputing)、效用计算(UtilityComputing)、网络存储(NetworkStorageTechnologies)、虚拟化(Virtualization)、负载均衡(LoadBalance)等传统计算机和网络技术发展融合的产物。云计算的特征通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。好比是从古老的单台发电机模式转向了电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。互联网上的云计算服务特征和自然界的云、水循环具有一定的相似性,因此,云是一个相当贴切的比喻。云计算具有以下几个主要特征:资源配置动态化。根据消费者的需求动态划分或释放不同的物理和虚拟资源,当增加一个需求时,可通过增加可用的资源进行匹配,实现资源的快速弹性提供;如果用户不再使用这部分资源时,可释放这些资源。云计算为客户提供的这种能力是无限的,实现了IT资源利用的可扩展性。需求服务自助化。云计算为客户提供自助化的资源服务,用户无需同提供商交互就可自动得到自助的计算资源能力。同时云系统为客户提供一定的应用服务目录,客户可采用自助方式选择满足自身需求的服务项目和内容。以网络为中心。云计算的组件和整体构架由网络连接在一起并存在于网络中,同时通过网络向用户提供服务。而客户可借助不同的终端设备,通过标准的应用实现对网络的访问,从而使得云计算的服务无处不在。资源的池化和透明化。对云服务提供者而言,各种底层资源(计算、储存、网络、资源逻辑等)的异构性(如果存在某种异构性)被屏蔽,边界被打破,所有的资源可以被统一管理和调度,成为所谓的“资源池”,从而为用户提供按需服务;对用户而言,这些资源是透明的,无限大的,用户无须了解内部结构,只关心自己的需求是否得到满足即可。云安全云安全(CloudSecurity)是一个从“云计算”演变而来的新名词。云安全的策略构想是:使用者越多,每个使用者就越安全,因为如此庞大的用户群,足以覆盖互联网的每个角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。“云安全”通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到Server端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。云应用云物联应用云计算和物联网之间的关系可以用一个形象的比喻来说明:“云计算”是“互联网”中的神经系统的雏形,“物联网”是“互联网”正在出现的末梢神经系统的萌芽。随着物联网业务量的增加,对数据存储和计算量的需求将带来对'云计算”能力的要求:第一,云计算从计算中心到数据中心在物联网的初级阶段,POP即可满足需求;第二,在物联网高级阶段,可能出现MVNO/MMO营运商(国外已存在多年),需要虚拟化云计算技术,SOA等技术的结合实现互联网的泛在服务:TaaS(TestingAsAService)云存储应用云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。云呼叫应用云呼叫中心是基于云计算技术而搭建的呼叫中心系统,企业无需购买任何软、硬件系统,只需具备人员、场地等基本条件,就可以快速拥有属于自己的呼叫中心,软硬件平台、通信资源、日常维护与服务由服务器商提供。具有建设周期短、投入少、风险低、部署灵活、系统容量伸缩性强、运营维护成本低等众多特点;无论是电话营销中心、客户服务中心,企业只需按需租用服务,便可建立一套功能全面、稳定、可靠、座席可分布全国各地,全国呼叫接入的呼叫中心系统。私有云应用私有云(PrivateCloud)是将云基础设施与软硬件资源创建在防火墙内,以供机构或企业内各部门共享数据中心内的资源。创建私有云,除了硬件资源外,一般还有云设备(IaaS)软件;现时商业软件有VMware的vSphere和PlatformComputing的ISF,开放源代码的云设备软件主要有Eucalyptus和OpenStack。至2013年可以提供私有云的平台有:Eucalyptus、3ACloud、联想网盘和OATOS企业网盘等。云游戏应用云游戏是以云计算为基础的游戏方式,在云游戏的运行模式下,所有游戏都在服务器端运行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论