




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上精选优质文档-倾情为你奉上专心-专注-专业专心-专注-专业精选优质文档-倾情为你奉上专心-专注-专业对大数据的心得体会早在 XX 年,人类制造的信息量有史以来第一次在理论 上超过可用存储空间总量,近几年两者的剪刀差越来越大。XX年,全球数字规模首次达到了“ ZB”级别。XX年,淘宝 网每天在线商品数超过 8亿件。XX年底,中国手机网民超过 6 亿户。随着互联网、移动互联网、传感器、物联网、社交 网站、云计算等的兴起,我们这个社会的几乎所有方面都已 数字化,产生了大量新型、实时的数据。无疑,我们已身处 在大数据的海洋。 有两个重要的趋势使得目前的这个时代 与之前有显著的
2、差别:其一,社会生活的广泛数字化,其产 生数据的规模、复杂性及速度都已远远超过此前的任何时代; 其二,人类的数据分析技术和工艺使得各机构、组织和企业 能够以从前无法达到的复杂度、速度和精准度从庞杂的数据 中获得史无前例的洞察力和预见性。大数据是技术进步的产物,而其中的关键是云技术的进 步。在云技术中, 虚拟化技术乃最基本、 最核心的组成部份。 计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数据在 数据存储、 挖掘、分析和应用分享等方面不仅在技术上可行, 在经济上也可接受。在人类文明史上,人类一直执着探索我们处的世界以及 人类自身,一直试图测量、计量这个世界以及人类自身,试 图找到隐藏其中的深刻
3、关联、运行规律及终极答案。大数据 以其人类史上从未有过的庞大容量、极大的复杂性、快速的 生产及经济可得性,使人类第一次试图从总体而非样本,从 混杂性而非精确性,从相关关系而非因果关系来测量、计量 我们这个世界。人类的思维方式、行为方式及社会生活的诸 多形态正在开始发生新的变化。或许是一场革命性、颠覆性 的变化。从这个意义上讲,大数据不仅是一场技术运动,更 是一次哲学创新。1 大数据的概述大数据的概念大数据是指那些超过传统数据库系统处理能力的数据。 它的数据规模和转输速度要求很高,或者其结构不适合原本 的数据库系统。为了获取大数据中的价值,我们必须选择另 一种方式来处理它。数据中隐藏着有价值的模
4、式和信息,在以往需要相当的 时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企 业都要付高昂的代价才能从大数据中挖掘信息。而当今的各 种资源,如硬件、云架构和开源软件使得大数据的处理更为 方便和廉价。即使是在车库中创业的公司也可以用较低的价 格租用云服务时间了。对于企业组织来讲,大数据的价值体现在两个方面:分 析使用和二次开发。对大数据进行分析能揭示隐藏其中的信 息,例如零售业中对门店销售、地理和社会信息的分析能提 升对客户的理解。对大数据的二次开发则是那些成功的网络 公司的长项。例如 Facebook 通过结合大量用户信息,定制 出高度个性化的用户体验,并创造出一种新的广告模式。这 种通过
5、大数据创造出新产品和服务的商业行为并非巧合,谷 歌、雅虎、亚马逊和 Facebook,它们都是大数据时代的创新 者。大数据的三层关系第一层关系:数据与机器的关系。大数据纪元刚开始, 产业界碰到的第一个核心问题就是“大”的问题。做了几十 年的数据仓库甚至海量并行处理的数据库都不能处理那么 大的数据,怎么办?需要范式切换。主要有三个方面,新型 的数据与机器关系当中的第一条就是重新考虑架构与算法, 重新考虑舍得,有舍才能得,天下没有免费的午餐,所以必 须要舍弃一些,得到一些新的。必须舍弃贵族化的高端小型 机和UNIX服务器,得到平民化的更大量的X86服务器。通过这样一种可横向、可水平扩展服务器处理每
6、两年翻番的数 据量的挑战。第二个舍得是舍弃硬件的可靠性和可用性,得 到软件的可靠性和可用性。这也就是谷歌三大论文以及 Hadoop的核心重点。第三个舍得是舍弃传统数据库的强一致 性,获得更放松一致性、可扩展架构,如NoSQL第四个舍得是传统算法强调非常严格的精确性,现在要放弃一些精确 性,通过近似、采样这种方式来获得更好的扩展性。最早大数据的处理范式是 Mapreduce 的批量处理,英特尔慢慢有其他的需求,实时的流处理、多迭代的处理、图计 算、即时查询等等新的范式百花齐放,最后万法归宗。刚才 王斌老师将讲的 SAP的HANA本身就是数据管理和分析的融 合,现在非常流行的Hadoop之后的SP
7、AR,就是把前面的各 种范式进行了融合。存储与内存的消长,大数据第一个要解决把数据存储下 来,后来发现要把它放到大的内存里进行处理, 获得实时性, 接着在存储和内存之间现在又出现了闪存,有闪存化甚至全 闪存的存储,也有闪存化的内存,把所有的计算在闪存里面 处理,已经被微软、Facebook等等大量使用。大家可以预期, 两年以后出现新的非易失性的闪存,它的速度可能要比闪存 快几百倍,和内存相似,这又会极大地颠覆数据与机器的关 系。第二层关系:数据与人的关系。主要是价值的觉醒,如 果数据不能产生价值它可能是负面资产。数据怎么能够给人 带来价值?我们介绍一下它的价值维度,把它映射到二维的 时空象限里
8、,用六个关键词来描述它。第一是“Volume”,两个关键词,小数据见微对个人进行刻划,大数据知著能够 了解宏观规律,它是空间概念,同时也是时间概念,数据刚 刚产生的时候,它的个性化价值、见微的价值最大,而随着 时间的推移, 它渐渐退化到只有集合价值。 第二是 Velocity , 时间轴的原点是当下实时价值,副轴是过往,正轴是预测未 来,如果知道知前后就能够做到万物的皆明。 第三是 Variety , 多源异质的数据,能够过滤噪声、查漏补缺、去伪存真,就 是辩讹。还有晓意, 能够从大量的非结构化数据中获得语意, 从而能够使机器窥探人的思维境界,这六个价值维度怎么去 实现?主要是两部分人,一是数
9、据科学家要洞察数据,另外 一个是终端用户和领域专家要去解读数据并利用数据。首先 看洞察数据,数据科学,人和机器作用发生了消长,讲个例 子,机器学习大家觉得是机器的问题,其实人在里面起到很 重要的作用,尤其是机器学习是模型加特征,而特征工程是 一个人力工程,你要有经验非常丰富的特征团队去死磕特征, 找出更好、更多的特征,才能够使机器学习的效果更好。但 是现在深度学习这些新技术出来,能够用机器学习特征,能 够在大量非结构化数据中找到丰富的信息维度用特征表达 出来,这远远超出了人的能力。大家知道黑客帝国描述了一 个场景,人脑袋后面插一个插头,给机器提供营养,我可能 不会那么悲观,但是像这样的互动关系
10、以一种更良性的方式 出现了,现在人的一言一行、社交行为、金融行为都已经成 为机器的养料、机器的数据,使得机器获得更好的洞察。终端用户需要更好地、更傻瓜化的分析工具和可视化工具,两年前我去参加大数据的会, 基本上都是Hadoop和NoSQL现在大家参加大数据会可以看到清一色的分析工具和可视化工具。大数据跟各行各业的化学作用正在发生。如果马化腾说 “互联网 +”是互联网与各行各业的加法效应, 那么大数据将与各行各业产生乘法效应。公共第三个关系,数据与数据的关系。现在只有海面平的数 据是搜索引擎可以检索到,深海的数据可能是黑暗的数据, 在政府、在企业里大家看不到。我们怎么办呢?必须让数据 发现数据。
11、只有让数据能够发现数据、遇到数据,才能产生 金风玉露一相逢、便胜却人间无数的效果。这里有三个重要 的观念,需要法律、技术、经济理论和实践上配合。法律上 要明确数据的权利,数据所有权,数据的隐私权,什么数据 不能给你看;数据的许可权,什么数据是可以给你看的;数 据的审计权,我给你看了以后,你是不是按照许可的范围去 看;数据的分红权。数据像原油又不同于原油,原油用完了 就没有了,数据可以反复地产生价值,因此数据的拥有者应 该得到分红。我们要保证数据的开放、共享、交易。 数据和部分科研数据要开放,开放过程中注意保护隐私。企 业之间可以进行数据的点对点共享,最高境界是不丢失数据 的所有权和隐私权的前提
12、下共享,这里有多方安全计算的概 念。1982 年姚期智老先生提出了百万富翁的窘境的问题, 个百万富翁他们想要比谁更富,但是谁都不愿意说出来自己 都多少钱,在我们的数据共享当中要通过各种各样的技术达 到这样的效果。还有数据交易,建立多边多边平台来支持数据交易互联网能发展起来经济学理论和实践是很重要的支撑, 梅特卡夫定律决定了一个互联网公司的价值,跟它用户数的 平方成正比,又比如说谷歌请最好的经济学家,它的一个广 告业务的核心就是建立在一个非常先进的拍卖经济学的模 型基础上。数据经济也需要这样一些基础的理论,比如数据 定价和信息定价不一样,信息做一个咨询报告 5000 美金卖 给你,可以卖给所有人
13、。但数据对不同的单位价值不一样, 可能我之毒药是彼之蜜糖。另外估值,一个企业拥有大量的 数据,是无形资产的一部分,对于企业的市场价值带来了多 大的增长。大数据的四个特性 大数据是需要新处理模式才能具有更强的决策力、洞察 发现力和流程优化能力的海量、高增长率和多样化的信息资 产。这也是一个描述性的定义,在对数据描述的基础上加入 了处理此类数据的一些特征,用这些特征来描述大数据。当 前,较为统一的认识是大数据有四个基本特征 : 数据规模大 ( Volume) ,数据种类多 ( Variety) ,数据要求处理 速度快 ( Velocity),数据价值密度低 ( Value) ,即所谓的四 V 特性
14、。数据规模大 ( Volume) :企业面临着数据量的大规模增 长。例如,IDC最近的报告预测称,到 2020年,全球数据量将扩大 50 倍。目前,大数据的规模尚是一个不断变化的指 标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备 50GB硬盘的个人电脑。 此外,各种意想不到的来源都能产生数据。数据种类多 ( Variety) :一个普遍观点认为,人们使用 互联网搜索是形成数据多样性的主要原因,这一看法部分正 确。然而,数据多样性的增加主要是由于新型多结构数据, 以及包括网络日志、社交媒体、互联网搜索、手机通话记录 及传感器网络等数据类型造成。其中,部分
15、传感器安装在火 车、汽车和飞机上,每个传感器都增加了数据的多样性。处理速度快 ( Velocity) :高速描述的是数据被创建和 移动的速度。在高速网络时代,通过基于实现软件性能优化 的高速电脑处理器和服务器,创建实时数据流已成为流行趋 势。企业不仅需要了解如何快速创建数据,还必须知道如何 快速处理、分析并返回给用户,以满足他们的实时需求。根 据 IMS Research 关于数据创建速度的调查,据预测, 到 2020年全球将拥有 220 亿部互联网连接设备。数据价值密度低 ( Value) :大数据具有多层结构,这意 味着大数据会呈现出多变的形式和类型。相较传统的业务数 据,大数据存在不规则
16、和模糊不清的特性,造成很难甚至无 法使用传统的应用软件进行分析。传统业务数据随时间演变 已拥有标准的格式, 能够被标准的商务智能软件识别。 目前, 企业面临的挑战是处理并从各种形式呈现的复杂数据中挖 掘价值。大数据的三个特征 除了有四个特性之外,大数据时代的数据还呈现出其他 三个特征。第一个特征是数据类型繁多。包括网络日志、音频、视 频、图片、地理位置信息等等,多类型的数据对数据的处理 能力提出了更高的要求 .第二个特征是数据价值密度相对较低。如随着物联网的 广泛应用, 信息感知无处不在, 信息海量, 但价值密度较低, 如何通过强大的机器算法更迅速地完成数据的价值“提纯” 是大数据时代亟待解决
17、的难题。大数据时代的信息分析平台搭建安装报告一、 平台搭建 描述小组在完成平台安装时候遇到的问题以及如何解 决这些问题的,要求截图加文字描述。问题一:在决定选择网站绑定时,当时未找到网站绑定 的地方。解决办法:之后小组讨论后,最终找到网站绑定的 地方,点击后解决了这个问题。问题二:当时未找到 TCP/IP 属性这一栏解决办法:当时未找到 TCP/IP 属性这一栏,通过老师 的帮助和指导,顺利的点击找到了该属性途径,启用了这一 属性,完成了这一步的安装步骤。问题三:在数据库这一栏中,当时未找到 “ foodmartsaleDW ”这个文件解决办法:在数据库这一栏中,当时未找到 “ foodmar
18、tsaleDW ”这个文件,后来询问老师后,得知该文 件在第三周的文件里,所以很快的找到了该文件,顺利的进 行了下一步问题四:在此处的 SQL server 的导入和导出向导,这 个过程非常的长。解决办法:在此处的 SQL server 的导入和导出向导 ( 出 自: 博 文学习 网: 对大数据的心得体会 ) ,这个过程非常的 长,当时一直延迟到了下课的时间,小组成员经讨论,怀疑 是否是电脑不兼容或其他问题,后来经问老师,老师说此处 的加载这样长的时间是正常的,直到下课后,我们将电脑一 直开着到寝室直到软件安装完为止。问题五:问题二: . 不知道维度等概念,不知道怎么设 置表间关系的数据源。关
19、系方向不对解决办法:百度维度概念,设置好维度表和事实表之间 的关系,关系有时候是反的点击反向,最后成功得到设 置好表间关系后的数据源视图。这个大图当时完全不知道怎么做,后来问的老师,老师边讲边帮我们操作完成的信息时代的到来,我们感受到的是技术变化日新月异, 随之而来的是生活方式的转变,我们这样评论着的信息时代 已经变为曾经。如今,大数据时代成为炙手可热的话题。信息和数据的定义。维基百科解释:信息,又称资讯, 是一个高度概括抽象概念,是一个发展中的动态范畴,是进 行互相交换的内容和名称,信息的界定没有统一的定义,但 是信息具备客观、动态、传递、共享、经济等特性却是大家 的共识。数据:或称资料,指描述事物的符号记录,是可定 义为意义的实体,它涉及到事物的存在形式。它是关于事件 之一组离散且客观的事实描述,是构成信息和知识的原始材 料。数据可分为模拟数据和数字数据两大类。数据指计算机 加工的“原料”,如图形、声音、文字、数、字符和符号等。 从定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国结婚戒指市场调查报告
- 毕业自我鉴定100字左右
- 5 1 平面向量的概念及线性运算 平面向量基本定理及坐标表示(十年高考数学)含答案
- 2025年化工园区安全环保提升工程社会稳定风险评估与风险评估应用报告
- 2025年互联网医疗平台在线问诊质量控制与医疗服务质量评价指标体系研究
- 2025年互联网医疗平台在线问诊平台与患者健康管理服务报告
- 2025年互联网医疗平台在线问诊患者用药安全与依从性质量控制报告
- 2025年一级建造师之一建铁路工程实务过关检测试卷B卷附答案
- 2025年统计师之中级统计师工作实务能力检测试卷A卷附答案
- 2025年互联网金融平台用户信任建立与维护的金融科技安全防护
- 2023年上海青浦区区管企业统一招聘笔试参考题库附带答案详解
- 朗文4B 复习提要及朗文4B单词及句子
- TSGD0012023年压力管道安全技术监察规程-工业管道(高清晰版)
- T-HIS 005-2021 基于窄带物联网(NB-IoT)技术的水表抄表系统
- YC/T 207-2014烟用纸张中溶剂残留的测定顶空-气相色谱/质谱联用法
- SB/T 10977-2013仓储作业规范
- GB/T 18109-2011冻鱼
- 逻辑学概论作业含答案
- 防治水培训课件
- 光谱CT临床应用
- 山东省水利水电工程施工企业安全生产管理三类人员考试题库-上(单选、多选题)
评论
0/150
提交评论