版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【计算机论文】分析:挖掘机和“改变世界的”大数据公司们
什么是“改变世界”的大数据公司近两周硅谷两场规模比较大的demo大会上,就有十多家自称做大数据的startups,有做消费者行为的,有做体育分析的,有做NGO融资的,有做环保的,有做UX的,有做信贷评级的,当然还少不了做移动端广告的。乍看都是高大上的产品,但仔细琢磨一下会发现一些没那么高大上的细节。比如,有一家介绍时候说"Bringsbigdatatoteams,mediaandfans",用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的,demo的哥们表示他们请了一些人看视频的。没错,是人工。自然地,下一个问题就是:未来如何扩张以应对来自不同体育项目大量的全长录像?他的回答也很简单,雇佣更多人。听完我懵了一下,问,那打算如何利用收集的数据呢?答曰:开放API,自己不做分析。那么,说好的大数据呢?难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?是,但也不是。先归纳了一下硅谷“大数据公司”的类型,有补充或修正的请拍砖:数据的拥有者、数据源:特点是业务优势能收集到大量数据,就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型,比如VantageSports和收集了PB级数据的包子铺。大数据咨询:特点是非常技术,提供从基础设施规划建设维护到软件开发和数据分析等的服务,但不拥有数据,比如Cloudera这家不到500人的startup是最著名的Hadoop架构咨询公司。做大数据工具的:比如AMPLab出来的Databricks和Yahoo人主导的Hortonworks。整合应用型:特点是收集拥有或购买一些数据,然后结合AI来解决更多实际的痛点。所以回答之前的问题:是,因为包子铺只要收集的消费者数据量够大就能成为数据拥有者,有那么大的数据就有得到洞见的可能;不是,因为可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。对,我相信未来是AI的,而AI的食物是数据。就像很多产业链一样,最困难且最有价值的创新往往发生在接近最终用户的那端,比如iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用AI进行分析的能力会变得更为关键。再看硅谷主打AI的公司,现在大致可以分成以下三类了:1.分析用户行为,改进产品和营销的,比如LinkedIn的推荐系统和用iBeacon实现店内营销;2.统筹大量分散个体,利用大数据实现精确有效的预测和规划的,比如Uber和前段时间出现的AmazonFresh及GrubMarket;3.分析识别各种类型的数据,开发更智能的设备和程序,比如Google大脑及无人车和以Nest为代表的智能设备等。这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是最有希望改变世界的。这样的大数据公司需要什么样的人那么大数据公司,或者说到真正可以改变世界的大数据公司需要什么样的人才呢?这里要介绍一个在硅谷被炒得很热的高频词汇:数据科学家。这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取,那是数据工程师的活。那产生的原因是什么呢?正是为了匹配上面第四种公司的需要。数据是AI当中不可分割的一部分,而且量越大越好,从数学上来说,数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中,也就是说机器学习的效果越来越好,AI越来越智能。由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学,到算法的选择优化,再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分startup已经把它当成是必需品了,以至于刚入行的新人也能领到差不多$100K的薪水。而模糊的定义和误解也让有的人戏称,datascientistisadataanalystlivinginthebayarea。值得一提的是,数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面:数据量的急速增长。如今,数据的产生变得异常容易。社交网络,移动应用,几乎所有的互联网相关产品每时每刻都在产生众多数据。传统的集中储存计算方式显然无法处理如此庞大的数据量。这时,我们就需要新的储存方式,如云储存,以及新的处理方案,如Hadoop这样的分布计算平台。数据本身的非结构化。在传统的数据处理领域,我们处理的主要是结构化数据,例如,Excel表格可以显示量化数据等。而如今我们面对着越来越多的非结构化数据,如社交网络的评论,用户上传的音频视频等。这些数据存在于包括文本、图片、视频、音频等众多的数据格式中,这些数据中隐含着众多有价值的信息,但这些信息却需要深度的计算才可以分析出来。这就需要我们利用智能化分析、图像识别等等一系列新的算法来进行数据挖掘,这也就是“大数据”的挑战所在。目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网这块。现在智能设备们才刚刚起步,Nest、被Nest收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候,他们的相互关系在各种维度上的交错会产生一张巨大的网络,其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向,即SocialPhysics。不过按照从硅谷到全国的速度,感觉不管哪一方面的普及起码得等上五年以上的时间。展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。硅谷公司的大数据运行现状目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除Facebook等几个很领先的公司外,大部分公司要么还没有能力自行处理数据,要么就是正在建立单独的数据处理部门,主要负责从数据基本处理到后期分析的各个环节,然后再送到公司内部的其他部门。对于这些公司来说,建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说,Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今,Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn大数据部门的建设也已花了整整六年。普遍来说,各公司自主建立数据处理平台存在着几个难点:没有足够优秀的数据工程师来组建团队没有足够能力整合数据没有易于操作的基础软硬件来支持数据分析这几个主要难点使得大数据分析越来越专业化、服务化,以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存,数据分析平台建立,到数据分析,数据可视化等等各个环节的成本越来越高,这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务,而将更多的人才和资源放到核心业务的开发上。另外,就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果,也需要数据处理可以self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程,也给众多的大数据公司提供了机会。硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧,被炒得很热。但这种激情和关注某个程度上讲正是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年精密加工检测设备项目发展计划
- 2024年度个人固定资产借款合同解除条件2篇
- 2024年工程机械设备操作及维护承包协议一
- 2024年商品独家代理包销合同样本版B版
- 2024年度企业员工技能培训服务合同版B版
- 2024年工业级PVC管材订货销售协议样本版B版
- 水电工程2024年度施工材料采购合同2篇
- 食堂档口租赁合同(2024年版)9篇
- 2024年度家居软装搭配合同3篇
- 2024年度养老机构食堂食材供货合同5篇
- 2023年028:机械阻抗的测量
- 国开C语言程序设计形考任务2
- 2022年国家开放大学《经济学基础》形考任务1-4
- 危险性较大(超过一定规模)的分部分项工程清单
- 平面解析几何复习建议
- 浙江2018定额说明书土建
- 基于LabVIEW的多通道数据采集系统(毕业论文)
- T-CMEA 23-2021 城市深层排水隧道工程技术标准
- 有限空间作业及应急物资清单
- 朝花夕拾狗猫鼠赏析
- 吊笼有垂直导向的人货两用施工升降机
评论
0/150
提交评论