下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、及早发现流感谷歌冇一个名为"谷歌流感趋势"的工具,它通过跟踪搜索词相关数据來判断全美地区的流 感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入"紧 张"级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能 够很好地帮助到疾病眾发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报 告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态。这个工貝工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、 肌肉疼痛、胸闷等),只耍用户输入这些关键
2、词,系统就会展开跟踪分析,创建地区流感图 表和流感地图。谷歌多次把测试结果(蓝线)与美国疾病控制和预防屮心的报告(黄线)做 比对,从下图可知,两者结论存在很人相关性:但它比线下收集的报告强在“时效性”上,因为患者只耍一旦口觉有流感症状,在搜索和去 医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而价格不菲,如果能自己 通过搜索來寻找到一些白我救助的方案,人们就会第一时间使用搜索引擎。故而,还存在一 种可能是,医院或官方收集到的病例只能说明一小部分重病忠者,轻度患者是不会去医院而 成为它们的样木的。这就是-个典型的“大数据”的应用例子, 舍恩们格的这本人数据时代 受到了广泛的赞誉,他木人
3、也因此书被视为人数据领域屮的领军人物。大数据的起源大数据起源于数据的充裕,舍恩伯格在他的另外一本书删除中,提到了这些源头。1、信息的数字化,使得所冇信息都町以得到一个完美的副本;2、存储器越來越廉价,人规模存储这些数字信息成本极低;3、易于提取:数据库技术的完善使得这些存储的信息能够被轻易按照一定的条件搜索出来;4、全球性覆盖,网络是无国界的,a地的数字信息可以让远在天边的b地调用。当我们掌握冇大虽的数据后,便可以开始进行所谓“大数据”的操作。人数据在舍恩伯榕看来,一共具有 大数据的三个特征:全样而非抽样,效率而非精确,相关而非因果。第一个特征非常好理解。1在过去,山于缺乏获取全体样本的手段,
4、人们发明了 “随机调研数据”的方法。理论上, 抽取样本越随机,就越能代表整体样本。但问题是获収一个随机样本代价极高,而很费时。 人口调查就是典型-例,一个稍人一点的国家具至做不到每年都发布一次人口调查,因为随 机调研实在是太耗时耗力了。但有了云计算和数据库以后,获取足够人的样本数据乃至全体数据,就变得非常容易了。谷 歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了 7成以上的北美搜索市场,而在这些 数据屮,己经完全没有必要去抽样调杳这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。2第二点其实建立在第一点的阜础上。过去使用抽样的方法,就需耍在具体运算上非常精确,因为所谓“差z毫厘便
5、失z千里”。设想一下,在一个总样本为1亿人口随机抽取1000人,如果在1000人上的运算出现错误的话,那么放人到1亿小会有多大的偏差。但 全样木时,冇多少偏差就是多少偏差而不会被放大。诺维格,谷歌人工智能专家,在他的论文中写道:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。数据分析并非目的就是数据分析,而是有其它用途,故而时效性也非常重要。精确的计算是 以时间消耗为代价的,但在小数据时代,追求精确是为了避免放大的偏差而不得已为z。但 在样木二总体的人数据时代,“快速获得一个大概的轮廓和发展脉络,就要比严格的精确性 要重要得多”。3 笫大数据因果性,相关性再争论三个特征则非常冇趣。相关
6、性表明变量a和变量b有关,或者说a变量的变化和b变量的变化z间存在一定的正比(或反比)关系。但相关 性并不一-定是因果关系(a未必是b的因)。亚马逊的推荐算法非常有名,它能够根据消费记录來告诉用户你可能会喜欢什么,这些消费 记录有可能是别人的,也有可能是该用户历史上的。但它不能说岀你为什么会喜欢的原因。难道大家都喜欢购买a和b,就一定等于你买了 a之后的果就是买b吗?未必,但的确需耍承认,相关性很高或者说,概率很大。舍恩伯格认为,人数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢a的人很可能喜欢b但却不知道其屮的原因。这本书的译者天才教授周涛则有不同的看法,他认为,
7、“放弃对因果性的追求,就是放弃了 人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落”。这个争议在我看来,双方讨论的可能不是一冋事。舍恩伯格在这木书屮完全不像他在删除 一-书小表现得那么有人文关怀,这是一本纯商业的书籍,商业本來就是以结果为导向的。但 周涛谈论的却和“人工智能”有关。吴军在他的数学z美中曾经提到,人工智能领域曾经走过一个很大的弯路,即人们总是 试图让计算机理解人类的指令注意,是理解,不是知道。但折腾了很多年,发现计算机 的理解力实在口痴得比三岁小孩还要弱。最终人工智能放弃了这条途径,而改为数据传输和 匹配。举个例了说,你在进行语音输入的时候,事实上计算机完全不知道你在说什么
8、(或者 说,完全不理解你的意思),但不妨碍它能够准确地把你说的话尽可能地用字符表达出来。苹果的siri是很神奇,但它其实并不懂你的意思,而只是你的语咅数据和它的后台数据一次 匹配而已。因果关系涉及到“理解”这个范畴,而不是简单的知道或匹配。舍恩伯格所谓放弃因果而 寻求相关,是因为他本来就是写本商业书,要具体指导商业运作的,周涛所谓不可放弃因 果,因为他是一名学者,并不完全站在赚钱这个角度上。换而言之,周涛看的是长远的未 来,舍恩伯格讨论的是眼下。在可以看到的未来屮,可能计算机掌握不了三岁小孩的理解力,计算机和人类之间的象棋比 赛,一-个在思考,一个在做数据匹配,两者虽然都在下棋,路径却全然不同。人类可以暂时 不用过于担心计算机来统治人类,因果关系这种理解,还是拿握
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《舞蹈生态学视野下的湘西苗族鼓舞探究》
- 2024-2030年稀土增环分离设备公司技术改造及扩产项目可行性研究报告
- 2024-2030年版中国调制解调器行业发展模式及投资策略分析报告
- 2024-2030年版中国自动灭火系统行业运营状况及未来发展趋势分析报告
- 2024-2030年燃料再燃氮氧化物控制系统行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年新版中国可燃气体报警检测仪项目可行性研究报告
- 2024-2030年发热感应系统行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年全球虫胶行业需求动态及发展前景预测报告版
- 2024-2030年全球及中国烧结金刚石锯片行业需求状况及发展前景预测报告
- 2024-2030年全球及中国汽车改装市场趋势预测及发展策略研究报告
- 《节能监察的概念及其作用》
- 综合布线系统竣工验收表
- 蔬菜会员卡策划营销推广方案多篇
- 导管滑脱应急预案及处理流程
- (精选word)三对三篮球比赛记录表
- 尿道损伤(教学课件)
- 大型火力发电厂专业词汇中英文翻译大全
- 火电厂生产岗位技术问答1000问(电力检修)
- 八年级思想读本《4.1“涉险滩”与“啃硬骨头”》教案(定稿)
- 高中语文教学课例《荷塘月色》课程思政核心素养教学设计及总结反思
- 度湖南省建设工程造价参考指标
评论
0/150
提交评论