下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据之舞:大数据与数据挖掘
泄密者爱德华·斯诺登(EdwardSnowden)还在寻求容身之所的时候,美国国家平安局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了担心和生气。
奥巴马当局声称,监听数据带来了平安,然而左翼和右翼都在责备这种窥探行为是对隐私的侵害。
数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。
数据挖掘这一术语含义广泛,指代一些通常由软件实现的机制,目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。
威斯康星探究学院主任大卫·克拉考尔(DavidKrakauer)说,数据量的增长——以及提取信息的力量的提高——也在影响着科学。“计算机的处理力量和存储空间在呈指数增长,成本却在指数级下降。从这个意义上来讲,许多科学讨论如今也遵循摩尔定律。”
在2024年,一块1TB的硬盘价格大约为1,000美元,“但是现在一枚不到100美元的U盘就有那么大的容量。”讨论智能演化的克拉考尔说。现下关于大数据和数据挖掘的争论“之所以发生是由于我们正处于惊天动地的变革当中,而且我们正以前所未有的方式感知它。”克拉劳尔说。
随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹,大数据不断增长的商业影响也在如下时刻表现出来:
·你搜寻一条飞往塔斯卡鲁萨的航班,然后便看到网站上消失了塔斯卡鲁萨的宾馆打折信息
·你欣赏的电影采纳了以几十万G数据为基础的计算机图形图像技术
·你光顾的商店在对顾客行为进行数据挖掘的基础上猎取最大化的利润
·用算法猜测人们购票需求,航空公司以不行预知的方式调整价格
·智能手机的应用识别到你的位置,因此你收到四周餐厅的服务信息
大数据在看着你吗?
除了平安和商业,大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器,传回愈发难以驾驭的数据流,于是人们需要日益强大的分析力量。在气象学、石油勘探和天文学等领域,数据量的井喷式增长对更高层次的分析和洞察供应了支持,甚至提出了要求。
这幅2024年6月至2024年12月海洋表面洋流的示意图集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目供应了全部深度的洋流,但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用,并监测地球系统的不同部分内部及之间的热量、水和化学交换。
在医学领域,2024年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。那次突破性的进展之后,数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所把握的数据。每个基因组上有几十亿个“字母”,计算时消失纰漏的危急,催生了生物信息学。这一学科借助软件、硬件以及简单算法之力,支撑着新的科学类型。
另一例生物信息学的应用来自美国国家癌症讨论所。该所的苏珊·霍尔贝克(SusanHolbeck)在60种细胞系上测试了5000对美国食品和药品管理局批准的抗癌药品。经过30万次试验之后,霍尔贝克说:“我们知道每种细胞系里面每一条基因的RNA表达水平。我们把握了序列数据、蛋白质数据,以及微观RNA表达的数据。我们可以取用全部这些数据进行数据挖掘,看一看为什么一种细胞系对混合药剂有良好的反应,而另一种没有。我们可以抽取一对观看结果,开发出合适的靶向药品,并在临床测试。”
互联网上的火眼金睛
当医学家忙于应对癌症、细菌和病毒之时,互联网上的政治言论已呈燎原之势。整个推特圈上每天要消失超过5亿条推文,其政治影响力与日俱增,使廉洁政府团风光临着数据挖掘技术带来的巨大挑战。
印第安纳高校Truthy(意:可信)项目的目标是从这种每日的信息泛滥中发掘出深层意义,博士后讨论员埃米利奥·费拉拉(EmilioFerrara)说。“Truthy是一种能让讨论者讨论推特上信息集中的工具。通过识别关键词以及追踪在线用户的活动,我们讨论正在进行的争论。”
Truthy是由印第安纳讨论者菲尔·孟泽(FilMenczer)和亚力桑德罗·弗拉米尼(Ale-
ssandroFlammini)开发的。每一天,该项目的计算机过滤多达5千万条推文,试图找出其中蕴含的模式。
一个主要的爱好点是“水军”,费拉拉说:协调全都的造势运动本应来自草根阶层,但实际上是由“热衷传播虚假信息的个人和组织”发起的。
2024年美国大选期间,一系列推文声称共和党总统候选人米特·罗姆尼(MittRomney)在脸谱网上获得了可疑的大批粉丝。“调查者发觉共和党人和人皆与此事无关。”费拉拉说,“幕后另有主使。这是一次旨在令人们相信罗姆尼在买粉从而抹黑他的造势运动。”
水军的造势运动通常很有特点,费拉拉说。“要想发起一场大规模的抹黑运动,你需要许多推特账号,”包括由程序自动运行、反复选定信息的假账号。“我们通过分析推文的特征,能够辨别出这种自动行为。”
推文的数量年复一年地倍增,有什么能够保证线上政治的透亮 呢?“我们这个项目的目的是让技术把握一点这样的信息。”费拉拉说,“找到一切是不行能的,但哪怕我们能够发觉一点,也比没有强。”
头脑里的大数据
人脑是终极的计算机器,也是终极的大数据逆境,由于在独立的神经元之间有很多可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的方案。
除了连接组,还有许多布满数据的“组”:
·基因组:由DNA编码的,或者由RNA编码的(比如病毒)——全部基因信息
·转录组:由一个有机体的DNA产生的全套RNA“读数”
·蛋白质组:全部可以用基因表达的蛋白质
·代谢组:一个有机体新陈代谢过程中的全部小分子,包括中间产物和最终产物
连接组项目的目标是“从1,200位神经健康的人身上收集先进的神经影像数据,以及认知、行为和人口数据”,圣路易斯市华盛顿高校的连接组项目办事处的信息学主任丹尼尔·马库斯(DanielMarcus)说。
项目使用三种磁共振造影观看脑的结构、功能和连接。依据马库斯的预期,两年之后数据收集工作完成之时,连接组讨论人员将埋首于大约100万G数据。
绘制脑区分布图的“分区”是一项关键的任务,这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。“我们将拥有1,200个人的数据,”马库斯说,“因此我们可以观看个人之间脑区分布的差别,以及脑区之间是如何关联的。”
为了识别脑区之间的连接,马库斯说,“我们在受试者休息时猎取的扫描图中,观看脑中的自发活动在不同区域之间有何关联。”比如,假如区域A和区域B自发地以每秒18个周期的频率产生脑波,“这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵。”(这些点将比磁共振成像无法“看到”的细胞大得多。)
星系动物园:把天空转包给大众
星系动物园项目打破了大数据的法规:它没有对数据进行大规模的计算机数据挖掘,而是把图像交给活跃的志愿者,由他们对星系做基础性的分类。该项目2024年启动于英国牛津,当时天文学家凯文·沙文斯基(KevinSchawinski)刚刚蹬着眼睛瞧完了斯隆数字巡天方案拍摄的5万张图片。
阿拉巴马高校天文学教授、星系动物园科学团队成员威廉·基尔(WilliamKeel)说,沙文斯基的导师建议他完成95万张图像。“他的眼睛累得快要掉出眼窝了,便去了一家酒馆。他在那里遇到了克里斯·林托特(ChrisLintott)。两人以经典的方式,在一张餐巾的背面画出了星系动物园的网络结构。”
星系是一个经典的大数据问题:一台最先进的望远镜扫描整个天空,可能会看到2000亿个这样的恒星世界。然而,“一系列与宇宙学和星系统计学相关的问题可以通过让很多人做相当简洁的分类工作得以解决。”基尔说,“五分钟的辅导过后,分类便是一项琐碎的工作,直到今日也并不适合以算法实现。”
星系动物园的启动相当胜利,用户流量让一台服务器瘫痪了,基尔说。
斯隆巡天的全部95万张图片平均每张被看过60次之后,动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅,基尔说。“我的许多重要成果都来自人们发觉的惊奇物体,”包括背光星系。
星系动物园依靠统计学、众多观看者以及处理、检查数据的规律。假如观看某个特定星系的人增加时,而认为它是椭圆星系的人数比例保持不变,这个星系就不必再被观看了。
然而,对一些稀有的物体,基尔说,“你可能需要40至50名观看者。”
大众科学正在进展自己的法则,基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献,是现存的任何软件都无法实现的。鼠标的点击不该被铺张。”
这种动物园方法在网站上得到了复制和优化。这是一个运行着大约20项目的机构,这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。
最终,软件可能会取代志愿者,基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。
我们惊异地得知志愿者们积累的浩大数据是计算机学习分类的抱负材料。“一些星系动物园用户真的很反感这一点。”基尔说,“他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说,不要铺张点击。假如某人带来了同样有效的新算法,人们就不必做那些事情了。”
学习的渴望
人们长期以来改进对图像和语音的模式识别的努力已经受益于更多的训练,威斯康星高校麦迪逊分校的克拉考尔说。“它不仅仅是有所改善,更是有了实际的效果。5到10年之前,iPhone上的Siri是个想都不敢想的点子,语音识别一塌糊涂。现在我们拥有了这样一批浩大的数据来训练算法,突然之间它们就管用了。”
等处处理力量一次相对较小的转变令结果消失突破性的进展,克拉考尔补充道,大数据的应用可能会经受一次“相变”。
“大数据”是一个相对的说法,不是肯定的,克拉考尔指出。“大数据可以被视作一种比率—我们能计算的数据比上我们必需计算的数据。大数据始终存在。假如你想一下收集行星位置数据的丹麦天文学家第谷·布拉赫(TychoBrahe,1546-1601),当时还没有解释行星运动的开普勒理论,因此这个比率是歪曲的。这是那个年月的大数据。”
大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的力量之后。”克拉考尔说。
我们奇怪 ,当软件连续在大到无法想象的数据库上执行简单计算,以此为基础在科学、商业和平安领域制定决策,我们是不是把过多的权力交给了机器。在我们无法觑探之处,决策在没人理解
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市政道路工程施工合同
- 2024年外贸新品代理权独家合同
- 2024年工厂技术支持合同
- 2024年小产权二手房买卖合同模板
- 农业合作社合同管理与信息化方案
- 2024年商业购房贷款合同
- 2024年工厂技术转让合同样本
- 家具城配套住宿家居住宿合同
- 设计师劳动合同三篇
- 体育用品存放仓库租赁合同
- 院前急救与院内急诊有效衔接工作制度
- 2.1充分发挥市场在资源配置中的决定性作用(课件) 2024-2025学年高中政治 必修2 经济与社会
- Unit+5+Fun+Clubs+Section+A++(1a-1d)教学课件-2024-2025学年人教新目标(2024)七年级英语上册
- 超聚变 FCIA 考试题库
- 陕煤集团笔试题库及答案
- 33 《鱼我所欲也》对比阅读-2024-2025中考语文文言文阅读专项训练(含答案)
- (正式版)HGT 22820-2024 化工安全仪表系统工程设计规范
- (高清版)TDT 1075-2023 光伏发电站工程项目用地控制指标
- 《中华民族共同体概论》考试复习题库(含答案)
- 2022-2023学年武汉市江岸区七年级英语上学期期中质量检测卷附答案
- 【原创】水平三花样跳绳教学设计和教案
评论
0/150
提交评论