哥伦比亚大学数据科学课程笔记_第1页
哥伦比亚大学数据科学课程笔记_第2页
哥伦比亚大学数据科学课程笔记_第3页
哥伦比亚大学数据科学课程笔记_第4页
哥伦比亚大学数据科学课程笔记_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、哥伦比亚大学数据科学课程笔记2014-06-11 大数据文摘DataOataDi IA日坤Gusirwssperscn Creative EngineerR&searcherBig DataMathProgram mi ng Li _:商业板块机器学习&大数抿领如数学编统卄学点击标题下大数据文摘可快捷关注翻译哥大数据科学笔记系列是我们新的尝试,我们愿意将最先进、最鲜活的知识带个大家, 如果您喜欢这篇文章,请给我们留言、帮我们宣传,这是我们继续翻译的动力,当然,如果 您有任何意见建议,也请给我们留言,谢谢。大数据文摘翻译:yaweixia,杨云帆;编校:甄艾庄(转载请保留) 课程:哥伦比亚大学数

2、据科学课程讲师: Rachel Schutt 教授整理听课记录如下第一周:什么是数据科学?课程大纲Rachel Schutt 教授以梳理课程大纲开始,下面是她主要的摘要:、 课程需要的基础知识有:线性代数,基础统计学,以及一些编程课程。、 课程目标:学习数据科学家都做些什么,并学会做其中的一些事儿。、 Rachel 主讲几个礼拜的课,然后会有客席讲座。、 客座教授的简历跨度非常大,他们的背景也是如此。但他们都是数据科学家。、 我们将有丰富的阅读材料 :做一名数据科学家的一种能力就是认识到许多还未记录下来 的东西。、 差不多每两周一次家庭作业,共6-10 次。、 毕业设计将会是一次内部 Kagg

3、le 比赛。这是一次团队作业。、 此外还会有一次课堂期末考试。9、我们将会使用 R和python语言,主要是R。可以下载RStudio,主要是辅助R。10 、如果你只对 hadoop 分布式计算和运算大数据有兴趣, 请你选择 Bill Howe 的 Coursera 课程。我们会涉及到大数据,但是只在课程的最后部分。数据科学的现状 那么,什么是数据科学?数据科学是新的领域吗?是真实的吗?到底是什么?大家一直在讨论这个话题, 但是 MichaelDriscoll 的答案非常好: 数据科学,因为它的实践, 是一门红牛饮料驱动的黑客行为和浓缩咖啡激发灵感的统计学的融合 。但是数据科学不仅仅是一次黑客

4、行为,因为当黑客们写成一行 Bash语言(Linux脚本程序)和 Pig 程序( MapReduce 使用的高级编程语言) 时, 很少再会有黑客在乎非欧几里得的距 离度量。数据科学也不仅仅是统计学 ,因为当统计学家从理论上完成最佳模式的推理, 很少人会将 A delimited 文件再转化到 R 语言,即时他们的工作需要这个。数据科学是数据的土木工程 。它的用处在于将工具与材料的实务知识,与“什么是可能的” 理论理解相结合。Discroll 也参考了 Drew Conway2010 年的数据科学的维恩图解 VennDiagram 让我们也来看下 2009 年 Nathan Yau 在崛起的数据

5、科学家 ( Rise of theData Scientist, 2009) 中提到的 “数据极客的性感技巧 ”:1、统计学-你习惯性想到的传统分析、对数据进行不必要的改动 - 解析,抹去和格式化数据、视觉化 - 图表,工具等别急,数据科学是一口袋骗局吗?或只是其他领域, 如统计和机器学习的合乎逻辑的延伸? 让我们再来看看 ASA 主席 Nancy Geller 在 2011 年 Amstat 新闻期刊上发表的文章别丢 弃统计S字眼儿(Don t Shunthe S Word, 20,其中她为统计学在数据科学中的作用进 行了辩护。可以肯定的是, 在数据科学领域, 没有人能提供给你一份干净的数据

6、库, 也没有人告诉你用 什么数据处理方法。此外, 数据科学的发展领域是在工业界,而非学术领域。2011 年, DJ Patil 描述了他是如何在 2008 年与 Jeff Hammerbacher 共同创造了“ 数据 科学家 ”这个词。然而早在 2001 年, William Cleveland 就写了一篇有关 数据科学 的学术论文。这么说来,数据科学的诞生早于数据科学家?这是个文字游戏吗?这要究竟怎样理解呢? 由此引发了下列问题, 该如何通过数据科学家的职责来定义数据科学?由谁来下定义? 这中 间有许多含糊其辞, 是否该由媒体来定义?还是由从业人员说了算, 抑或是自诩的数据科学 家们?究竟是

7、否已有一个权威了呢?让我们还是给这些问题留一定余地吧。哥伦比亚大学决定借由布隆伯格 (彭博商业媒体主席,前纽约市长)的支援, 建立数据科学 与工程学院 ColumbiaInstitute for Data Sciences and Engineering。这次举措还引发了一个问题,为什么信息发布现场还有一位化学家呢?上一次我查看纽约数据科学家招聘职位 时有 465 个职位空缺, 这是相当大的数量。 所以即使数据科学还不能被称之为真正的领域, 至少它提供真实的工作岗位。同时还须注意到,对数据科学家工作岗位的描述中都有对计算机科学、 统计学、传播学、数 据可视化和一些其他专业领域精通的要求。 没有

8、人是全能专家, 这正是 组建一支由不同背景 和各个领域专业人才的团队 的重要性。作为一支团队,就可以精通任何领域了。面是一些数据行业生态系统中的重要成员:O Reilly 与他的 Strata 会议DatakindMeetup GroupsUnion Square Ventures 等风险投资正往诸多数据科学创业公司投入资金Kaggle 定期举办数据科学大学哥伦比亚大学应用数学教授 Chris Wiggins, 为技术专长本科生与纽约创业企业间建立了系统的暑期实习项目 HackNY注:维基百科直至2012年才创建了“数据科学”词条。更说明了这是一个新的术语,也或 许是一门新的学科。如何开展一项

9、数据类的项目?假设你要为某个网站做一个网络产品,需要跟踪分析用户的行为。 你可以顺着以下这个思路来考虑这个问题:用户与产品互动产品的前台和后台用户产生的操作:点击等这些操作都会被记录下来时间会被记录;用户使用产品的所有关键操作都会被记录记录的原始数据经过改写、整合、映射化简等处理最后处理得到大量的优质数据这些数据是通过用户键入、播放(诸如Pandora这样的线上播放系统)或者任何可能的方式被收集到的收集到的数据将被分析,建模等等最终的分析结果能给我们一个全新的视角来理解用户行为新见解又会被反馈到产品上去要系统地改变用户与产品的关系,我们决定先测试用户与产品的互动。这一点已经将传统的数据分析员和

10、数据科学家的工作区分开来了,数据分析员只负责分析客户消费的可能性,重新定位用户群,但不会改变产品本身。数据科学家还需向总经理或者产品总设计师汇报他们观察到的客户情况,比如客户体验和客户行为习惯,这就需要他们具有沟通汇报,数据可视化和“讲故事”的能力。数据科学 家的本职工作就是围绕产品“讲故事”。有时你必须从网页上抓取辅助信息,因为相关信息可能会被遗漏记载,或者还有可能因为不是用户本人产生的没有被记载。描述你自己Rachel 分发了评分参考卡让他们对自己的技能等级(从相对级别而非绝对级别)从以下几 个方面进行描述: 软件工程, 数学, 数据统计, 机器学习, 专业知识,语言交流与口头汇报能力,以

11、及数据可视化。 然后我们将这些评分参 考卡收集起来看看大家眼中的自己是怎么样的。 非常有趣的是, 虽然 他们当中大多数人都是来自社会科学专业的,但是结果却有相当大的差异。同时, 由于没有一个人擅长所有事情, 所以当数据科学小组内不同的人拥有不同的技能 (前 面所描述的)的时候,这个小组往往能运转十分顺利。这让我开始考虑把它定义为一个 “ 数 据科学小组 ” 是不是会更贴切,而非一个数据科学家。思考问题:我们能用数据技术来定义数据科学吗? 我们分了若干小组来讨论这个问题,下面是其中一些观点: 可以:比如谷歌搜索的数据技术以及其执行的文本挖掘模型 但是等等,这个取决于就语言而言,你是一个使用者而非处方者。我们可以让大众 来定义数据科学吗(这儿 “大众 ”指的是谷歌搜索引擎找到的一切东西)?或者说我们 可以找一个比较有权威的参考吗?比如牛津英语词典。事实上牛津英语词典或许目前根本还没有相关条目,然后我们也没有时间去等待它 收录此条目。我们不妨接受这样一种现象, 有一种既不被权威参考所认同也不被 “大众 ” 所接受的范围。我们不妨再来看看那些操作领域的数据科学家?看看他们怎样描述他们所做的事 (或许对初学者来说是模糊的) ,然后看看那些被称之为统计学家, 物理学家或者经济

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论