科学家需要具备的能力_第1页
科学家需要具备的能力_第2页
科学家需要具备的能力_第3页
科学家需要具备的能力_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——科学家需要具备的能力在业务场景中,阅历+感觉的方式正逐步被数字+事实的决策所取代。这对于企业雇主和从业者都是一个机遇。数据科学家需要以一个严谨、客观的心态去对待数据,探索数据,同时在工作中不断完善自己的才能和提高对数据的感觉。

人人嬉戏高级数据科学家陈弢根据自己多年来在大数据领域的工作阅历总结出数据科学家的主要工作内容:数据处理平台,包括公司的根基数据平台以及各个概括业务线的指标数据和日志数据平台的搭建;历史数据的分析挖掘,包括与各种产品线相关的业务分析、用户画像、用户行为分析、用户留存分析等,目的是让业务决策者对于现状有明显、系统、完整的熟悉,从而辅佐其做出下一步的决策;数据驱动的预料性分析,譬如建立推举模型,并利用模型对未来的处境举行预料。这片面工作是大数据挖掘工作中最有意义的片面,也是与产品线联系最精细的片面。

从统计思维到数据思维的突破

数据科学家毕竟理应具备哪些根本的素质和才能呢?

陈弢认为,数据科学家首先要具备科学家的根本素质,即客观、忠诚和严谨。其次,数据科学家需要有数据库系统及数据管理的学识,以应对大量数据的导入和存储,同时务必掌管机器学习中的算法和模型处理预料性的需求。再次,相对于学识而言,理念上的突破对于数据科学家显得更为重要。好多数据科学家都具有深厚的统计学背景,而统计学的目标是从各种类型的数据中提取有价值的信息,但不强调对事物的洞察力(Insight),不强调深度的学识。所以,如何实现从固有的统计思维到数据思维的突破是一大挑战。结果,交流合作的才能也是数据科学家自身普遍需要解决的问题。这里说的交流不仅仅指数据科学家内部的学识共享、技能学习,更重要的是向业务人员、负责运营的同事、领域内的专家虚心请教和学习。分析人员不能仅醉心于技术,更要走进业务去“采风”,一方面普及数据挖掘的学识和它的作用,另一方面收集需求。

对数据深度挖掘

自2022年从北京大学数学院毕业之后,陈弢师从香港科技大学计算机系的张连文教授,研究机器学习的模型和算法。在与数据打交道的十年中,陈弢利用机器学习的各种模型,包括决策树、随机森林、贝叶斯网络、SVM等,处理过分类、聚类、相关性分析等数据挖掘问题。这些问题分别来源于中医、市场营销、计算广告学、社会学等不同领域。在工作过程中,陈弢逐步熟谙了一些大数据收集、存储和管理的系统,成了名副其实的数据科学家。

在人人嬉戏,陈弢主要从事的是数据的深度挖掘工作。一方面,Ader广告平台以每天500GB的速度收集了在上亿台移动设备上的各种类型广告的曝光、点击甚至转化数据。基于这些数据,陈弢利用预料性分析的算法,优化了广告投放,扶助整个平台提高点击和转化效率,同时通过多维度的定向投放来扶助广告主优化其投放效果。另一方面,人人嬉戏的玩家们在玩嬉戏的过程中会产生各种各样的行为。基于这些行为数据,陈弢所在的团队又尝试对用户按其行为分群,研究不同群体玩家的特性,从而为嬉戏玩法提升、虚拟物品定价等供给建议。

数据科学家不是一个噱头

数据科学家具备从大数据里掘金的才能,能对各行业的数据,包括医疗数据、移动设备数据、社交媒体流数据等举行预料,并给企业带来巨大的商业价值。陈弢认为,未来5年,数据科学家将展现供不应求的局面。

数据科学家不是一个噱头。企业已经从大数据中开头赚钱了。譬如Google通过供给免费的探寻服务来搜集网民的信息,然后根据意图推送广告。诸如此类的一系列商业模式的背后都隐匿着数据科学家所擅长的预料、推举等技术。在中国,互联网的巨头们是富数据企业,它们掌

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论