乘风破浪小姐姐大数据分析课件_第1页
乘风破浪小姐姐大数据分析课件_第2页
乘风破浪小姐姐大数据分析课件_第3页
乘风破浪小姐姐大数据分析课件_第4页
乘风破浪小姐姐大数据分析课件_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、乘风破浪的姐姐中,谁才是程序员眼中的C位黑马程序员公开课01为什么乘风破浪的姐姐如此之火?02大数据场景爬虫小姐姐数据来源03如何通过数据分析小姐姐的故事04为什么需要进行数据分析05大数据繁华生态圈课程大纲传统数据分析难点与痛点0607大数据行业趋势分析08下一步直播预告搭建大数据生态知识体系09为什么乘风破浪的姐姐如此之火?学习目的:1、乘风破浪的姐姐,她们都是谁?2、乘风破浪的姐姐中,谁才是程序员眼中的C位不要轻易用年龄定义自己,只要有追逐梦想的心,无论什么年龄段都有属于自己的精彩!乘风破浪的姐姐嘉宾名单:阿朵、郑希怡、宁静、陈松伶、钟丽缇、伊能静、海陆、金晨、蓝盈莹、王丽坤、万茜、张萌

2、、金莎、刘芸、沈梦辰、吴昕、郁可唯、朱婧汐、丁当、黄龄、孟佳、王霏霏、许飞、袁咏琳、张雨绮、黄圣依、张含韵、王智、白冰、李斯丹妮。30位选手竞争最后的5个出道位而努力既然是选最特别的女团,哪些人参加自然是关注的焦点。宁静、伊能静、钟丽缇、张雨绮、万茜、黄圣依光是听到这些选手的名字就让人太期待了!练好就喝奶茶 否则被扯头发 三天掉两斤肉 姐的实力你放心 三十而骊,青春归位 乘风破浪的姐姐,沈梦辰既然是选最特别的女团,哪些人参加自然是关注的焦点。宁静、伊能静、钟丽缇、张雨绮、万茜、黄圣依光是听到这些选手的名字就让人太期待了!不缺从头再来的勇气 也有劈波斩浪的魄力 鲜衣怒马星月神话 为了梦想再次披挂

3、 三十而骊,青春归位 乘风破浪的姐姐,金莎30位出道多年的姐姐辈女艺人,一个个风格各异、个性鲜明。她们将通过合宿生活与舞台竞演,最终选出5位组成逆龄女团。乘风破浪的姐姐?NO!是兴风作浪的姑奶奶出道时长十年起,这些姐姐们都有谁?豆瓣8.3分,姐姐们的实力妥妥的大数据分析9万条弹幕,谁才是真正的C位?C位大PK,魅力小姐姐乘风破浪的姐姐?NO!是兴风作浪的姑奶奶乘风破浪的姐姐就这样突然定档、突然播出、播出前无宣发的情况下爆了,一经播出就抢占各大热搜榜。大数据场景爬虫小姐姐数据来源学习目的:1、如何获取网页数据2、如何爬取弹幕数据什么是网络爬虫从豆瓣爬取数据大数据分析9万条弹幕,谁才是真正的C位?

4、弹幕数据抓取1. 前端相关:包括html结构,js,ajax请求过程,css,h5,cookie,session2. 网络相关:request和response流程,http知识,代理proxy的使用3. 存储相关:sql,database,NoSQL,redis,文件读取4. 其他知识:Chrome调试,正则表达式,xpath,文件编码,分布式爬取数据以后还要做数据清洗,文本处理,数据分析,数据展示以及数据挖掘等,将会涉及更多的炫酷技能如nlp,spark,machinelearing等爬虫相关技术点如下:大数据爬虫jsoup技术&Python爬虫Scrapy:1. 从一个URL,文件或字符

5、串中解析HTML;2. 使用DOM或CSS选择器来查找、取出数据;3. 可操作HTML元素、属性、文本;如何通过数据分析小姐姐的故事学习目的:1、新基建和数字化转型助力大数据行业升级2、大数据行业趋势分析爬取数据示例如下:热度属性可视化展示(1)29-33这个年龄段的姐姐最多共有11位,占比36.67%。其次是34-37岁,共10位,占比33.33%。 (2)姐姐们都来自哪儿?数据分析第一幕:看到具体评分分布,给出四星的最多,为38.2%;其次是5星 占比25%。看来观众普遍还是十分认可姐姐们的表现的数据分析第二幕:可以看到词云主要围绕的是姐姐节目女团展开。其中在需选手中宁静、万茜被提到的频率

6、最高。当然也有不少吐槽的点,大家的吐槽主要集中在:评委杜华:不公平;30+的女性岁月积淀了魅力,评审却按照20岁女团的标准来;给丁当打分真是要气炸。黄晓明:从霸道总裁秒怂变小明,让人感觉尴尬不已节目组:场景布置令人寒酸,摄影差,灯光差,布景差。数据分析第三幕:芒果Tv弹幕爬虫部分代码:分析网页,弹幕数据是动态加载的,因此通过Chrome浏览器进行抓包分析并获取真实的URL请求地址;使用selenium请求网页数据;使用正则表达式re将文本中的HTML提取出来,使用json进行解析;使用pandas进行数据的保存。数据分析第三幕:弹幕词云三十而励!三十而立!三十而骊!30岁以后,人生的见证者越来

7、越少,但还可以自我见证!30岁以后,所有的可能性不断褪却,但还可以越过时间,越过自己!不要轻易用年龄定义自己,只要有追逐梦想的心,无论什么年龄段都有属于自己的精彩!数据分析第四幕:数据分析第五幕:通过皮尔逊相关系数结论:初评舞台分数和年龄、出道年数没有显著相关。年龄和个人特质、成团潜力的分数间存在低度负相关关系,年龄越大,个人特质和成团潜力的得分也就越低;个人特质和成团潜力的打分之间存在高度正相关,即两者得分存在高则同高,低则同低的情况1. 传统数据分析相关:MySQL,Execl,Oracle2. 大数据分析相关:Hive、MR、Spark、Flink数据分析相关技术点如下:大数据分析计算四

8、代计算引擎:1. 分而治之阶段:它将计算分为两个阶段,分别为 Map 和 Reduce;2. 支持DAG框架:HiveSQL;3. 内置DAG的支持:Spark 为代表的第三代的计算引擎;4. Flink统一的引擎:包括流处理、批处理,AI、MachineLearning思考:为什么传统的数据分析是有瓶颈的?IBM老周讲大数据打开抖音APP扫码了解更多大数据知识关注大数据行业更多福利.想了解更多大数据故事,请关注.为什么要进行数据分析学习目的:1、为什么有大数据分析2、大数据分析特点数据身高数据、体重数据、属性数据、价格数据等数据分析对数据加工、分析、处理过程信息身高太高、太矮、正合适体重超标

9、、体重正常、体重偏低有价值信息不仅仅看身高,还看是否为程序员不仅看体重,还得看长相数据挖掘信息的价值化提取.数据分析基础概念正处于相亲阶段的你,如何考量和评价你的Mr Right,你看重他或她的长相嘛,还是更加看重他的身高。这就是数据分析,提炼从数据到信息的过程。您看重的只有长相嘛?如何从长相和身高都比较优质的女生或男生中选择出我们心仪的男神或女神,您是更关注职业还是家庭,那么这里需要数据挖掘进一步从已有的信息中挖掘出更有价值的信息帮助您判断。我们要的是#潜力股!热度较高的可能取得冠军。场景1:乘风破浪姐姐们根据对方数据进行数据分析 场景2:相亲场景迁移数据分析场景案例人工智能基础概念深度学习

10、模拟人的大脑结构,深度提取特征,用于图像语音等场景机器学习利用常见的分类、回归、聚类场景分析数据挖掘利用机器学习完成数据挖掘任务人工智能包括了前面各部分,三次人工智能浪潮之巅,三次棋类游戏之战模式识别图像识别、人脸识别等人工智能+大数据分析场景案例基础类指标-年龄、性别统计类指标-年龄段,消费周期规则类指标:近7日活跃用户等挖掘类指标:用户购物性别用户行为分析打开一个网站:1-首页推荐2-详情页推荐3-猜你喜欢推荐4-文本评论推荐根据你在电商网站上所填的信息和你的行为,可以用一些标签把你描绘出来,描述你的标签就是用户画像。构建用户画像的核心工作即是给用户贴“标签”。场景1:用户画像如何根据用户

11、的喜好推荐合适的商品?利用推荐系统完成电商、金融等行业的实际变现。 场景2:推荐系统多场景推荐乘风破浪姐姐们的分析场景案例话题较热+热搜榜居高不下+讨论最多的+话题库最热“话题较热”“热搜榜居高不下”“讨论最多”“话题库最热”如何基于机器学习模型构建冠军预测?方法1:构建X-Y类似于Y=KX+B模型预测方法2:构建与夺冠最有关系的因素聚类分析,如右图根据姐姐们初评得分以及后续得分一起预测晚上18:00-24:00是用户们使用网络婚恋交友服务的高峰时段有78.7%的用户使用过线上付费服务相亲场景用户画像分析场景案例高学历,高收入,重消费的事业型“事业精英型”“经济小康型”“前卫一族型”“起步青年

12、型”数据来源于:2019年中国网络婚恋交友行业研究报告1-数据分析基本概念2-数据分析场景案例3-人工智能基本概念4-人工智能场景分析传统数据分析痛点学习目的:1、为什么有大数据分析2、大数据分析特点传统数据分析瓶颈?1.传统数据库无法处理非结构化数据。2.大数据场景下数据可以采集的量级在GB,TB,ZB的大量数据,这个的确是传统数据库无法对比的。3.一般将分析结果存入oracle这种情况,多是海量离线数据分析,比如淘宝的某些数据,分析后的一些报表结果。当数据到达一定量级,传统数据库做的是纵向扩展,所以瓶颈是存在的。数据分析工具:MySQL+Oracle,通过SQL完成一定数据量的增删改查数据

13、分析工具:Python数据分析瓶颈1-Python生态中数据科学库的完整性,如数据可视化matplotlib2-Python在机器学习和深度学习方面有更加成熟的库支持1-Python生态数据分析框架,诸如Pandas等,多数是基于单机版数据分析,对于分布式数据支持需要引入大数据框架2-PyFlink、PySpark、TensorflowOnSpark优势劣势传统数据分析瓶颈?为什么会有大数据分析?GB-TB-ZB结构化、半结构化、非结构化数据处理速度快数据增长速度快如何对数据进行价值化提取差别1024倍,数据呈现指数级别增长非结构化的图像、文本,半结构化的Json及XMl第一代计算引擎MR第二

14、代计算引擎Hive第三代计算引擎Impala和Spark第四代计算引擎Flink在大数据基础上如何对数据进行价值化提取数据量大数据种类多速度快价值密度低1-传统数据分析瓶颈2-Python数据分析瓶颈3-为什么会有大数据分析4-从传统数据分析到大数据分析大数据繁华生态圈学习目的:1、大数据框架2、多场景项目多行业场景大数据分析占比大数据技术框架应用大数据技术框架应用Flink框架应用1-多行业场景分析大数据占比2-大数据技术框架应用3-Flink框架应用4-大数据生态圈和AI对接大数据行业趋势分析学习目的:1、新基建和数字化转型助力大数据行业升级2、大数据行业趋势分析新基建和数字化转型助力大数

15、据+AI多场景落地发展新机遇,产业新高度新型基础建设场景分析各行业数字化转型场景分析中国互联网教育市场生态图谱图片来自于易观-传智播客大数据研究院&易观独家合作开发DS&Argo课程从传统教育到智慧教育演变之旅 建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。智慧教育大数据行业级解决方案掌握教育行业离线数仓的分层与建模,能够在公司独当一面。 从需求、设计、研发、测试到落地上线的完整项目流程。 大量教育大数据的真实业务逻辑,

16、包含了访问、咨询、意向、报名、课程、开班、考勤、 直播、成本、教学实施、口碑等各个阶段,共涉及 20 多个主题,100 多个指标,大幅 提升学员在教育行业中的竞争力。大数据技术在真实场景中的使用,包括大数据量场景下如何优化配置,拉链表的具体应用,新增数据的抽取和分析,更新数据的抽取和分析,以及 Hive 函数的具体应用等。 ClouderaManager 可视化、自动部署和配置,稳定性极好。 Git 的 CodeReview 功能,在对质量有高要求的核心项目团队中非常有用。大数据行业趋势分析以数据驱动业务,以数据决策业务1-数据资源-数据资产转变3-业务数据化到数据业务化4-业务决策-数据决策

17、2-数据分析-数据科学1-新基建+数字化转型2-传统物流行业演变3-教育行业解决方案4-大数据行业趋势分析大数据前沿技术举例学习目的:1、大数据Python生态首推123流式数据处理Java,scala和pythonDataStreamAPISQL结构化数据查询Java,scala,不支持PythonTableAPIDataSetAPI离线数据批处理Java,scala和python12DDL支持及更好的Hive兼容性更多高性能优化Flink 的未来架构3统一的 DAG 数据结构来描述作业,使用统一的 StreamOperator 来编写算子逻辑Flink实现层API统一DataSet API

18、将被废除面向用户的API只有 DataStream API 和 Table API & SQL,两个API共享相同的技术栈 PyFlink架构分析及特性分析3支持互动式开发Interactive Shell其他特性12利用Py4j建立了PythonVM与JVM通讯支持JavaTableAPI固有功能到1.10版本中支持UDF/UDAF架构API统一 Flink 1.9原有的 Python API 体系架构废弃全新的 Python API 基于 Table API 之上。 1.9之后的 PyFlink将PyFlink部署到PyPi上可直接安装: pip install apache-FlinkP

19、yFlink 的核心目标:将 Flink 能力输出到 Python 用户,进而可以让 Python 用户使用所有的 Flink 能力。将 Python 生态现有的分析计算功能运行到 Flink 上,进而增强 Python 生态对大数据问题的解决能力。PyFlink应用场景PyFlink 贯穿数据科学整个流程及适用场景分析:数据ETL处理:数据Pipeine及日志log解析数据分析:订单、活跃用户等统计机器学习&数据挖掘:推荐系统与广告Ctr领域数据可视化PyAlink -根据 Alink 所支持的 Flink 版本提供不同 Python 包与 PyFlink 一同使用PyPi已经部署支持Spa

20、rkML对比pip install pyalinkPython版本限制:版本限于 3.6 和 3.7Flink版本:1.10PyAlink 与 PyFlink 进行了一定的整合。 用户在新版本的 PyAlink 中能够使用 PyFlink 的部分功能更多功能整合正在进一步开发 Alink 在离线的机器学习场景下与主流的 Spark ML 的对比显示,其在功能集合上所有算法基本一致。在性能对比方面,Alink 和 Spark ML 在离线训练场景下的性能基本在一个水平线上。 但 Alink 支持部分算法通过流式方法进行计算,更好地实现在线机器学习PyFLinkPyALink1-为什么Spark和

21、Flink等组件都纷纷支持Python语言?2-如何能够借助Python语言和大数据框架完成指数级别数据的增长处理、分析和建模?3-PyFlink演进之路4-大数据生态圈和AI对接(Alink)搭建大数据生态知识体系学习目的:1、大数据生态回顾2、Python数据科学生态回顾3、搭建Python大数据生态知识体系Hadoop及Hive开发工程师对于初级大数据工程师,熟悉传统的数据库及传统数仓开发流程,入门薪资在10-12K左右。Spark&Flink开发工程师对于中级大数据工程师,熟悉核心大数据组件开发流程,入门薪资在12-18K左右。Spark&Flink资深工程师对于高级大数据工程师,精通核心大数据组件开发流程基础上,需要具备多行业项目经验,入门薪资在20-25K左右。大数据数据挖掘对于大数据数据数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论