新一代信息技术基础 课件 04.项目2 云计算与大数据_第1页
新一代信息技术基础 课件 04.项目2 云计算与大数据_第2页
新一代信息技术基础 课件 04.项目2 云计算与大数据_第3页
新一代信息技术基础 课件 04.项目2 云计算与大数据_第4页
新一代信息技术基础 课件 04.项目2 云计算与大数据_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新一代信息技术基础**学院资源使用复习:计算机进化过程1946第一台计算机:1946年美国宾夕bai法尼亚大学的duENIAC,速度每秒5000次加zhi法。20052005年11月17日,在突尼斯举行的信息社会世界峰会(WSIS)上,国际电信联盟(ITU)发布了《ITU互联网报告2005:物联网》,正式提出了“物联网”的概念1981第一台PC机:1981年8月12日IBM推出IBMPC(CPU采用Intel的8088)1986伴着TCP/IP协议的成长,这样使NSFNET(美国国家科学基金)在1986年建成后取代ARPANET成为Internet的主干网。他们把最后的使用TCP/IP支持的NFSnet网叫做Internet网,即当今世界最大的计算机互连网。物联网互联网PC机计算机复习:我国互联网发展的风云二十年199520002005201020152020网易搜狐、新浪腾讯阿里巴巴百度携程京东百度贴吧天涯论坛新浪微博豆瓣知乎猫扑网铁血社区强国论坛美团滴滴字节跳动抖音饿了么快手了解大数据时代大数据系统所需工具和框架云计算的未来项目二任务1任务2任务3任务一了解大数据时代1多大的数据量才可以称之为大数据????大数据【例】老师身边的“大数据”大数据时代大数据时代已经深刻影响了各行各业,包括企业、政府、医疗、金融、科学研究等领域。通过合理利用大数据,可以发现新的商业机会、改善生活质量,并推动社会进步和创新发展。进入2012年,大数据(Big

Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。大数据产生背景重庆的大数据产业:渝北仙桃数据谷重庆的大数据产业:永川云谷大数据应用-动作捕捉(永川.达瓦)达瓦公司参与制作的知名院线电影有《长津湖》、《金刚狼2》等11部、知名网络游戏有《看门狗:军团》等近20款1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球222圈(一圈约为四万公里)。目前美国的平均网速为25Mb/秒,一个人要下载完这175ZB的数据,需要18亿年。据IDC预测,2025年,全世界每个联网的人每天平均有4909次数据互动,是2015年的8倍多,相当于每18秒产生1次数据互动。大数据背景:趋势电子邮件是用户日常获取信息的重要渠道之一,特别是企业用户。据RadicatiGroup统计,2018年全球电子邮件用户数量达到38亿人,即全球超过一半的人口在使用电子邮件。2018年,全球每天发送和接收的商业和消费者电子邮件的总数超过2811亿封,2019年每天的电子邮件数量将达到2936亿封,2022年年底,达到3332亿封。大数据背景:邮件一辆联网汽车每天将产生4TB的数据据英特尔公司预测,2020年,一辆联网的自动驾驶汽车每运行8小时将产生4TB的数据。这主要来源于自动驾驶汽车将拥有的数百个车载传感器。英特尔表示,仅摄像头就能每秒产生20-40Mb的数据,而激光雷达每秒将产生10-70MB的数据。英特尔公司首席执行官BrianKrzanich表示,2020年互联网用户每天将产生1.5GB的数据,以此计算,每辆在路上行驶的联网汽车将产生约3000人的数据量。而一百万辆自动驾驶汽车将产生30亿人的数据。大数据背景:汽车2025年全球物联网连接设备将达到754.4亿无处不在的物联网设备正在将世界变成一个“数字地球”。据HIS的数据预测,到2025年,全球物联网(IoT)连接设备的总安装量预计将达到754.4亿,约是2015年的5倍。在各种联网设备中,可穿戴设备是重要的组成部分。据预测,到2020年,全球可穿戴设备将产生28PB的数据。大数据背景:物联网目前,全世界每天有至少50亿次在线搜索互联网时代,搜索引擎已经成为人们寻找日常解决方案的重要渠道。有事没事搜一下,已经成为工作与生活的常态。特别是智能手机的普及,让我们随时随地都在产生搜索数据。据Smartinsight估计,目前全球每天有50亿次搜索,其中35亿次搜索来自Google,占全球搜索量的70%,相当于每秒处理4万多次搜索。而回到2000年,在那个时候,Google一年的搜索量才140亿次。大数据背景:搜索无处不在的社交数据智能手机让人们的社交生活彻底数字化,每天在社交网络上花费的时间越来越多,产生的数据量也相应地不断增长。据Facebook统计,Facebook每天产生4PB的数据,包含100亿条消息,以及3.5亿张照片和1亿小时的视频浏览。此外,在Instagram上,用户每天要分享9500万张照片和视频;Twitter用户每天要发送5亿条信息。大数据背景:社交eBay坚持付费模式时,淘宝围绕本土化做了一系列创新,其中免费开店就是其杀手锏。马云给淘宝的定位是「让天下没有难做的生意」,最终淘宝成功狙击eBay,并且衍生出中国商业体系的基础设施。1991年到2006年这15年,演化形成了中国杀毒市场的基本格局。360发起进攻的时候,既没有瑞星、江民、金山的资金实力和技术积累,也没有腾讯的海量用户基础,但周鸿祎通过免费的套路,在强敌环伺下杀出一条血路,打破了杀毒市场三国鼎立的局面。95后、00后用一毛钱一条的短信给「超级女声」投票。到2017年的时候,全国短信发送量日均18.2亿条,而微信日均380亿条。对00后和10后来说,短信成为了一个验证码工具,而微信连接一切。大数据背景-第一阶段:持续创新,同室操戈BAT和京东、网易都是网宿科技的客户,这家公司擅长做CDNC(全称是ContentDeliveryNetwork,即内容分发网络)网络加速业务。后来,巨头们就自己干CDN了。滴滴和uber兴起后,广播行业躺枪了。私家车以外,已经很少有司机还在车上听广播了,他们忙着接单或被派单,亦或者在微信群和同行语音唠嗑。广播扛住了电视和网络视频的冲击,却被网约车击垮。跨境电商的小红书威胁到餐饮点评的大众点评,因为小红书里沉淀的内容不再只是海外购物经验帖,而是扩散到餐饮、酒店、旅行、家居等各种消费经验和生活方式时,小红书便成了大众点评的社区「师傅」。优爱腾、抖音、快手等几乎侵蚀完了电视台的用户时间和广告资源。大数据背景-第二阶段:跨行竞争,降维打击字节跳动从腾讯系和百度系那里抢了时间,抖音、头条的多了,游戏上的时间相对就少了,但头条却受到学习强国的挑战。据统计,今日头条日活从1亿多锐减到了六千多万。中国市场上APP数量超过400万个,但从用户实际使用来看,20个APP已经能满足用户社交、娱乐、电商、新闻、工具等多方面的需求。故而从互联网下半场的用户总时间来看,所有产品又都站在了同一个赛道,降维打击也有了新的内涵。并非互联网进入一个传统行业就会造成降维打击,只有补齐行业的基本素质,才能谈高纬度。比如餐饮行业,并不会单纯因为新零售因素加入,就形成降维。对餐饮行业来说,所提供产品的内核在于好吃好喝,好吃好喝也永远是这个行业的基本素质。大数据背景-第三阶段:布局版图,生态进化数据量大(Volume)数据类型繁多(Variety)社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等广泛的数据来源,决定了大数据形式的多样性,例如日志、图片、音频、视频等大数据特征

:4V处理速度快,时效性要求高(Velocity)数据无时无刻不在产生,谁的速度更快,谁就有优势数据价值密度相对较低(Value)通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据知名大数据公司谷歌亚马逊FacebookLinkedIn阿里巴巴百度腾讯IBMOracleEMC惠普大数据业务(先天型大数据公司)大数据方案(后天型大数据公司)Microsoft亚马逊

CTO

Werner

Vogels你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界,企业的手中将握有无限可能。大数据公司类型数据提供(采集)平台提供服务提供海水船舶作业方案大数据公司类型-银行如何分析数据【讨论】大数据在疫情防控中的作用【讨论】大数据在疫情防控中的作用大数据背景下的疫情防控应急治理能力大数据的运用使得政府应急响应、应急处置、应急恢复能力上升到了一种高度,从而更加有效地应对公共卫生事件大数据背景下的疫情防控公共服务能力借助大数据等信息技术,告别传统的防控手段,实现了社区精细化、网格化的防控管理大数据背景下的疫情防控协同治理能力利用大数据技术进行统计和可视化分析,可以向应急治理主体提供最及时、最可靠的信息情报,这正是大数据疫情防控的优势所在大数据精髓不是随机样本而是全体数据大数据精髓1:尽量采集全体数据百度通过地图+搜索+支付+LBS等应用场景,以及百度糯米的市场开拓,与线下的商户建立了稳定的合作关系阿里依托于支付宝对于线下的商户已经进行了强有力的整合,同时支付宝也在尝试与物业等社区平台进行合作腾讯依托于微信公众号和微信支付也切入到了社区O2O当中,也同方兴、正荣、恒大等地产企业建立了战略合作关系,试图打造智能社区京东的京东到家则通过最后一公里的物流也切入了社区O2O行业当中,整合线下便利店,布局最后一公里。大数据精髓不是随机样本而是全体数据不是精确性而是混杂性大数据精髓2:不需要过于在乎精确性大用户群体调查的误差对于公司的决策影响不大,例如:有5000万用户喜欢某产品和6000万用户喜欢某产品小样本本身存在较大不确定性,所以比较追求计算精度CNNIC《第52次中国互联网络发展状况统计报告》大数据精髓不是随机样本而是全体数据不是精确性而是混杂性不是因果关系而是相关关系大数据精髓3:不需要知道因果关系月份方便面啤酒矿泉水刮胡刀电池铅笔尿不湿纸巾1月17974311928817584112月12723911601469748463月921961601181581082091744月6615277135911441661625月141122617516315587536月1073480738728551667月185804310149132100938月15981190931231401071659月816611616989478618710月16338164194551155828演示数据,非真实案例源自于:沃尔玛超市大数据精髓3:不需要知道因果关系【总结】大数据大数据(BigData),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。【案例】华为招商银行大数据项目【案例】Caixa银行大数据项目【案例】TikTok回应美政客指责:年轻人就是支持巴勒斯坦,不是因为算法2023年10月,有多名共和党籍国会议员声称TikTok借“推荐算法”影响年轻人支持巴勒斯坦,威胁应全面封禁TikTok。2023年11月13日,TikTok发布声明回应称,该平台“支持巴勒斯坦内容多”并非因为算法,而是美国年轻人本来就更倾向于支持巴勒斯坦。声明援引美国民调机构盖洛普3月数据称,早在TikTok出现之前的2010年,对千禧一代(出生于1980至2000年期间)的民调结果就证明了这一点。数据显示,美国1965年前出生的老一代“非常积极”地支持以色列,但千禧一代的年轻人更加“各持己见”:42%的人更同情巴勒斯坦,40%的人更支持以色列。任务二大数据分析系统所需工具和框架的选择2数据管理分析应用基础技术安全技术包括数据集成、元数据、数据建模、数据标准管理、数据质量管理和数据资产服务图分析需求旺盛引导数据分析新方向随着深度学习的迅速发展存储与计算耦合的自建平台造成了额外成本存算分离有效控制成本隐私计算技术稳步发展热度持续上升大数据技术的趋势组织内部的数据管理能力逐步提升数据交易市场建设正在努力探索数据安全治理成为不可忽视的焦点数据治理数量级汉语表达英文缩写英文表达10^24尧(它)YYotta10^21泽(它)ZZetta10^18艾(可萨)EExa10^15拍(它)PPeta10^12太(拉)TTera10^9吉(咖)GGiga10^6兆MMega10^3千kkilo10^2百hhecta10^1十dadeca10^-1分ddeci10^-2厘ccenti10^-3毫mmilli10^-6微μmicro10^-9纳(诺)nnano10^-12皮(可)ppico10^-15飞(母托)ffemto10^-18阿(托)aatto10^-21仄(普托)zzepto10^-24幺(科托)yyocto大数据的数量级大数据的入门线大数据与普通数据的对比计算机编程语言的学习JavaPython思考:选择一门计算机编程语言,深入了解这门语言的就业前景、岗位需求等流行的计算机编程语言数据源自TIOBE流行的计算机编程语言(占比)流行的计算机编程语言(排位)计算机编程语言的学习路线大数据相关的基础阶段学习213465MySQL(开源数据库)Linux(操作系统)Redis(关键值数据库)KVM(虚拟化)MongoDB(分布式数据库)Docker(容器,用于迁移)大数据工程师培训课程【例】2019贺岁片预测从m1095、票房网、豆瓣网等处获取电影票房、质量、属性等数据影响电影票房的三个重要因素:电影质量、电影宣传力度、档期电影总票房用算法工具进行预测使用FineBI的智能时序预测功能预测出2019年春节档首周总票房为76亿为了客观衡量导演、演员水平,根据历史电影评分、导演信息、演员信息、票房信息、电影类型信息、评价信息等特征进行组合最终共有74个特征,再结合历史票房数据等通过加权算法分析得到四部电影的票房占比情况,处理后的数据【例】2019贺岁片预测电影票房还与SEO(

Search

Engine

Optimization

)等相关,因此找寻了百度指数、微信指数、淘票票指数等数据从历史数据发现这些指数与电影票房呈正相关关系,也就是指数越高票房越高,加入这些指数后,使用算法重新进行预测得到我们最后的票房预测结果如右【例】2019贺岁片预测电影上映一周前就做了出了预测截止到2月12日早上9点,首周票房对比结果除了《流浪地球》这匹黑马杀出重围之外(挖掘算法也没想到国产科幻电影也有翻身的一天),其他电影的预测结果与实际结果几乎完全吻合!【例】2019贺岁片预测大公司如何利用大数据分析获取商业信息的2022年初我国开始启动“东数西算”工程“东数西算”的“数”指的是数据,“算”即算力,是对数据的处理能力。“东数西算”,是指通过构建数据中心、云计算、大数据一体化的新型算力网络体系,把东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同发展。简单来说,就是让西部的算力资源更充分地支撑东部数据的运算,更好地为数字化发展赋能。“东数西算”工程“数”指数据,“算”是算力,即对数据的处理能力大数据专业的就业岗位数据可视化开发:数据可视化显示、系统集成大数据系统运维:数据收集、整理、存储、维护大数据从业者职业道德风险出卖客户人员私密信息,造成恶意竞争恶意篡改、泄露信息,换取经济利益内部舞弊,阻碍决策【讨论】大数据从业者应遵循的职业素养强化个人权益坚持多边合作,数据跨境流动立法加强明确权利属性,数据权属立法探索初现大数据从业者应遵循的原则

-

宏观层面大数据从业者应遵循的原则

-

微观层面培养、提高对大数据的分析判断能力,以及大数据的处理应用能力,敬业、诚信,确保合理合法的使用数据信息自觉遵守国家大数据方面的法律法规,以及行业规章制度,依法运用大数据,保护涉及到的隐私权树立终身学习理念,提高自身道德认知水平,坚决与违法行为说“不”大数据法制最为突出的问题是非法获取、分享和交易导致的个人信息泄露与滥用。强化个人权益数据只有实现在更大范围内的流动共享,才能更好地发挥对经济增长、社会发展、全球化进程的支撑推动作用。数据权属不清楚因而收益分配不清楚的现实问题,这反映了加快数据所有权研究和立法的紧迫性和必要性。坚持多边合作,数据跨境流动立法加强明确权利属性,数据权属立法探索初现大数据犯罪案例任务三云计算的未来3云计算的历史目前,在国内企业,不论是国企还是民企,真正在业务决策中以数据分析结果为依据的,主要集中在银行,保险,电信和电商等几个行业。以IT预算最充沛,人员能力最强的银行为例,目前主要是大型银行在云存储和云计算。云计算的概念美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算的特点按需部署虚拟化技术灵活性高动态可扩展云计算的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论