版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
05二月2023大数据分析和内存计算第一讲:课程介绍李国良清华大学计算机系提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核05二月202305二月2023大数据(BigData)时代来临移动互联网Mobile
Internet物联网InternetofThings新量级、新处理模式、新企业智能05二月2023在Web2.0时代,人们从信息的被动接受者变成了主动创造者大数据举例互联网:社交网络、视频、图片、电子商务物联网:移动设备、传感器天文、地理、环境、气象、交通信息扫描书籍、历史文献、社会交互信息医疗扫描、电子病历05二月2023大数据典型应用搜索引擎:Google、Bing、Baidu、…电子商务:淘宝、京东、Amazon、eBay…零售业:Walmart可能净利润增长水平为60%或以上政府公共服务欧洲政府部门每年3500亿美元,大约每年0.5%的增长率医疗服务美国每年3000亿美元,大约每年0.7%的增长率制造业产品开发、组装成本降低50%05二月202305二月2023大数据潜力不同行业中,企业信息化成熟度差异明显政府等行业的信息化成熟度明显领先,总体处于扩展和整合优化阶段;除金融和电信之外的服务行业的信息化建设成熟度相对较低,仍处在成长阶段。对大数据的处理需求将启发对于IT系统投资新热点,证实IT推动业务发展,增加对IT投资。从IT系统走向大数据决策分析未来着眼点在于服务2000制造业金融电信政府互联网企业自动化走向初步信息化快速发展整体解决方案需求年600亿投资规模信息化走向移动互联化基本架构已经建立相对成熟500亿以上投资规模手工化向自动化转型:成熟度低成长阶段中国建筑信息化投入占总收入0.03%建筑流通移动互联化数据智能化大数据05二月2023大数据潜力05二月2023国外大公司的角逐Google:满足用户需求,将互联网将变得越来越智能。Facebook:人际网络,创造新的需求。Google利用好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道,颠覆了微软卖软件拷贝赚钱的模式。互联网越来越智能Google精确掌握用户行为、获取需求05二月2023国内大数据计划国内各地制定云计算“十二五”规划云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。
云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核05二月2023大数据诞生BigData专刊IT企业研究报告科学研究“第四范式”“十二五”规划美国重大研究计划DealingwithData专刊大数据计算辅助社会管理促进民生改善支持商业决策推动科技进步传染病预测海啸实时预警搜索与电子商务大数据研究意义智能交通大数据研究意义
居民消费价格指数(CPI)CPI意义:与民生密切相关的国家
经济决策重要指标反映通货膨胀率
目前存在问题:“滞后、不科学”—原社科院金融发展室主任易宪容“86%认为CPI与消费感受不符合”—中国政协网如何准确计算分析CPI大数据计算大数据定义及特点大数据是通过传统数据库技术和数据处理工具不能处理的庞大而复杂的数据集合。规模大(Volume)
速度快(Velocity)类型多(Variety)
价值密度低(Value)
5亿用户8亿商品20亿PV/天用户评论3万条/秒5万订单/分钟提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核05二月202305二月2023什么是“大数据”?海量数据(信息)非结构化数据Hadoop+Map/Reduce云计算数据(CloudData)数据密集型计算数据(DICData)05二月2023大数据的性质(4V)Volume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转巨大的数据价值05二月2023大数据的性质实例——城市计算速度快(Velocity)北京出租车每分钟400万条定位数据类型多(Variety)POI、路网、轨迹、路况、评论价值密度低(Value)特殊事件(赛事、事故)用户评论(污染、堵塞)规模大(Volume)街旁网有1亿次签到数据机器&人工05二月2023大数据——外延与应用密切相关的各类数据,强调对于支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构、质量差的数据生产数据、设计数据、统计数据文本、多媒体数据、各种文档数据HeterogeneousInformationNetwork世界上的数据80%是非结构化数据80-20规则提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核05二月202305二月2023与大数据相关的几个热点问题非结构化数据云计算与大数据Hadoop+HDFS+Map/ReduceNoSQL05二月2023什么是半结构化/非结构化数据23SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog05二月2023云计算与大数据云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式云计算是继大型主机、PC、互联网之后的IT领域的最新一次重大变革Amazon和Google是始作俑者虽然云计算和大数据是沿着不同的道路发展而来的,两者在技术和应用上相辅相成云计算提供的服务离不开它所能承载的大数据解决大数据的挑战,云计算模式是可行的方案云计算遭遇大数据是发展的必然趋势云计算与大数据云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式云计算是继大型主机、PC、互联网之后的IT领域的最新一次重大变革Amazon和Google是始作俑者云计算技术、CTO、成本大数据业务、CEO、价值云计算遭遇大数据是发展的必然趋势05二月2023Amazon云服务弹性计算云EC2简单存储服务S3简单数据库服务SimpleDB简单队列服务SQS弹性MapReduce服务内容推送服务CloudFront电子商务服务DevPay灵活支付服务FPS05二月2023大数据技术就是Hadoop+M/R?来源于Google,在类似搜索引擎的查询并行化分析处理领域取得极大成功针对大规模数据密集型应用的编程范式(programmingparadigm)所基于的BigTable和HDFS是非常质朴的数据模型和存储系统适用领域有限,为大数据研究打开了思路,但绝不代表大数据技术全部回到起点来重新审视数据管理之目的MapReduceMapReduce是一种编程模型,用于大规模数据集(一般大于1TB)的并行运算的实现特性用户自定义函数自动并行化容错I/O调度监听05二月2023MapReduceHadoop一个分布式系统和并行执行环境Hadoop这个框架实现了MapReduce,方便用户海量处理数据特点:扩容能力强成本低高效率可靠性适合场景大数据分析离线分析不适合场景少量数据复杂数据在线分析05二月2023大数据和数据库的关系数据库界从一开始就探索过,但还是过于保守忘不掉ACID,舍不得Relation,忽视实际应用沉浸在自己的世界里空值理论(NullValue),泛关系(UniversalRelation)数据库设计的范式理论(FD,MVD,4NF,5NF,……)潜意识地奉行“一招鲜”(OneSizeFitsAll,OSFA)Hadoop+Map/Reduce+Bigtable+HDFS响亮一击回到起点来考虑数据管理问题,豁然开朗大数据是数据库的自然延伸数据库关系代数索引查询优化事务处理05二月2023姓名学号班级年龄性别住址籍贯电话张三100计9120男北京海淀北京89150李四200计9219男北京东城北京88888王五300计9318女北京西城北京77777赵六400计9419女北京朝阳北京99999刘七500计9521男北京丰台北京88666课程名课程号地点教师DB15101李国良DB25102冯建华DM35103王建勇学号课程号分数10019920019830029705二月202305二月2023事务处理原子性(Atomicity)
-不可分割
一致性(Consistency)-前后一致隔离性(Isolation)-并发持久性(Durability)-永久05二月202305二月2023大数据的系统需求Highperformance–高并发读写的需求
高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储和访问的需求
类似SNS网站,海量用户信息的高效率实时存储和查询HighScalability&&HighAvailability–高可扩展性和高可用性的需求
需要拥有快速横向扩展能力、提供7*24小时不间断服务高并发读写大数据存储的核心需求高效率存储和访问高可扩展性和高可用性低成本建设运维保证一致性的开销过大,难以实现高并发存储性能受限于控制器,性能难以保证关系型表单存储难以适应不同数据类型上亿行数据的超级达标效率极低传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高许可和维护花费高昂无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展数据库升级需要停机维护和数据迁移,导致服务中断不保证遵循ACID原则,提高并发读写性能
Schema-Free存储适应不同数据类型舍弃SQL标准功能,尽量简化数据操作,提升效率MapReduce实现高效访问基于X86设备,价格低廉开源系统,节省许可费用支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续RDMSNoSQL05二月202305二月2023大数据管理三个层次Web数据管理决策数据管理科学数据管理05二月2023Web数据管理数据处理检索实时检索查询连续查询分析文本结构化数据图搜索引擎BigQuery(Google)Pregel,TrinityGoogleAlertG.R-T.search,FBSearchGoogleTrends/AnalyticsPageRanketc.YahooPipes通常依赖于廉价PC机所搭建的集群05二月2023Web数据管理示例:社交媒体数据管理关注列表join活动列表活动列表join活动列表实时统计推送系统的行为用户页面获取个性化内容展示“消息链”丰富信息量节省通讯目的看似简单的页面显示需要后台的大量查询处理支持05二月2023Web数据管理示例:社交媒体数据管理难点T:110M条消息/天≈1200条/秒
19GB/天(文本)W:峰值32312条/秒W:平均每个人关注540人
T:平均每个人关注36人W:转发超过1000的微博中,超过80%的转发发生在1个小时之内的占59%要求:(准)实时,大规模并发计算:查询,连接,统计关注列表join活动列表活动列表join活动列表实时统计推送T:W:05二月2023决策数据管理数据处理检索实时检索查询连续查询分析文本结构化数据图QA、
技术支持、
专家系统/
知识库构造OLAP报表物流优化通常使用高性能服务器和专用存储设备决策数据管理传统DBMS秉承的one-size-fits-all的理念不合适OLAP和数据仓库技术在新的硬件和体系结构情形下有新的发展机遇高可靠的MPP架构内存计算列存储应用:实时商务智能研究问题内存数据库,廉价高性能集群,优化分析05二月2023决策数据管理示例:商务智能(BI)传统处理方式离线:ETL,物化视图,报表生成,规则提取/模型训练在线:OLAP新问题:实时决策分析数据来源于各种传感器GPS,RFID,…即时处理,即时响应离线ETL不能满足需要应用:智能电网、供应链管理、物流优化、…05二月202305二月2023科学数据管理数据处理检索实时检索查询连续查询分析文本结构化数据非结构/
半结构数据文献检索内容订阅自动综述,知识库构建实验数据/观测数据/检测数据管理实验数据分析生物/…
数据分析异构、分布式系统05二月2023新型信息服务的商业模式互联网广告:Web+BI05二月2023新型信息服务:互联网广告数据处理检索实时检索查询连续查询分析文本结构化数据非结构/
半结构数据广告选择请求解析广告检索在线更新提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核05二月202305二月2023BigData带来的挑战不同“看”数据的方式需要更高性价比的数据计算与储存方式不同的数据管理策略超越企业现有IT的数据解决能量05二月2023超越企业现有IT数据解决能量每天几百GB、几TB的资料,且持续成长中储存Storing在收数据的同时做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的pattern或behavior分析Analyzing50大数据研究挑战全面考量高可扩展性高性能高度容错多类型传统数据仓库无法存储日益增长的海量数据传统数据仓库无法有效处理新型业务的数据05二月2023提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核05二月202305二月2023大数据处理平台MapReduceHadoopSparkNoSQLKey-valueColumnAmazonEC2S3Mturk提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核05二月202305二月2023大数据管理模型软件即服务——多租户模型大规模并行数据管理——MapReduce编程模型NoSQL数据模型CAP理论05二月2023多租户(Multi-Tenancy)多租户是服务提供商来提供软件和硬件在数据库层面实现虚拟化用户将软件、硬件、维护移交给第三方用户只需与第三方提供的服务交互05二月2023抓住长尾大型用户$/用户
运营成本长尾理论获利#用户数长尾市场>>现有市场05二月2023大数据管理模型软件即服务——多租户模型大规模并行数据管理——MapReduce编程模型NoSQL数据库CAP理论05二月2023MapReduceMapReduce是一种编程模型,用于大规模数据集(一般大于1TB)的并行运算的实现特性用户自定义函数自动并行化容错I/O调度监听05二月2023MapReduce步骤Key-value05二月2023Hadoop一个分布式系统和并行执行环境Hadoop这个框架实现了MapReduce,方便用户海量处理数据特点:扩容能力强成本低高效率可靠性适合场景大数据分析离线分析不适合场景少量数据复杂数据在线分析05二月2023大数据管理模型软件即服务——多租户模型大规模并行数据管理——MapReduce编程模型NoSQLCAP理论NoSQL简介NotOnlySQL,non-relationaldatabases处理超大数据量,TBorPB级别(Search)高并发(万/s),不注重事务(CAP原则)易部署、易扩展、易开发(透明)便宜05二月202305二月2023NoSQL背景大数据时代下的系统需求Highperformance–高并发读写的需求
高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储和访问的需求
类似SNS网站,海量用户信息的高效率实时存储和查询HighScalability&&HighAvailability–高可扩展性和高可用性的需求
需要拥有快速横向扩展能力、提供7*24小时不间断服务05二月2023NoSQL数据库分类Key/ValueStores(键/值存储库)AmazonSimpleDB/simpledb/BerkeleyDB/database/berkeley-db/db/index.htmlMemcacheDB/Redis/p/redis/DocumentStores(文档库)CouchDB/MongoDB/GraphDatabase(图形数据库)Neo4j/WideColumnStores(列存储库)Hadoop/Cassandra/cassandra/大数据管理模型软件即服务——多租户模型大规模并行数据管理——MapReduce编程模型NoSQLCAP理论05二月2023CAP理论一致性(Consistenc)可用性(Availability)分区容错性(PartitionTolerance)三者只能满足2个05二月2023Availability可用性传统关系数据库Key-value数据库Consistency一致性Partitiontolerance分区容错性05二月2023大数据应用举例移动互联网大数据时空大数据移动互联网拥有大数据大量用户大量数据用户通话信息用户喜好位置信息网络访问电子交易用户行为分析05二月202305二月2023大数据给移动互联网带来的机遇大数据分析平台,通过挖掘海量用户信息,提供更好服务用户,更好创造价值更好的引入新客户移动广告推送在线应用平台–applestore软件即服务应用平台–amazon05二月2023移动网络中用户行为分析数据来源更多,除传统数据外,我们还关注:用户的通讯信息:电话、短信、数据服务基于位置的信息:GPS、WiFi、传感器基于时间的信息:具体时间或日期05二月2023移动网络中用户行为分析05二月2023个性化推荐的相关技术研究用户用户研究,用户网上行为分析,用户消费心理社会化网络分析研究商品文本挖掘图像识别数据挖掘,机器学习,模式识别,人工智能相关性算法,Behavior Targeting概率统计,因子分析,主成分分析分布式计算因分析实时计算,实时推荐,事件营销知识提取情境感知表示度量定量度量获取融合劣质容忍总体研究方案大规模多源异构数据能效优化能耗复杂性能耗机理众包、知识图谱、情境感知能耗数学原理抽样邻域理论分析决策城市大数据挖掘分析数据获取城市大数据深度理解与融合城市大数据知识图谱构建城市大数据的挖掘与分析实时智能交通城市设施规划移动用户分析结构化数据资源半结构化/非结构化数据资源大数据实例——城市计算速度快(Velocity)北京出租车每分钟400万条定位数据类型多(Variety)POI、路网、轨迹、路况、评论价值密度低(Value
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论