版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘与商务智能大数据时代大数据时代大数据时代第1页数据是宝贵财富,其中蕴含大量有用(有利于管理和决策)信息和知识。计算机和通讯技术发展,使数据量急剧增加,人类进入大数据时代。收集、传输、存放、整合、分析与挖掘数据各项技术快速发展。大数据时代,数据分析与数据挖掘作为一门信息技术,其兴起主要是受数据积累增加和对数据分析需求驱动。第2页在大数据时代,我们共同探讨数据分析与数据挖掘思想、方法、工具和应用前景。尽量向大家介绍数据挖掘与商务智能全貌,给一些资料性信息。因为数据挖掘与商务智能包括方法广泛,软件、工具、企业太多,应用太广,此次以介绍方法为主。第3页大数据挖掘与商务智能概论大数据将变革现有数
2、据观大数据”对社会发展影响商务智能和数据挖掘作用云计算构建新型信息基础设施信息时代高科技犯罪目录大数据挖掘与商务智能概论大数据将变革现有数据观大数据”对社会发展影响商务智能和数据挖掘作用云计算构建新型信息基础设施信息时代高科技犯罪大数据挖掘与商务智能概论大数据将变革现有数据观大数据”对社会发展影响商务智能和数据挖掘作用云计算构建新型信息基础设施信息时代高科技犯罪第4页 大数据挖掘 与商务智能概论第一部分第一第5页从数据谈起数据无所不在大数据现象、起源与特征第6页大数据现象与起源(1)从2月18日开始,全国70万家三上企业和房地产开发经营企业将在统一数据采集和处理平台上,经过互联网直接向国家数据
3、中心。年实现数据联网直报“三个全部”:全部由调查对象填报调查,全部经过互联网直接向国家数据中心报送;全部现场调查,全部由调查员手持电子终端设备现场采集数据,并经过网络直报国家数据中心;全部国家统计调查,均在统一软件平台处理数据。国家(省、市)统计局(8)第7页国家统计局推进“大数据”应用11月19日下午,国家统计局与baidu、阿里巴巴等11家企业签署了大数据战略合作框架协议,共同推进大数据在政府统计中应用。年9月30日,国家统计局第二批企业大数据战略合作协议签约仪式在京盛大举行,搜房、浪潮、数海等6家企业参加签约。第8页大数据现象与起源(2)金融数据(/)低频数据:日数据高频数据:金融市场中
4、逐笔交易数据和逐秒交易数据超高频数据:实时数据第9页金融大数据挑战与应对在以网络化和数字化为基本特征新经济时代,金融产业日渐回归本质,表现为金融数据流产生、交换、存放、分析以及使用。大数据对金融业带来了猛烈挑战冲击,我国金融机构需要明确大数据战略顶层设计,加强大数据基础设施建设,实施稳妥大数据安全策略,方能从容迎接大数据时代。第10页在超市中,数据经过条码扫描机获得。这么“购物蓝”数据库由大量交易统计组成。RFID技术与物联网应用大数据现象与起源(3)第11页什么是物联网?全方面感知可靠传输智能处理感知传输智能利用RFID、传感器、二维码等能够随时随地采集物体动态信息。经过网络将感知各种信息进
5、行实时传送。 利用计算机技术,及时地对海量数据进行信息控制,真正到达了人与物沟通、物与物沟通。第12页物联网大数据挑战物联网不但仅是传感器,物联网是提供支撑智慧地球一个基础架构,物联网存在使这种基于大数据采集以及分析变成了一个可能,这面临着三项挑战。物联网边缘计算。物联网中间件。物联网运行管理平台。第13页 全球四大卫星导航系统北斗卫星导航系统美国全球定位系统俄罗斯格洛纳斯欧盟伽利略系统到年,北斗卫星导航系统将拥有35颗卫星截止6月12日,已发射23颗,形成覆盖全球卫星网络,九省示范应用,LBS。大数据现象与起源(4)第14页北斗“三步走”发展战略GEO(GeosynchronousEeart
6、hOrbit):地球静止轨道卫星IGSO(InclinedGeosynchronousSatelliteOrbit):倾斜轨道同时卫星MEO(MediumEarthOrbit):中高轨卫星第15页大数据与北斗系统把短信和导航结合,是中国北斗卫星导航系统独特创造。北斗卫星导航系统应用当前逐步形成规模化、标准化趋势,已向民用用户全方面开放,成功应用于个人位臵服务、气象应用、交通管理、运输管理、应抢救援、精密授时、精细农业等多个行业。近期,东南亚四国(泰国、老挝、文莱缅甸)都于中国政府签署协议,采取我国北斗导航系统,同时中国与巴基斯坦有望在近期签署北斗系统合作协议,成为第五个使用北斗导航国家。第16
7、页生物信息学(人类基因组计划)神经信息学(人类脑计划)大数据现象与起源(5)第17页生命科学大数据时代降临要处理当前生命科学问题,需要从时空状态对生老病死进行解读,这就需要大数据,这种大数据揭示就是大科学,这种大科学就是人类发展史上最大产业。生命科学已进入大科学、大数据时代,基因资源源头。怎样去储存这些资源,为未来研究使用提供基础成为一个关键问题。为了适应更庞大数据存放、处理、分析与应用要求,深圳华大基因研究院还和国家超算天津中心、深圳超算中心、广州超算中心等机构展开战略性合作。下一步,将经过云计算模式来组织存放和处理相关数据。第18页大数据现象与起源(6)19第19页网络大数据20网络数据即
8、使不是最原始大数据源,也是使用最广泛、认可度最高大数据源。网络数据是指用户浏览万维网所产生日志信息,是等候分析和挖掘信息宝库。横跨于大量不一样行业中企业组织已经把那些来自于网站详细而又处于客户层面行为数据源整合入它们本身企业数据分析环境中。第20页大数据引发数据观变革第二部分第21页我们来到大数据时代数据极简主义大数据:一切数据皆有用数据观、技术、成本改变(硬件、软件和除理技术、起源)第22页全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇话,足够一个人昼夜不息读5.5 年天天会有 2.88 万个小时视频上传到Youtube,足够一个人昼夜不息观看3.3 年推特上天天公布 5 千万条消息,
9、假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息浏览16 年天天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收数据高达1.3EBGoogle 上天天需要处理24PB 数据人们从信息被动接收者变成了主动创造者我们来到大数据时代第23页20世纪90年代,数据仓库之父Bill Inmon就经常提及Big Data5 月,在“云计算相遇大数据” 为主题EMC World 会议中,EMC 抛出了Big Data概念什么是大数据:Big Data名词由来第24页 大数据=海量数据+复杂类型数据 海量和非结构化,增加如此之块,以至于难
10、以使用现有数据库管理工具来驾驭,困难在于数据获取、存贮、搜索、共享、分析和可视化等方面 大数据定义数据量复杂性:种类和速度销量库存薪酬表客户信息合约ERP/CRMWEB2.0广告博客搜索营销文本/图像网络日志大数据社会情绪音频/视频传感器RFID维基/博客微博金融信息个人数据位置信息政府信息气象数据保险信息EBPBTBGB维基大数据定义 大数据是任何超出了一台计算机处理能力数据量亚马逊大数据定义 大数据是由局部数据汇聚而成能反应出整体数据,整体数据又随时空在不停膨胀。Informatica大数据定义 大数据=交易数据+互动数据+观察数据中国电信大数据定义数据量中心大数据定义第25页 假如自然界
11、中事件完全不可预测地随机发生,人们生活将无法忍受;与此相反,假如每一件事情都是确定、完全能够预测,则生活将是无趣。利用因果关系解释观察现象或预测未来存在逻辑和实际上困难。 大数据理性认知美C.R 劳 与传统比较,大数据分析处理关键是预测和推断,根本变革在于不刻意追求因果关系,而更多关注相关关系。也就是说,只要知道和什么相关,而无须强求为何相关。英舍恩伯格 大数据时代降临,使人类第一次有机会和条件在非常多和非常深入层次取得和使用全方面数据、完整数据和系统数据,简而言之就是样本=总体。英舍恩伯格 大数据为政府统计提供了总体性、非结构化、丰富真实原始资料,能够极大地缩短数据采集时间,降低报表填报任务
12、,减轻调查对象负担,提升统计数据质量。 国家统计局 马建堂大数据,也叫全局数据、总体数据,数据量越大其预测和推断准确性越高第26页1. 体量Volume2. 多样性Variety3. 价值密度value4. 速度Velocity大数据异构和多样性,各种形式(文本、图像、视频、机器数据),无模式或者模式不显著,不连贯语法或句义以大量不相关信息对未来趋势与模式可预测分析,深度复杂分析,机器学习、人工智能实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理数据集合大数据:4V特征非结构化数据超大规模暴发式增加,比结构化数据增
13、加快10倍到50倍,是传统数据仓库10倍到50倍,占总数据量8090%第27页大数据不但仅是数据“大” 多大? PB级比大更主要是数据复杂性、全方面性,有时甚至大数据中小数据如一条微博就含有颠覆性价值软件是大数据引擎第28页大数据与传统数据库区分大数据是在传统数据库学科的分支数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:结构化程度:传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入
14、的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。噪声(异常)数据的处理:传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。第29页大数据市场分析1-年中国大数据市场规模2各行业大数据市场规模政府、互联网、电信、金融大数据市场规模较大,四个行业将占据二分之一市场份额。因为各个行业都存在大数据应用需求,潜在市场空间非常可观。是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例产
15、生。年-20,将迎来大数据市场飞速发展。年中国大数据市场规模到达4.7亿元,20大数据市场将迎来增速为138.3%飞跃,到20,整个市场规模迫近百亿。第30页国际企业角力大数据 EMCEMC大数据处理方案专注于使组织更有效地使用他们从不一样起源产生数据,包含网络上,网页上,消费者,监控系统和传感器。EMC数据计算产品事业部正在开发分析工具以处理大数据现象。EMC大数据处理方案包含40多个产品。年7月收购数据库软件供给商Greenplum,花费3亿美元七月收购数据复制处理方案提供商Data Domain,花费24亿美元不一定和大数据完全相关,EMC从起收购了Archer Technologies
16、, SourceLabs, FastScale Technology, Configuresoft, and Varonis Systems。IBMIBM策略是提供一个全方面方法来处理前所未有信息爆炸提出挑战,因为信息量不论在流量、种类、速度还是活力上都是爆炸式增加IBM一直致力于扩大对包含数据仓库中大数据、信息流和结构化数据分析在过去四年中,IBM已经投入超出120亿美元进行了23项相关并购,其中包含:209月收购数据库分析供给商Netezza企业,花费17亿美元2010月收购网络分析软件供给商Coremetrics年10月收购数据分析和统计软件提供商SPSS, 花费12亿美元年1月收购业务
17、规则管理软件供给商ILOG, 花费3亿4千万美元花费20亿美元收购商务智能软件供给商Cognos微软微软提供了高性能计算能力,并在靠Windows Compute Cluster服务器进入相关市场最近,微软HPC部门开发了该企业Dryad并行处理技术小区技术预览(CTP),第一步是向Windows HPC Server用户提供处理大数据工具甲骨文甲骨文大数据提供数据库和数据库软件主要用于配合Sun硬件,尤其是它最高端服务7月收购专注于数据复制和实时数据集成处理方案私人企业GoldenGate Software第31页大数据产业价值链数据数据掌控者,拥有或者能够搜集大量数据企业。海量数据就是财富
18、,能够考虑自己分析或者卖数据给其它企业。技术技术供给商或者分析企业。掌握了从海量数据中分析出有用信息技能或者工具,但本身不一定拥有数据。思维有创新思维人或者企业。他们对大数据敏感,有怎样挖掘数据新价值独特想法。第32页分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存放;分布式文件系统等计算结果展现:云计算;标签云;关系图等大数据技术体系:取、存、管、用存放结构化数据:海量数
19、据查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存放不利于检索、查询和存放半结构化数据转换为结构化存放按照非结构化存放处理方案:Hadoop(MapReduce技术)流计算(twitterstorm和yahoo!S4)第33页高并发读写大数据关键技术需求高效率存放 和访问高可扩展性和高可用性低成本建设运维 确保一致性开销过大,难以实现高并发 存放性能受限于控制器,性能难以确保 关系型表单存放难以适应不一样数据类型 上亿行数据超级达标效率极低 传统基于盘阵存放设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高 许可和维护花费高昂 无法简单经过添加
20、服务节点来扩展数据容量和负载能力,难以进行横向扩展 数据库升级需要停机维护和数据迁移,造成服务中止 不确保遵照ACID标准,提升并发读写性能 Schema-Free存放适应不一样数据类型舍弃SQL标准功效,尽可能简化数据操作,提升效率MapReduce实现高效访问 基于X86设备,价格低廉开源系统,节约许可费用 支持水平扩展,可简单经过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务连续第34页大数据分析模型研究对象由组织、用户、大数据和工具组成运行系统研究内容大数据组成 大数据行为 大数据行为和数据组织研究方法知识工程解构大数据系统研发工程支撑大数据系统价值工程牵引大数据系统研究目标
21、大数据生产平台大数据开发平台大数据采集平台大数据应用平台研究重点数据分而治之资源组织调度逻辑复制迁移组织大数据用户工具知识工程研发工程价值工程社会价值结构功效信源信宿信道控制状态协同生产采集存放应用传递展现概念定议划分经济价值科技价值商业价值为何是什么怎么做第35页大数据变革现有数据观:以变革始大数据将变革人们认世界的模式,最重要的是建模分析的方式;由选择抽样到全样本(all-sample),“样本=总体”;大数据更重视相关关系,而不去过于追求因果关系;即使从前的建模也一样是模拟,无法解决因果;大数据将彻底改变IT公司的构成,拥有数据、技术与思维的公司将三足鼎立,但最终拥有数据的公司将最有价值
22、。大数据改变政府和企业对待数据的观念,真正认识到数据的重要性政务的大数据需求:原有异构数据的整理收集以及未来的应用创新第36页 大数据是组织一个资产 数据资源已经是上升为国家战略资源。人类已进入“后信息经济时代”,即智慧经济。 智慧经济是一个创新形态萌生经济,能实现经济与环境、能源、社会最大程度可连续发展。 大数据是智慧经济基础。从哪里来、当前在哪里、要到哪里去大数据是一个资产第37页 三个小故事:智者善用数据和工具 孟德尔碗豆杂交试验,基于数十年试验数据,经过采集、分析、归纳、推导、预测找到其规律。(一)使用数据 曹冲称象,大而划之、分而治之。秤是分析,算盘是汇总。(二)处理数据 平民传奇,
23、分布式文件系统、分布式数据库系统,处理对象切分与存贮;MR编程模式处理分析与归纳。(三)构建系统第38页 大数据处理行为技术特征数据无限分而治之功效有限复制分发第39页 大数据系统定义 是一个以人为主导,利用计算机硬件、软件、网络通信设备以及其它办公设备,进行信息搜集、传输、加工、储存、更新、拓展和维护系统 是一个将各类信息系统产生数据作为存贮、分析和利用信息系统,经过借助计算机硬件、软件、网络通信设备以及其它设备,实现对数据搜集、存贮、处理、传递、备份系统。管理信息系统大数据系统第40页 大数据系统设计目标设计目标1可以存贮海量数2可以进行高速处理3可以快速开发出并行服务4可以搭建在廉价的机
24、群上第41页 大数据系统逻辑架构数据应用层外部系统层数据计算层数据节点子系统任务节点子系统综合管控层信息安全保障体系标准规范体系数据分析层 定制计算子系统 数据分析子系统 数据仓库子系统 数据域节点子系统任务节点子系统名称节点子系统作业节点子系统数据库主节点子系统统一协同节点子系统备份节点子系统 数据调用子系统 数据展现子系统 数据采集子系统 ERP系统 电子商务网站 第42页 与现有系统关系现有系统大数据系统数据输入分布节点1分布节点2分布节点3输出现有系统调用大数据系统分布节点1分布节点2分布节点3输出第43页HADOOP第44页MaHout第45页主流大数据库 使用现实状况第46页大数据
25、现象An EverestSized Opportunity!47第47页容量单位:从K到YKMGTPEZYKKilo1K字节=1,024字节MMeg1M字节=1,048,576字节GGiga1G字节=1,073,741,824字节TTera1T字节=1,099,511,627,776字节PPeta1P字节=1,125,899,906,842,624字节EExa1E字节=1,152,921,504,606,846,976字节ZZetta1Z字节=1,180,591,620,717,411,303,424字节YYotta1Y字节=1208,925,819,614,629,174,706,176字节
26、48数据存放单位及换算关系第48页大数据价值(Value)大数据价值密度低。大数据将引发新“智慧革命”:从海量、复杂、实时大数据中能够发现知识、提升智能、创造价值。有了云计算、物联网,但缺乏大数据分析处理核心技术,智慧城市“大脑”就不够发达,“智商”就不够高,能力就不够强。第49页广义大数据人才、组织(数据科学家等)数据处理、存放、分析技术(Hadoop、NoSQL、机器学习、统计分析等)非结构化数据(文本、视频、声音、传感器、GPS等)结构化数据(客户数据、销售数据等)狭义大数据(具备3V特征)广义大数据第50页新信息世界观:物理世界、信息世界、人类社会组成三元世界大数据第51页共生智能系统
27、中数据、信息与知识管理组织与社群:人类集体智能决议与问题求解扩展计算机网络系统:人工智能数据加工平台可感知环境与物品:周遭智能(AmI)感知与执行终端数据、信息、知识流转共生智能系统:综合集成共同处理现实复杂问题第52页大数据对社会发展影响第三部分第53页大数据对社会发展影响科学研究第四种范式公共管理大数据国家战略智慧城市工业生产与商业经营大数据产业链与商务智能第54页自然科学大数据专刊2月11日出版科学9月3日出版自然杂志刊登专题大数据杂志登载专题数据处理第55页第四种范式观察与经验描述与试验、理论建模、仿真与计算等科研模式之后,当代又出现了数据密集型科研范式。微软企业于10月公布了TheF
28、ourthParadigm:Data-IntensiveScientific,首次全方面地描述了快速兴起数据密集型科学研究。“TheNextScienceRevolution”,HarvardBusinessReview,November第56页第四范式:数据密集型科学发觉汉字版科学正在进入一个崭新阶段。在信息与网络技术快速发展推进下,大量从宏观到微观、从自然到社会观察、感知、计算、仿真、模拟、传输等设施和活动,产生出大量科学数据,形成被成为“大数据”(BigData)新科学基础设施。57第57页大数据国家战略5月,联合国公布了大数据促发展:挑战与机遇白皮书。58第58页国家大数据战略8月,国
29、务院促进大数据发展行动纲要。9月,贵州获批全国首个大数据综合试验区。11月,中国共产党十八届五中全会公报提出要实施“国家大数据战略”。年3月,“十三五”规划纲要中指出,实施国家大数据战略。年8月,国家发改委公布关于组织申报大数据领域创新能力建设专题通知,组建13个国家级大数据试验室。年10月,第二批国家级大数据综试区,包含两个跨区域类综试区(京津冀、珠江三角洲),四个区域示范类综试区(上海、河南、重庆、沈阳),一个大数据基础设施统筹发展类综试区(内蒙古)。第59页公共管理智慧城市建设愿景第60页“智慧城市”系统体系结构综合应用智能处理传输感知华为企业提议一个“智慧城市”系统体系结构第61页物理
30、空间信息与知识空间社会心智空间智慧城市三个空间理论第62页智慧城市三个空间理论城市管理是个复杂学科,智慧城市建设是一项复杂系统工程。对智慧城市建设应该同时着眼于三个空间整体。63第63页64第64页44第65页大数据:变革世界关键资源Dataarebecomingthenewrawmaterialofbusiness:aneconomicinputalmostonaparwithcapitalandlabor.数据正逐步变成商业所需原材料之一:一项几乎和资本或劳力一样主要经济原料。(Feb.27th,2010)66第66页产业界关注麦肯锡咨询企业“大数据”研究报告“Bigdata:Thenex
31、tfrontierforinnovation,competition,andproductivity”McKinseyGlobalInstitute,May2011.高德纳(Gartner)研究与顾问咨询企业第67页大数据产业链大数据产业是指对互联网、移动互联网、运行商等渠道产生大量数据资源进行快速获取、搜集存放、价值提炼、智能处理和分发,从而用于企业决议支持等方面信息服务业。大数据全生命周期能够划分为“数据产生数据采集数据传输数据存放数据处理数据分析与挖掘数据公布、展示和应用产生新数据”等阶段。大数据产业链主要包含数据源层、数据存放平台层、数据分析和挖掘层以及大数据应用层。大数据应用层主要分
32、布在互联网、电信、金融、零售和政府等行业,和企业用户业务愈加结合紧密,经过大数据分析实现商业智能(BI)、决议支持和用户需求挖掘等应用价值。第68页大数据产业链第69页大数据产业链第70页通信行业大数据产业链结构第71页第72页Gartner魔力象限横轴:前瞻性(CompletenessofVision)包括厂商或供给商提供产品底层技术基础能力、市场领导能力、创新能力和外部投资等等。纵轴:执行能力(AbilitytoExecute)包括产品使用难度、市场服务完善程度和技术支持能力、管理团体经验和能力等。NichePlayers利基者、投机者Challengers挑战者Visionaries有远
33、见者、愿景者Leaders领导者、行业领袖52第73页年数据仓库和数据管了解决方案魔力象限第74页商务智能(BI)魔力象限第75页智能决议与管理科学目前决策制定者正在被大量数据淹没,数字信息从各种各样传感器、工具和模拟实验那里源源不停地涌来,令企业组织能力、分析能力和储存信息能力捉襟见肘。正如麦肯锡报告揭示那样,商业管理作为科学一个特征正在越来越凸现出来。第76页管理与管理系统管理是管理主体作用于管理客体活动过程。随着科技发展,管理及管理系统数字化、网络化、智能化已越来越受到人们广泛关注。信息管理系统:数据处理系统、检索系统、计算机辅助系统、管理信息系统(MIS)、办公自动化系统(OA)、决议
34、支持系统(DSS)、知识管理系统(KMS)等。第77页决议与信息78“决议”一词英语表述为decision-making,意思就是作出决定或选择。当今是信息爆炸时代,主要不是取得信息,而在于对信息加工和分析,使之对决议有用。决议者需要是对决议有意义新信息,决议者注意力是一个最宝贵资源,不能无谓消耗在大量无关信息上。对信息提供,就应该有一定条件限制,不符合这些条件信息,不应该输送给决议者。所以信息系统应该包含一个筛选系统,以确保提供与决议相关有用信息。第78页决议需要信息与知识情报阶段:确定问题设计阶段:找出处理方案选择阶段:选出处理方案实施阶段:实施方案返回情报阶段返回设计阶段返回选择阶段西蒙
35、决议过程四个阶段决议过程发觉那些需要引发注意征兆并加以解释,比如销售滑坡、生产成本猛涨、老用户对新产品需求、新竞争对手带来威胁等。最优方案由各种原因决定,如成本、实施难易程度、对员工要求、方案实施时间次序等。执行选中方案,检测实施结果,并作出必要调整。第79页商务智能和数据挖掘作用第四部分第四部分第80页什么是商务智能? 高级管理人员信息系统(EIS)管理信息系统(MIS),决议支持系统(DSS)数据库技术,数据仓库(数据集市)数据整合与清洗工具查询和汇报工具,在线分析处理工具(OLAP)统计数据分析,数据挖掘分析性ERP、CRM、SCM企业绩效管理,平衡记分卡第81页商业智能Gartner商
36、业智能概念于1996年最早由加特纳集团(GartnerGroup)提出,加特纳集团将商业智能定义为:商业智能描述了一系列概念和方法,经过应用基于事实支持系统来辅助商业决议制订。商业智能技术提供使企业快速分析数据技术和方法,包含搜集、管理和分析数据,将这些数据转化为有用信息,然后分发到企业各处。第82页什么是商务智能? 商务智能是企业利用当代信息技术搜集、管理和分析结构化和非结构化商务数据和信息,创造和累计商务知识和看法,改进商务决议水平,采取有效商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力智慧和能力。/view/557579.htm第83页企业 企业这里用“组织机构”或“实体
37、”会显得更完整,因为全部组织机构和实体(不只是企业)都能够而且应该利用商务智能;之所以仍用“企业”是为保持与“商务”一致性。各行各业,包含非企业性机构,比如政府部门、教育机构、医疗机构和公用事业等,都应该而且能够利用商务智能。第84页当代信息技术利用当代信息技术这是这一定义中关键之一,IT发展产生了信息经济和信息社会,在这一新型经济和社会形态中,信息爆炸式激增又产生了对能够处理和控制信息新技术强烈需求;商务智能就是新IT在商务分析中有效利用。BI过程中所包括IT主要有:从不一样数据源搜集数据中提取有用数据,对数据进行清理以确保数据质量,将数据经转换、重构后存入数据仓库或数据集市(这时数据变为信
38、息),然后寻找适当查询、汇报和分析工具和数据挖掘工具对信息进行处理(这时信息变为辅助决议知识),最终将知识展现于用户面前,转变为决议。第85页搜集数据收集收集数据是管理和分析数据前提,数据收集工作是十分主要,必须引发企业充分重视,在这方面中国企业与世界上发达国家中先进企业之间差距非常大,这是商务智能在中国还不能很快成熟起来主要原因之一,这应了中国一句俗话:“巧妇难为无米之炊”。数据和信息收集主要是经过各种交易系统进行,比如ERP、CRM、SCM和E-Business等系统。伴随中国企业在这些方面进步,数据和信息数量会快速增加。另外,信息,尤其是非结构化信息,来自企业各个部门和各个员工创造和收集
39、、没有放在上述交易系统中内容。第三方也是企业收集数据和信息一个主要起源,这么外部数据和信息包含市场调研汇报、人口统计汇报、用户信用汇报等。第86页管理和分析数据管理这里“管理”主要是指对数据储存、提取、清洗、转换、装载、整合等工作,其目标主要是为了提高数据质量和安全性。分析“分析”是一个广泛概念,这里包括数据查询、数据汇报、多维分析、数据挖掘、高级统计分析等。大多数人了解商务智能都集中在这些分析工具上。第87页结构化与非结构化数据结构化结构化数据主要是指储存于各个交易系统背后关系型数据库中数据,通常都是以表格形式存在和展现。传统商务智能概念只包括这种结构化、可定量数据。非结构化非结构化数据和信
40、息主要是上面提到各个部门和各个员工创造和收集、没有放在各种交易系统中内容,通常是以零散文件形式存在和展现;新商务智能概念纳入了非结构化内容分析,不过非机构化内容管理依然主要是经过文件管理和内容管理(DocumentManagement&ContentManagement)软件来进行。第88页商务数据和信息商务数据和信息并不能加以狭隘了解,这里所致商务数据和信息包含一切可能对商务产生影响、直接和间接数据和信息,往小里说包含顾客名字、地址和电话号码等,往大里说包含过国际上政治、经济、文化和军事情况等。第89页商务智能目标创造和累计商务知识和看法这是商务智能第一层目标和功能,也是最直接目标和功能;“
41、知识和看法”正是“智能”得名由来。改进商务决议水平这是商务智能更高一层目标和功能,企业能否利用好这一功能、实现这一目标在很大程度上取决于领导者意识和胸襟以及企业文化中决议科学化和民主化成份。第90页商务行动与商务流程采取有效商务行动采取有效商务行动是创造和累计商务知识和看法、改善商务决策水平目标和动力。商务智能是能够指导实战高明兵法,而不是“无所不知、但无能为力”“纸上谈兵”。完善各种商务流程残缺、散乱、僵化、低效商务流程是企业顽疾,商务智能能够为这一顽疾诊断和治疗做出一定贡献;优化后自动化(请注意先后次序)商务流程反过来也会促进商务智能发展。第91页商务绩效 提升各方面商务绩效这是商务智能在
42、企业内部最高目标和作用,有效商务智能系统和技术能够帮助企业提升各个方面绩效:财务和非财务,前台和后台,企业内和供给链内,组织和个人。企业绩效管理已成为热门管理和技术概念,这既是因为各种软件厂商推动又是因为企业所面临绩效方面压力增大。第92页综合竞争力增强综合竞争力这是商务智能在企业中最高目标和作用。商务智能事关企业兴衰成败和生死存亡。如今以及未来企业之间竞争是主要是综合智能上竞争,不论是中国企业还是外国企业,不论是国营企业还是民营企业,不论是大企业还是小企业,都必须提升企业经营和竞争活动中智能水平,争取成为优异智能企业,否则一定会落后于智能上高人一等、捷足先登企业。智慧和能力把商务智能分为智慧
43、和能力是因为真正商务智能现有思想层面也有行动层面(而且“智能”本身能够一分为二、二合为一)。第93页商务智能关键技术起源:从数据到知识挑战和跨越结蛹:数据仓库之厚积薄发蚕动:联机分析处理之惊艳破茧:数据挖掘之智能生命产生化蝶:数据可视化华丽上演第94页数据、信息与知识每时每刻,我们身边都充满了各种各样数据。但只有将这些杂乱无章数据,转换为信息和知识,才能帮助我们做出聪明选择。由于数据、信息与知识三者之间有着亲密相关性,他们常被混淆使用。我们将重点对数据、信息与知识进行分析和对比。第95页数据(Data)数据泛指对客观事物数量、属性、位臵及其相互关系抽象表示,以适合于用人工或自然方式进行保留、传
44、递和处理。比如,水温度是100,礼品重量是500克,木头长度是2米,大楼高度时45层。在这些表述中:100;500克;2米;45层就是数据。数据表现形式是多种多样,除了数字,数据还以图像、声音、文字等形式表现出来。第96页信息(Information)信息是指有一定含义、经过加工处理、对决策有价值数据。信息数据处理信息是有意义数据,是被赋予相关性和目标性数据。例如,人口分布情况、降雨量分布情况等。可以用专门信息管理系统对各类信息进行管理。信息管理系统最基本功能就是数据收集和数据处理。第97页76知识(Knowledge)知识是信息基础上又一次升华,是浓缩系统化了信息。需要经过信息,使用归纳、演
45、绎方法得到。知识只有在经过广泛深入地实践检验,被人消化吸收,并成为了个人信念和判断取向之后才能成为知识。知识信息+了解(understanding)与推理(reasoning)处理问题技能(skill)决议支持系统、教授系统、案例推理系统是对人类知识利用,而智能数据分析是取得隐含在数据信息中知识。OECD1990s知识分类3W+H第98页信息(Information)知识(Knowledge)与智慧(Wisdom)99第99页TheDataInformationKnowledgeandWisdomHierarchy(DIKW)知识是从数据到智慧划分为不一样层次。100第100页数据分析与挖掘价
46、值第101页数据分析与挖掘概况数据爆炸,知识贫乏苦恼:淹没在数据中;不能制订合适决议!数据知识决议n模式n趋势n事实n关系n模型n关联规则n序列n目标市场n资金分配n贸易选择n在哪儿做广告n销售地理位置n金融n经济n政府n人口统计n生命周期第102页数据解析学专题汇报Analytics:Thereal-worlduseofbigdataHowinnovativeenterprisesextractvaluefromuncertaindata()第103页数据解析学(DataAnalytics)数据解析学是各种学科交叉产物。商务智能e-science数据解析学统计学数据分析机器学习数据挖掘知识发
47、觉数学概率论计算机科学人工智能数据库数据仓库信息管理知识管理运筹学/管理科学第104页什么是商务分析?(BusinessAnalytics) 商务分析以商业知识为基础,以建模和编程为伎俩,从数据分析出发,以决议优化来创造价值新兴专业,实现大数据商业应用。 Businessanalysisonthebasisofbusinessknowledge,bymeansofmodelingandprogramming,startingfromtheanalysisofdata,tocreatevalueofemergingprofessionaldecisionmakingoptimization,im
48、plementationoflargeNumbersAccordingtothecommercialapplication105第105页BusinessAnalyticsDescriptivePrescriptivePredictiveBusinessAnalytics第106页云计算构建新型信息基础设施第五部分第107页云计算与大数据大数据应用运行在云平台之上假如数据是财富,那么大数据就是宝藏;云计算就是挖掘和利用宝藏利器!没有强大计算能力,数据宝藏终究是镜中花;没有大数据存放和积淀,云计算也只能是杀鸡用宰牛刀!第108页什么是云计算:云业务模式Gartner高级分析师Ben Pring评
49、价道:“它正在成为一个大众化词语。”不过,问题是似乎每个人对于云计算了解各不相同。作为一个对互联网比喻,“云”是很轻易了解。不过一旦同“计算”联络起来,它意义就扩展了,而且开始变得含糊起来。有些分析师和企业把云计算仅仅定义为计算升级版基本上就是互联网上提供众多虚拟服务器。另外一些人把云计算定义愈加宽泛,他们认为用户在防火墙保护之外消费任何事物都处于“云”之中。人云亦云 众说纷纭提交请求硬件软件服务存放网络云用户按需付费服务第109页什么是云计算: 业务模式同时满足以上三个条件是云计算1服务可租用:用户所需资源不在客户一端而在网络2服务可计量:服务能力含有分钟级或秒级计量能力3高性价比:含有较之
50、传统模式5倍以上性价比优势云计算第110页云计算定义与特征(12345)经过网络接入弹性可扩展物理或虚拟资源池,并能够以按需、自服务方式对资源进行布署和管理服务模式1个定义1:提供者以租代售,由卖产品变为卖服务,提升资源利用率并降低服务成本2:使用者以租代买,提升投资回报率2个角色3种模式1:SAAS(软件即服务)2:PAAS(平台即服务)3:IAAS(基础设施即服务)1:私有云2:小区云3:公有云4:混合云4种布署1:宽带网络接入2:按需服务3:资源共享4:快速弹性扩展5:服务可度量5个特点什么是云计算:技术特征第111页虚拟化技术硬件虚拟化系统虚拟化应用虚拟化并行运算技术映射(Map)归约
51、(Reduce)云计算4大支撑技术四大技术是拆分分布技术是合成一机变多机一算变多算一存变多存海量数据管理技术列族存贮主服务器子表服务器海量数据存贮技术元数据节点数据节点一库变多库第112页云四大效能:对客户价值整体高效、资源共效按需分配、均衡统筹互联互通数据统一第113页云最大优势,有效处理资源、信息孤岛问题共享硬件资源:计算、存放、网络统一管理业务、应用、数据统一安全服务统一管理服务标准、规范、法规体系专网专网专网专网专网专网信息基础网络设施第114页世界领先IT企业服务器持有量名称服务器数量备注谷歌(Google)100万台底依能耗推算数据为90万台,总数约占全球2%,Google 建成一
52、个单体数据中心服务器数量就高达4.5万台。估算当前全球服务器数量(30多个数据中心)数量应在100万台。亚马逊45.4万台据中国软件网推测,这些服务器分布于全球7100个机架上,过去6个月每个月新增110个机架惠普(HP/EDS)38万台HP收购EDS运行着180个数据中心微软30万台,微软那时有21.8万台服务器。微软在芝加哥新服务器农场能容下30万台服务器baidu25台据华为称,baidu服务器数量每年以10万台以上速度增加,baidu数据中心采取了华为 S9300设备。从市场份额和业务量推算从以来,baidu服务器应在40万台。腾讯20万台主要分布在深圳、上海、北京、天津、成都。其中腾
53、讯天津数据中心,初开建,投资5亿美元,服务器托管能力超出10万台。开工建设腾讯深汕云计算数据中心,总用地面积20万平方米,服务器20万台,总投资额20亿元人民币。Facebook 6万台全球拥有8亿用户,在俄勒冈州普赖因维尔(Prineville)建造新数据中心投资达2.1亿美元,数据中心第一期工程已于建设完成,建设面积为30万平方英尺第115页云计算产业市场前景 据IDC预计和推算,从底到年底,云计算能为全球带来12,103亿美元新业务收入,为中国带来超出20,483亿人民币(3,012亿美元)新净业务收入 服务创新孵化作用预测,以广东省为例,至年累计可研制孵化3000多个互联网服务,只要其
54、中千分之三服务能够到达腾讯规模,就能产生千亿元产值孵化数当年1002004008001600累计10030070015003100第116页截止到8月,国内众多省市、行业都规划、开启、应用了云计算服务。北京“祥云”计划上海“云海”计划深圳“鲲云”计划重庆“云端”计划宁波“星云”计划、无锡“云谷”计划苏州“彩云”计划哈尔滨“云飞扬”计划惠州“惠云”计划广州“天云”计划内蒙古“蓝天白云”计划云计算在中国第117页中国云要自己建,去IOE和八大金刚,及去开源IOE: IBM ORACLE EMC2八大金刚:思科、IBM、谷歌、高通、英特尔、苹果、甲骨文、微软美国“八大金刚”在中国长驱直入,占据政府、
55、海关、邮政、金融、铁路、民航、医疗、军警等关键领域,它们与美国政府、军队保持着紧密联络,美国情报部门经过它们设备、软件、网络获取信息,也几乎零门槛。开源云小区:OpensourceOpenstack非常活跃,应用也较为广泛;检验每一行代码,每一类库是不可能任务;开源小区掌握实际还是欧美产业界,并不完全是理想骑士们;产品过分用开源,服务得不到保障,另也会被开源绑架;一些半开源真品也一样混同我们视听。美国9家互联网企业在棱镜项目中暴露第118页云平台规划:总体技术架构云平台建设依靠于云计算技术,是新型计算资源利用模式。它将计算任务分布在由数台服务器组成资源池上,使各种应用系统能够依据需要获取计算能
56、力、存放空间和信息服务。设计理念:安全是前提应用是关键管控是关键利旧,扩展性第119页云操作系统:整个云平台管理者气象应用位置应用GIS应用桌面云应用桌面云APP资源管理子系统云中间件层应用层资源驱动层Xen驱动KVM驱动VMware驱动虚拟化驱动集合LocalDisk驱动NAS驱动IP-SAN驱动存放驱动集合FC-SAN驱动分布式存放驱动Switch驱动Firewall驱动LB驱动网络与外设驱动集合VPN驱动监控驱动通讯适配层消息队列消息格式转换传输协议支持网络通讯插件生命周期管理消息路由插件服务定义插件管理JavaC/C+Python.异构语言适配其它设备OS硬件安全体系管理体系计算资源管
57、理存放资源管理网络资源管理任务管理子系统任务过程管理任务计划管理监控管理子系统基本监控信息管理定制监控信息管理策略管理子系统调度策略管理容错策略管理节能策略管理动态迁移策略管理用户管理子系统用户管理授权管理分组管理OS管理集合单机OS管理存放OS管理交换机OS管理防火墙OS管理硬件管理集合服务器兼容管理存放设备兼容管理网络设备兼容管理负载均衡OS管理应用安全集合应用访问控制应用信息隐藏Web攻击防护URL信息防护网络安全集合网络流量控制网络流量分析网络访问控制虚拟私有云(VPC)OS 层服务器单机OS插件管理子系统故障管理子系统接口层自助服务:管理员入口普通用户入口API维护人员入口系统漏洞防
58、护弱口令防破解用户安全认证行为审计系统系统安全集合自助申请与交付组织管理与业务流程审批资源编排第120页云操作系统:资源全局监控对云平台配置、优化、管理策略和经验积累第121页电子政务云实施:传统电子政务建设面临问题 近年来,我国电子政务建设迅猛发展,全国绝大部分地域都已经建设了以电子政务基础网络平台、政府门户网站和办公自动化系统等为代表一系列电子政务项目,国家电子政务总体框架已见雏形。不过,伴随电子政务建设不停推进,许多矛盾和困难也随之不停涌现出来。 伴随政府信息化逐步深入,电子政务云平台发展推进了政务信息互联互通、信息共享、业务协同,强化了信息资源整合,规范了采集和公布,加强了社会综合开发
59、利用。建设电子政务公共平台是电子政务发展到深化应用、突出实效阶段主要举措。第122页电子政务云定义及目标电子政务云定义 “电子政务云”(E-government cloud)是利用云计算技术,统筹利用机房资源、计算资源、存放资源、网络资源、信息资源、应用支撑等资源和条件,发挥云计算虚拟化、高可靠性、通用性、高可扩展性以及快速、按需、弹性服务等特征,为区域政府单位用户提供基础设施、支撑软件、应用功效、信息资源、运行保障和信息安全等多方面不一样类型不一样级别服务电子政务综合性服务平台。电子政务云目标 电子政务云紧紧围绕各级政务部门深化电子政务应用、提升推行职责能力迫切需要,为各部门实现政务、业务目
60、标提供公共技术环境和服务支撑。满足业务不停发展和改革需要。满足跨地域、跨部门、跨层级信息共享,以及行业系统与地方应用条块结合需要。满足大量数据访问、存放和智能化处理需要。满足安全可靠运行需要。第123页电子政务云价值推进电子政务向科学发展方式转变提升基础设施资源利用率促进互联互通和信息共享提升电子政务信息安全保障能力四大价值云计算含有超强计算能力和低成本、高安全性等特征,将其应用于电子政务领域含有十分主要价值和意义。电子政务云应用价值主要包含以下几方面:第124页电子政务云总体布署架构4朵云-省级电子政务云-民生服务云-业务专有云-市级电子政务云N+1+N容灾模式-N个市级政务云采取省级政务云
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑涂料工程皮卡租赁合同
- 药物研发学徒技能提升计划
- 贸易余款偿还协议
- 2022年大学能源动力专业大学物理下册月考试卷A卷-附解析
- 结直肠狭窄内镜治疗
- 垃圾问题与学校教育的整合与创新
- 2022年大学电子信息科学专业大学物理二期中考试试卷-含答案
- 2022年大学环境生态专业大学物理二期末考试试卷D卷-含答案
- 消化道疾病的护理常规
- 智能餐厅解决方案
- 铝土矿采矿项目可行性研究报告写作范文
- 长方形、正方形的面积和周长复习课件
- WI-QA-02-034A0 灯具成品检验标准
- 农业信息技术 chapter5 地理信息系统
- 部编版六年级上语文阅读技巧及解答
- 斯派克max操作手册
- 项目四 三人表决器ppt课件
- 结合子的机械加工工艺规程及铣槽的夹具设计
- 林武樟 完整阳宅讲义 笔记版[方案]
- 《会滚的汽车》ppt课件
- 注册物业管理师考试历年真题及答案
评论
0/150
提交评论