利用大数据创造信息优势_第1页
利用大数据创造信息优势_第2页
利用大数据创造信息优势_第3页
利用大数据创造信息优势_第4页
利用大数据创造信息优势_第5页
已阅读5页,还剩157页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、利用大数据创造信息优势 目录什么是大数据和数据科学?帮助你能更聪明迅速开始的指导意见大数据能力及解决方案数据来自四面八方我们处于从大数据中提取价值的初期阶段12345 数据来自四面八方 | page 3随着计算设备变得更小更快捷,数年来,新数据生成器的数量只增不减Image: 未来各行业的竞争,包括保险业,是对真正深入理解洞察客户、极值化高贡献潜力价值客户满意度、以及一人一客的完全个体化产品服务生产及价格的竞争。马云这只有借力大数据及分析能够做到。从现在开始,居安思危,着手构建大数据平台及能力,方能在不远的将来免于被新型融合体系(例如互联网保险)、业内创新弄潮儿(例如平安及国外Oscar)赶超

2、甚至颠覆的厄运。我们正处在充满生命力的数字金融时代81%的上网方式是通过手机,使其成为连接互联网的主要渠道。2013年有4.16亿智能手机用户,超过美国总人口书。超过六亿社交媒体用户 正积极与品牌互动 58%的中国消费者愿意分享其个人数据来换取优惠。到2017年,移动广告市场预计可达到260亿元,成为增长最快的广告板块。 到2020年,中国的数字式宇宙将达到9000艾字节,但对商业决策有用的则不到30%。到2017年,将形成4.77亿个M2M模块,使智能设备走处当前“无声”物品的状态2013年,商品交易总额达9.9万亿元,中国将在12个月内超越美国,成为全球最大的移动商务市场。 2013年,总

3、价值达1670亿元的产品与服务在手机上售出,年复合增长率达60%。2013年,移动支付达1.3万亿元,市场竞争激烈,颠覆了内地传统的银行模式。移动互联网智能手机使用社交媒体移动营销隐私电子商务大数据物联网移动支付中国数字化大趋势移动商务数字化时代迅速发展,为企业与客户之间的互动创造了全新机会,大量的数字化交易和沟通的普及极大地推进了社会商业活动。客户分析洞察力各渠道产品创新力金融保险行业始终在高精技术领域处于全球领军位置,为太保打造技术能力,制定“核心竞争力要素战略”普华永道多年修炼具备的“保险独门秘籍”核心竞争力为太保打造独树一帜的数字太保的核心竞争力,助力太保突出重围010203保险大数据

4、技术互联网金融技术数据挖掘分析技术中国保险业大数据概况阿里集团旗下的阿里健康保险股份有限公司,利用集团在互联网和数据技术方面的优势,为用户提供个性化的优价产品,也为解决目前健康险领域高度同质化的竞争开辟新的思路中国人寿官方微信于2014年4月正式投入运营,微信后台提供的大数据能够及时准确地把握客户需求中国人保推出手机端app和WAP网站,移动保险应用+手机保险网站”将大数据手段介入与投保人的沟通对传统保险业的挑战本质上是对于客户了解的挑战,也是数据的挑战。保险业或者深化对大数据的应用或者被边缘化新兴金融模式对传统保险业的挑战保险业开始尝试通过大数据技术来获得竞争优势平安保险与国外数所大学合作研

5、发大数据项目,学习表情信号放大、情感侦测,分析采集到的大数据12互联网保险在中国只有短短十几年时间,但是凭借其网络平台的低成本、高流量的优势,迅速占领市场份额互联网将人群风险特征进行无限细分,充分利用“长尾效应”,组合成个性化的“团单”进行承保中国人寿在各种大型活动期间推出例如“网上嘉年华”等系列回馈活动,初步建立了用户大数据库平安保险构建客户历史信息数据处理系统,协助柜员迅速根据客户的不同情况调整服务重点大数据环境下中国保险业面临的挑战保持并且增加市场份额,同时加强客户关系和提升盈利水平大量内部数据相对独立,形成数据孤岛,缺乏大数据应用意识和能力实现销售与服务并重的企业核心价值,全面风险管控

6、和优化性能除了数据本身的大规模增长以外,保险业面临的更大的挑战是大数据带来的业务挑战,这包括:所有这些挑战,本质上就是因为保险公司对于客户的了解程度相对越来越弱对保险经营销售理念的颠覆互联网对保险行业最大的颠覆,是从“客户思维”到“用户思维”的改变。在互联网时代,由于信息量大,信息流动快,能最大程度消除信息不对称,消费者拥有了更多的知情权和选择权。竞争的关键点就在于个性化的产品极致的消费体验简约的形式跨界的资源整合大数据的分析运用互联网将保险市场的边界不断扩展保险业的传统业务在互联网保险推出的各种新兴业务面前不再具有竞争力互联网中蕴含的新风险,派生出的新的保障需求,如网购退货险、盗刷险等大数据

7、技术的应用,提升了行业风险定价与管理能力,从而将以前难以有效管理的风险纳入承保范围,如高温险、雾霾险、赏月险等借助互联网强大的客户聚集能力,发挥了“长尾效应”,将投保期间碎片化、保费碎片化,使得以往不具有高额投保能力的客户纳入被保人群,如一元“关爱险”等依托大数据分析和服务规划五大核心管理能力的建设蓝图财务绩效管理产品分析管理数据服务基础平台实时数据服务平台高效数据分析洞见平台大数据处理平台资本管理资本需求管理及计量资本供应管理资本结构优化资本分摊资产负债组合管理及规划流动性管理回报率管理RAROC/ROE优先级规划及预算投资管理企业风险管理财务管理资产负债管理客户关系管理绩效管理财务管理经济

8、盈利与收益分析平衡记分卡绩效评估与考核产品工厂产品定价配置产品功能与属性分析产品组装销售与服务客户关联销售产品渠道管理收益与效能分析投资规划与决策审批项目全过程管理收益评估客户视图内外、多元化客户全景视图主数据业务流程提升客户洞见战略分群与微观细分价值分析行为分析需求驱动与预测客户体验洞察驱动高绩效主动销售个性化互动服务多渠道多接触点的客户体验风险管控风险计量模型风险偏好和限额体系流动性风险资本充足率分析资产与负债分析集中敞口分析风险监测与预警体系内控合规与法务自查与自评缺陷整改合规事件追踪与管理案件管理合同管理关联交易分析考核与审查成本核算与计价分摊盈利能力分析预算分析经营管理分析中国保险业

9、的大数据应用场景保险数据保单交易数据用户金融信息电话录音互联网数据浏览信息搜索信息SNS信息用户数据身份信息和偏好数据地理位置信息用户事件电子渠道数据浏览信息交易数据消费趋势信息风险管理和合规反欺诈政策管理多点检测客户360客户视图客户定价客户分类营销实时营销更快的营销活动事件式营销全渠道营销业务核保承保理赔实时性大数据容量数据挖掘大数据在保险业的主要应用场景场景描述产品定价搜集宏观经济数据信息,进行产品研发,优化产品定价,从而提升产品的市场占有率精准营销分析客户行为进行客户分群,进行针对性的营销客户保留客户营销包括:实时营销、社交网络营销和事件式营销三种。风险等级评估提取消费信贷、房屋所有权

10、、人口统计、消费心态等信息,评估客户风险敞口,提升风险评估和定价能力欺诈检测保监会拟建保险征信平台,整合医疗、客户保单等数据,使用先进分析技术,将会大大降低保险欺诈的概率,并提升理赔处理效率中国人寿中国人寿对全媒体资源进行整合,开展数字化营销模式以“6.16客户节”为契机,结合官方微信账号向广大客户推出“网上嘉年华”系列回馈活动,成功实现了传统媒体与新媒体的有效协作、品牌和业务的充分联动,通过对后台数据的深入挖掘,为业务发展提供有力的支持中国人寿官方微信于2014年4月正式投入运营,通过丰富的互动活动与内容创作,初步建立了功能完善的用户数据库。全国性的数字化传播营销活动中,在微信粉丝增长及互动

11、程度上,取得了不菲的成绩大数据库构建,创造数字化传播手段平安保险平安保险探索数据处理新系统利用与国外数所大学合作研发的大数据项目,学习表情信号放大、情感侦测、机器分布式学习、WI-VI等前沿分析技术与建模方法等,处理研究大数据背后的含义平安保险还开发了寿险客户历史接触数据系统,柜员将客户信息录入系统后,该系统就能通过客户历史接触记录数据进行分析,并以锦囊形式推送给下次为该客户办理业务的柜员,协助柜员迅速调整服务重点中国人保中国人保数据整合之路:建立集团统一信息中心客户数据获取平台:推出“移动保险应用+手机保险网站”一体化的保险销售与服务平台,以大数据手段介入传统保险业务和保险人的沟通“中国人保

12、”APP:实现全流程投保、理赔、查询,根据客户偏好进行保险私人定制及其他增值服务,挖掘用户消费数据、行为习惯、忠诚度以及信用水平等数据,提供定制化产品、差异化服务WAP手机网站():着力于对新客户的获取及需求的挖掘,通过自然搜索及对外合作,不断引导客户到WAP手机网站2014中国网球公开赛推出“终极狂想”微信活动首次试水O2O;2015校园招聘打造引领行业潮流的HTML5页面,将以往传统项目搬上了新媒体的舞台;不断完善微信后台S-CRM体系,通过大数据准确把握客户需求WechatGlobalMediaWeiBoHTMLNewsPaperPublicInform大数据的应用案例业务员或客户经理利

13、用客户资料进行欺诈 (长期险险种,趸交险种,特定的客户类型)承保业务员 退保代办业务员 承保机构中其他能接触到客户资料的业务员内部数据客户信息数据地址数据电话语音转换为文本银行/账户代码保单回访信息系统 Log 外部数据 支付数据与零售商的沟通历史通过其他方式变更电话、地址等信息然后退保通过其他方式变更账号信息然后退保问题:数据量大,同时,又由于成本、资源和流程方面的局限性,导致公司在防范“异常业务资金流出”的命题上,只能采取案件被客户举报发后再追踪的被动应对策略效果:提高甄别潜在的渗漏和欺诈率 80%, 降低潜在损失达 60%国内某大型寿险公司:寿险欺诈和滥用 - 削减成本/减低赔损 利用数

14、据类型甄别现象大数据和可视化工具的应用:“行为”的方式甄别潜在的渗漏和欺诈等异常行为模式趋势描述降低成本识别可以利用大数据帮助降低成本的领域巩固满足保险公司需求的大数据技术通过共享服务提高效率人才利用开发新角色和职能协助员工培训发展构建跨组织的知识共享战略创新和盈利能力使用信息部署一个可以支持复杂分析的基础设施(例如,网络、公用/私有云)开发分析模型和算法维护和管理分析模型利用网络(图表)分析新增/加强信息管理能力利用大数据技术提高应用程序的灵活性利用大数据处理非结构化数据,并与结构化数据集成利用大数据技术使低延迟检索和高写性能用于大型时间序列数据集高效治理在大数据的商业案例上创建并获得共识为

15、大数据开发有效的管理、监视和控制在大数据和其他IT企业的计划之间建立一致性降低成本高效治理人才利用新增/加强信息管理能力创新和盈利能力使用信息大数据在保险业的应用趋势“大数据” 的现实6企业已经听到建立大数据平台,希望通过大数据的能力建设为传统的数据仓库带来新的气息。 当分析成为我们的生产力, 如何定义业务的价值和数据变现的商用模式成为我们的挑战。数据是新“石油”数据广泛存在,但需要通过挖掘来增加其价值。但是,不同于石油,数据永远不会成为一种稀缺资源,因为它以指数速率保持增长。广泛存在但仍很难获得科技使其更容易获得寻求价值丰富的接缝深入挖掘来发现可以提炼最大化价值燃料经济性燃料产业Photo

16、credit: Nigel Homes 2012什么是大数据和数据科学?大数据的方法论?哪些是前沿的大数据技术? | page 17Image: 平衡决策中的艺术与科学是做出智能,及时,有效的业务决策的关键制表系统时代认知系统时代现在是一个新智能时代的元年程序系统时代大数据时代认知体系扩展了我们理解问题的能力系统方案认知方案利用传统的数据资源根据预先定义的规则(程序)提供相同的结果给所有用户引导,不用编程过程根据你的经验来学习和改善关注解释的感受和包含非传统的数据关联每个人思维方式让我们宽展我们的思维体系认知的定义认知(cognition)是人们推测和判断客观事物的心理过程,是在过去的经验及主

17、观的描述有关线索进行分析的基础上形成的对信息的理解、分类、归纳、演绎和计算认知活动包括思维、语言、定向和意识4部分认知反映个体的思维能力,是制定和执行护理计划的依据认知智能能理解会思考感知智能能听会说、能看会认计算智能能存会算认知计算系统的四种能力 第一个层次是辅助能力。在认知计算系统的帮助下,人类的工作可以更加高效。 第二个层次是理解能力。非凡的观察和理解能力,可以帮助人类在纷繁信息中发现其内在的关联和涌现的趋势;面对海量的数据,虽然我们有搜索引擎这样的技术,但很多时候并不能如愿找到自己想要的信息。而认知计算系统可以更好地理解我们的需求,并为我们提供相应的服务。第三个层次是决策能力。企业制定

18、发展战略,政府部门出台政策措施,都需要汇集和分析大量的信息,然后进行决策。认知计算系统则可以在决策方面为我们提供帮助。 第四个层次是发现和洞察的能力,可以帮助人类发现当今计算技术无法发现的新洞察、新机遇及新价值。 认知体系发展的三个阶段2 top issues机器的崛起工业革命 第一个机器时代,见证了体力劳动的自动化。我们生活在第二个机器时代,大量增加的自动化和认知工作。第二个机器时代见证了人工智能(AI)的兴起,这里的“智能”并非人类人类思考的结果。现在许多商业产品中,从搜索引擎到虚拟助手是无处不在的。人工智能是计算能力、记忆能力、云计算、分布式、并行处理、开源解决方案和全球化人与机器连接等

19、指数化增长的结果。大量结构化和非结构化数据(如文本、音频、视频、传感器)生成了迅速处理、有意义、可行性见解的数据。3 top issues非神秘化的人工智能 人工智能与认知计算 认知计算没有一个明确的定义。最确切的来说,它可以被看作AI的子集,基于大脑如何工作来模拟人类思考方式。它也被视为“使用自然语言程序和机器学习来使人类与机器的交互更加自然化并进一步延伸人类专长与认知的一种科技范畴。”2 在任何一种定义下,它都是AI的一个子集,而并不是一个独立的学习领域。 人工智能与数据科学 数据科学,指的是跨学科的领域,包括了统计学、数学、计算机科学与业务分析来收集、组织、分析大量的数据来实现可行性洞察

20、。这类数据(如,文本、语音、视频)和分析技术(如,决策树、神经网络)都是数据科学和AI使用非常相似。如果有区别,可能是基于其目的而产生的不同。数据科学目标是为业务产生可行性洞察,不考虑模拟人工智能,而人工智能则是为了模拟人类思考的智能化。 2 Why cognitive systems? /cognitive-computing/why-cognitive-systems.shtml#fbid=Bz-oGUjPkNe3 A very short history of Data Science /sites/gilpress/2013/05/28/a-very-short-history-of-

21、data-science/#e91201269fd2然而,“人工智能”这一短语经常被错误使用。为了避免对AI的混淆,需要对其范围和定义进行澄清人工智能与机器学习 机器学习仅仅是人工智能的一个子领域。是科学与工程使机器“学习”。也就是说,智能机器需要做学习以外的很多事 它们需要规划、实施、理解并能够提供理由。机器学习与深层学习 机器学习与深层学习经常被交替使用。深层学习实际上是机器学期的一种类型,使用多层次神经网络学习。也有其他机器学习的方法,包括贝叶斯学习、进化学习以及符号学习。2. 识别合适的人工智能领域 解决特定的业务问题可以涉及不止一个领域的人工智能课题。确保映射所有适合的人工智能领域来

22、解决所面临的问题(如,NLP、机器学习、图像分析等)。3. 从大处着眼,从小事着手 AI人工智能存在着对决策的重大影响,但企业仍需要建立正确的数据、技术、能力以及执行觉得从而使其得到开发。向更先进的能力开发一条进化性的道路。当人工智能平台持续从环境和人类方面学习,人工智能的能力就可以有效开发(也称“动态洞察平台”)。4. 建立定型数据集 建立企业自己所属的数据集,为培训员工和衡量计算法的准确性而准备。例如,为“crash images”建立数据集,用自己现有的计算法进行准确性对标。同时,应经常性的设立精确计算法来与人类决策做对比。 5. Parallel Runs试点 为现有供应商活开放资源工

23、具的人工智能解决方案进行试点工作。与人类决策者实行人工智能解决方案两者的并行运行。对比并反复提升人工智能解决方案的效能与精准度。6. 规模与变更管理 一旦当人工智能解决方案得到验证,运用合适的软/硬件架构进行规模测量,并开始研究更广的变更管理程序来改变内在决策倾向。开启大数据旅程1. 3 Data & Analytics: Creating or Destroying Shareholder Value? Paul Blase and Anand Rao, Report, 2015.大部分的企业已经拥有大数据与分析或数据科技团队。下述具体步骤中结合了人工智能技术与较宽泛的数据科技团队。从业务决

24、策出发 提升可影响业务和相关度量的关键战略决策(如,更好的客户目标来提升兑换率、降低理赔流程、提高客户满意度等)。在当今的技术环境,数据&分析一般是基于确定性,可编程软件,然而认知技术是基于自然语言处理和概率推理。因此,认知技术和数据&分析是互补性很强的方法,可以用来处理各种我们今天所面临的最具挑战性的问题。在实践中,认知技术和数据&分析是不同的,但协同,结合使用就可以产生更大的深度分析和对业务洞见更有益的见解。DO分析(逻辑回归)认知(理性)做正确的决策做出正确的决策预测对比测量规定分析优化防范 监督假设评估概率类推 推断 选择争论001001010100110011数据 & 分析与认知技术

25、的动态显示案例: 大数据技术平台PentahoQlikViewTableauSpotfireR StudioAlteryxGitLabElasticSearchIBM WatsonMicrosoft AzureIP SoftGenpactAutomation AnywhereKettleMicrosoft SQLInformaticaMicrosoftSQL ServerPostgre SQLHortonworks提取、转换和(ETL)数据储存与数据库系统高级分析数据来源可视化认知有哪些技术被应用? 执行试点 选择目标流程的子集进行试点设计。对少量的代理人安装机器识别目标 明确可以被机器人所取

26、代的业务流程 验证研究试点结果,并对结果进行分析,总结优点。设计治理方案。准备实施服务器和机器人 安装服务器和实施机器人监测分析 群簇分析学习了解机器使用案例监控&分析监控过程,并通过迭代添加进行改进我们的认知识别流程数据科学家的特征?数据科学家在艺术与科学之间的结合技能横跨多个学科以获得大数据可操作的洞察力的平衡Photo credit: NewInternetOrder艺术金融服务零售、供应链营销机构/客户行为分析电子商务领域专长与领导共事讲故事的能力可视化艺术设计将洞察力转换为决策、执行软技能Photo credit: NewInternetOrder科学知识数据科学领域专长数学计算机科

27、学统计分析数据处理机器学习统计建模技术和工具关系数据库新黑客技术可视化数据科学家的特征?数据科学家在艺术与科学之间的结合技能横跨多个学科以获得大数据可操作的洞察力的平衡Photo credit: NewInternetOrder数据科学家的特征?数据科学家在艺术与科学之间的结合技能横跨多个学科以获得大数据可操作的洞察力的平衡艺术金融服务零售、供应链营销机构/客户行为分析电子商务领域专长与领导共事讲故事的能力可视化艺术设计将洞察力转换为决策、执行软技能科学知识数据科学领域专长数学计算机科学统计分析数据处理机器学习统计建模技术和工具关系数据库新黑客技术可视化Photo credit: Flickr

28、个人推荐引擎社交网络分析交通流量优化IT 基础设施和网络应用程序优化法规审查和文件归档情报搜集智能仪表监测设备监控广告分析生命科学研究欺诈检测医疗保健结果业务规划的天气预报油气勘探客户流失分析基于位置的跟踪与服务定价分析个性化保险数据科学家的需求无处不在 增加业务价值大数据与先进分析将从描述和诊断性向预测、规范与自主决策型转变建议“正确”或最佳的行动或决策(应该做什么?)监测、决策和实行自主或半自主化(如何适应于改变?)对现有及未来客户价值具有前瞻性观点得分图表分析与NLP来识别隐藏的关系与主题双重目标模型行为经济学实时产品与服务(图表分析、数据实体解析来推断现有客户需求)快速评估多种“假设分

29、析”场景决策与行动最优化基于持续性的监测结果基于环境改变与改良预测动态调整战略动态模拟模式,时间序列分析描述性分析描述、汇总与分析历史数据(发生了什么?)观察客户行为非传统性数据资源例如社群聆听与网络爬虫预测性分析基于过去预测未来产出 (可以发生什么?)规范性分析自主与持续性分析识别趋势发展原因与成果(为什么会发生?)观察客户行为非传统性数据资源例如社群聆听与网络爬虫诊断性分析回顾过去前瞻性先进的分析包括AI 机器学习、深层学习、NLP与基于主体的新一代认知大数据系统 越来越复杂的数据与分析大数据关键技术产品地图(国际厂商)MPPAnalyticsCloud ServicesIn-Memory

30、HUAWEI Next Generation Big Data Solution - Mega Trends And ImplicationsHadoopStreamingData ManagementApps & AnalyticsBLU ACCLERATIONIBM BLUMIXORACLE BDAHadoop ApplianceORACLE CLOUDSQL SERVERSQL SERVERSAS HPACloudera CDHHortonworks HDPFusionInsightAMStoreSmartMinerCEP/PMESybase ESPOther Vendors大数据技术的

31、趋势数据分析朝深度发展,开源R语言与BIG DATA天然结合分布式内存技术和Hadoop技术的融合架构使得Hadoop进入了实时分析的领域,极大增加了对MPP分析型数据库阵营的威胁传统BI向实时的数据可视化发展人工智能是硅谷目前最新的“军备竞赛”大数据技术向云计算演化,云平台战略是未来争夺的焦点Analytics大数据技术近期5大趋势受趋势影响的技术堆栈In MemoryHadoopStreamingVisualizationAIMachine LearningCloud趋势前沿厂商或开源技术国内外大数据厂商产品比较星环EMCTDIntelIBM华为HP微软SQL支持度高中高高高中高高查询速度

32、高中高高中中高低核心组件自主度高高中中低高中高数据分析工具中中高中中高中中流处理技术中中低高高中低低案例应用中高中中中中中低技术主流程度中高低中中中中低合作厂商选择性中高中中中中中低平台搭建成本低中高中中低中中ETL难易度中中低中中低低低自主可控与国产化高中中中低高中低针对大数据厂商及其产品选择,建议从技术性能、产品成熟度、平台实现的难易程度、成本等方面进行分析,了解各个厂商的技术、产品的差异,选择一款更适合上海分行的大数据产品。大数据厂商产品比较大数据产品选型评估维度星环EMCTDIntelIBM华为HP微软一级维度一级权重二级维度二级权重评分评分评分评分评分评分评分评分产品的功能特点60%

33、分布式存储和计算的基本功能10%43333332结构化数据处理20%44543452非结构化数据处理10%43424242高级数据分析20%43533232分布式内存计算10%54222222实时在线处理数据库10%54233322流计算处理10%44242202数据集成5%24333322和其他产品的集成能力5%44333332产品的非功能性特点10%硬件环境要求和系统部署100%44334432可扩展性高可靠性,可用性可维护性安全性产品的开发,运维和支持20%技术支持100%44334432易开发性实施能力产品的应用案例10%产品的应用案例100%54331230技术评估汇总4.163.7

34、63.363.063.043.022.971.80通过大数据专家,建立大数据产品选型评估维度,定义各个维度的权重,评估各个厂商大数据产品。大数据技术趋势 1: 完全的数据分析能力, R 语言成为更多选项传统BI的分析方法已无法满足大数据应用的要求,厂商迫切需要为自己产品增强高级数据分析的能力以保持在大数据时代的竞争力R的开源特性和Hadoop天生相合,并且支持多种统计挖掘算法,倍受业界关注不仅是Hadoop商用分析MPP也强调对R语言的支持,部分更是可分布式的库内挖掘。开源R和商用数据分析软件SAS,SPSS相比待解决的问题数据处理性能不足导致了数据探索和抽样分析的限制开源版本的开放性导致了结

35、果的精确度难以被权威公认。开发易用性的不足提高了数据分析师的使用门槛支持算法的丰富度可视化以及易用性不如商业数据分析软件如SASTeradata于2014年公布了在Aster Data上的商业版Aster Data RRHadoop支持RMR,R on HDFS以及R on HBASER和SPARK结合的SPARK R是最具潜力的Oracle Exalytics, HP Vertica等均支持R语言 大数据技术趋势 2: 内存计算是数据处理加速器在数据仓库时代大部分企业困扰于BI报表的数据滞后性。在大数据时代,企业期望在新的技术架构中获得实时分析和交互式分析的能力。实时分析交互式分析离线分析实

36、时分析交互式分析离线分析而内存技术带来了时效性的革命性突破,和Hadoop更是完美的结合。Hadoop提供持久化能力和海量数据的批量计算能力,内存技术提供一定量数据内的实时分析和交互式分析的能力。流计算分布式内存计算内存列式数据库分布式内存列式数据库实时分析交互式分析交互式OLAP分析更大数据量的实时分析SPARK的高性能和接近一栈式计算能力的特点已被业界公认为是下一代的Hadoop超级计算引擎除了HANA外值得关注的Actian的Vectorwise是世界上最快的单点内存列式数据库,近期推出了深度融合Hadoop的新版本SPARK ENGINESpark GraphXSpark RMLibS

37、park Streaming交互式查询图计算交互式统计挖掘机器学习流计算专利技术SIMD Extension在操作系统级别优化CPU指令分布式内存数据库和Hadoop 在同一集群PDT(Positional Delta Tree)技术支持Hadoop无法实现的update delete操作超快的性能,宣称TCP中比Impala快10到30倍BlinkDB90HUAWEI Next Generation Big Data Solution - Mega Trends And Implications大数据技术趋势 3: 传统的数据仓库成为历史,实时大数据在业务上的变现,数据湖是未来下图为阿里巴巴

38、在双11当天的实时作战指挥部现场。在双11巨大的流量压力下淘宝天猫的关键销售指标实时展现在了决策者们的面前。过去数据仓库和BI的性能问题往往是各个企业的痛点,数据在最终展现在决策者面前经过了多层处理和搬家,数据的时效性难以保证。淘宝的实时流计算平台Galaxy是背后的主要技术支撑,每秒运算量超过500万/条,每日可处理的记录数超过2500亿。实时计算框架是背后实现的技术架构。互联网行业目前流行Lambda混合架构。Google于2014年中旬的I/O大会上宣布了Google Cloud Dataflow, 引入了Pipeline统一了2种代码的不同风格。普华永道美国的“HD WALL”应用实时

39、可视化健康分析为保险客户提供更好的决策支持大数据技术趋势 4: 深度学习和人工智能是未来高科技企业在人工智能领域的最新动向,剑指深度学习人工智能是大数据的上层建筑,位于大数据产业链的顶端,是大数据分析能力的终极形态,符合科技发展的源动力。这是大数据最困难但是最有创造价值的部分,是最有希望改变未来人类世界的技术。人工智能的应用目前有以下几个分类分析用户行为,改进产品和营销,如精准广告投放等Google共收购了14家人工智能公司,最近一次为14年1月收购了研究深度学习的DeepMind。名为谷歌大脑的人工智能项目孵化的技术支持着图像搜索、安卓语音识别、谷歌眼镜、谷歌地图、谷歌汽车等多个项目。智能预

40、测,规划和优化基于智能AI的设备,程序和接口Facebook AI Lab (人工智能实验室)于2014年下半年建成。AI Lab旨在投入研发精力,探索人工智能的分支之一:深度学习。Facebook希望在未来能给用户提供更智能化的产品使用体验。图像,语音,自然语言等非结构化数据的识别和应用IBM的Waston是在人工智能领域最出名的超级计算机,已经开始在医疗,商业领域逐渐应用。IBM从2014年开始加大了Waston部门的投资,力图加快Waston的商业化步伐。百度2013年初在美国硅谷成立了百度深度学习研究院(IDL), 招揽了余凯、吴恩达等机器学习领域顶级的专家。目前主要的研究成果包括百度

41、识图,三维视觉建模等。智能机器人智能爬虫和搜素数据开放的3个不同维度大数据技术趋势 5: 建立云服务的生态圈IaaS利润渐低,高科技巨头们纷纷重点布局PaaS,将内部孵化成熟的技术部署在云平台上普华永道认为,数据开放是BIG DATA未来的大趋势, 只有让不同领域的数据真正流动起来、融合起来,才能最终释放大数据的真正价值。而CLOUD将是实现这大数据最终生态的枢纽。价值挖掘能力的开放基础设施的开放狭义的数据开放非涉密的政府数据及科研数据以一种主动和免费的形式开放,而不是“申请信息公开”向无力建设和维护自己平台的企业提供大数据基础设施的开放,比如提供数据基础管理和分析平台开放价值挖掘能力对降低数

42、据应用的门槛非常重要,让数据价值平民化和市场化大数据云服务对于传统企业的几个重要优势降低成本提升资源的弹性降低使用大数据的门槛降低部署和运维复杂度Amazon的AWS是Cloud市场的长期No.1,也是Amazon主要的收入来源,其平台的生态圈已经形成。目前提供的大数据服务既有自己的MPP数据库Redshift , Hadoop Elastic MR, NoSQL数据库DynamoDB 也有很多第三方的产品如SAP HANA, MAPR Hadoop, MongoDB, Tableau等,IaaS和PaaS的界限在模糊。Google的Cloud Platform在2014年进行了2次大规模的降

43、价,Amazon和Azure也进行了相应的降价,云竞争进入白热化。Google将内部使用的MPP数据库Dremel包装成BigQuery的云服务。EMC和VMWARE合资成立的子公司Pivotal的两大核心产品为大数据Pivotal HD以及云平台Pivotal One。 而Pivotal未来的战略重点会更侧重于其PaaS云平台Pivotal One, 其中Pivotal HD支持完全部署在云上,以平台服务的形式供企业使用。微软的PaaS云Azure新加入大数据Hadoop服务的支持,能与自己的Power Pivot等分析产品集成阿里巴巴的数据团队将企业的B2B云作为未来的重点战略发展IBM投

44、资10亿美元打造了IBM Bluemix,将支持包括BigInsights的一系列产品BAT公司大数据发展洞察 百度阿里腾讯数据公共数据需求数据电商数据信用数据关系数据社交数据技术数据聚合语义理解深度学习底层系统并发处理技术低调执行力强封闭开发应用方向注重研究与实用性结合,仍然围绕搜索完善底层系统,做分享平台产品线长,形成稳定生态圈面向产品挖掘应用场景(示例)生命科学 日志分析 数字营销舆情分析个性化推荐定向营销智能推送精准推荐大数据风控网点选址用户知识库大数据分析在互联网方面的业务应用大数据分析移动端智能网站客服仓储/配送搜索系统推荐系统广告风控导购数据开放平台EDM用户属性标签销售预测用户

45、习惯智能搜索用户属性标签智能网站应用恶意用户行为识别用户社交应用大数据地图数据精准营销移动数据分析BAT公司倾向于基于开源大数据软件,自定义研发大数据平台、云平台;除满足自身业务需要外,均建立的云平台和云服务,为外部提供大数据服务、云服务的支撑能力。应用的场景主要是个性化推荐、精准营销、风险控制及舆情分析等方面。基于百度开放云的大数据和人工智能平台 天算数据智能大规模人工辅助标注系统分布式存储与计算流式处理Web ContentsLogs人计算MachineLearning算法向量引擎PubSubApps自动评估推荐系统智能交通商业智能决策辅助百度大数据基础架构MapReduceOLAP引擎深

46、度学习机器学习百度BigSQL基础平台基于大数据的智能应用DCEELFSparkDstreamTaskManagerMapReduce/DAGParameterServerRDDContinousData StreamQueueWorkerNormandyHDFSMatrixIDC数据收集存储变形分析解决方案智能服务数据上传工具 请使用BOS上传工具 数据快递 请通过工单申请 百度Kafka 物接入IoT 百度日志服务BLS 关系型数据库RDS NoSQL数据库 MoLaDB 对象存储BOS 百度MapReduce BMR 百度机器学习BML 百度OLAP引擎Palo 百度Elasticsea

47、rch 百度深度学习 Paddle 百度批量计算 人脸识别 BFR 文字识别 OCR 百度语音 阿里云的技术层次(云计算 & 大数据)机房环境基础设施X86服务器 & Linux网络设备分布协同服务飞天分布式云操作系统集群部署分布式文件系统集群监控任务调度安全管理远程过程调用资源管理云计算大数据产品/服务弹性计算服务SLB/ECS(分布式)关系数据库DRDS/RDS大数据ODPS/ADS开放存储OSS业务应用联机事务处理(OLTP)大数据分析及处理内容管理搜索检索联机分析处理(OLAP)腾讯大数据平台(数据服务)自主研发,支持百PB级的数据存储和计算,提供海量、高效、稳定的大数据平台支撑和决策

48、支持。分布式数据仓库产品应用接入计算存储调度数据产品平台服务数据服务对外服务推荐服务平台开发者IDEAFACE黄金眼画像计算通用推荐广告推荐TDBANK分析统计任务TMT实时模型训练TRE实时算法预测HIVEHADOOPSPARKPIGSTORMPGHERMESHDFSHBASETDE实时数据存储洛子GAIA运维监控测试大数据平台整体规划单集群 8800台CPU 140,000核内存 560 TB磁盘 105,600块存储容量 180 PB+每天Job数 1,000,000+存储利用率 85%CPU利用率 90%+网络利用率 90%+集成开发环境 IDE任务统一调度 Lhotse数据采集TDB

49、ankHive/Pig查询处理引擎HADOOP集群计算引擎 MapReduce储存引擎 HDFSSpark内存计算Hbase实时查询Postgre小数据处理资源管理和调度 GaiaTDW分布式数据仓库服务IT治理渠道管理在线公司规划数字平台客户为中心IT咨询和实施数据管理数据治理大数据决策分析支持客户关系管理IT战略规划核心保险系统转型IT治理远程审计系统理赔反欺诈系统数据服务平台统一客户视图ECIF数据标准和指标体系IT服务管理ITSMIT成本透明化数据质量互联网保险产品创新车联网/UBI产品数据仓库规划和实施数据集成平台规划与实施产品引擎设计与实施互联网架构转型IT需求管理数据创造价值客户

50、细分/微细分营销/运营优化风险管控提升示意太保构筑从数据到应用的整体信息架构,打造轻架构、重服务、可配置化的系统平台,实现“智能平台”理念,实现以平台增业务的目的。临时数据区集团EDW数据挖掘多维分析报表关键指标即席查询其它应用市场人员销售人员决策人员服务人员管理人员集团ODS寿险公司报表寿险公司报表资产公司报表资产管理寿险养老险接触历史ECIF其他资产公司报表数据源层数据管理层数据应用层BI应用层访问层 客户数据 保障数据 生命阶段数据 收入及财产数据 风险数据 行为数据 产品信息 价值数据 保单数据 给付/理赔数据营销管理 营销方案设计 营销方案评估 营销启动 客户接触规则管理 客户资源分

51、配 企业级数据全生命周期整合服务客户资源管理销售/服务执行 电销 网销 营销员行销支持续收支持客户分析集市信息平台及应用架构示例支持数字化在线业务的寿险业务系统架构,特点:支持以移动、在线的数字化渠道为主的业务模式;采用传统核心系统作为保单和理赔业务处理的核心,通过外部的营销管理、客户管理和交互管理等系统填补传统核心系统的弱项,从架构总体上强化对数字化业务的支持;增强业务处理的无纸化/电子化和数据的分析应用,适应数字化在线业务的需求;财务系统 交互中心语音交互多媒体交互数据挖据分析第三方支付第三方支付银企直连银联地理信息服务行业平台产品&定价报价/投保保单管理再保客户管理渠道管理理赔业务报表收

52、付管理单证管理核心系统反洗钱CIRC 在线报表监管报送偿付能力在线查询稽核上报影像扫描/OCR文档管理BIODS数据应用渠道网站呼叫中心短消息/邮件第三方OA内容管理CRM (SAP)客户洞察客户管理营销活动管理忠诚度管理营销引擎数字化营销访问轨迹/分析客户行为追踪数字化营销/CRM搜索引擎优化标签管理轨迹分析仪表盘社群聆听A/B 测试内容存储调查/回访个性化引擎登录引导站内搜索外部服务打印天猫微信电子单证知识库监管具备丰富的寿产险业务系统规划和实施经验,擅长根据客户的实际情况规划设计相匹配的业务系统架构针对大数据分析应用,企业信息平台将基于X86的分布式架构作为全新的基础架构引入,从而实现计

53、算效能的优化及敏捷业务响应能力。12大数据平台1.0版基础架构传统架构大数据分布架构49信息平台实现竞争力扩展在太平洋保险积累了一定大数据能力基础上,可以考虑搭建面向人工智能的大数据平台数据集成数据源数据分析核心Oracle 移动应用外部数据ODSData Lake(数据湖)Hadoop元数据管理语义体系安全管理CRM核保核赔报价人事企业数据服务总线Spark内存计算RStorm语义标签信息定制挖掘和自我学习查询和检索ODS (ECIF)MySQL搜索,探索,可视化浏览器数据服务移动数据可视化业务报表ETL/ELT (Talend/Java)ETL/ELT (Talend/Java)统一视图第

54、三方数据/爬虫呼叫中心实时数据源(flume+storm+kafka)可配置爬虫分布式文件系统(HDFS)分布式数据库(HBASEHIVE)语义分析引擎统一检索(ELK)图数据库(NEO4J)多维分析平台(KYLIN)内存计算平台(spark)建模平台(R)数据获取层数据存储数据处理层创新业务数据应用风控精准营销360 客户视图统一检索数据分流智能监控数据交换模块化大数据平台架构传统的数据仓库和数据湖的比较数据湖泊利用商品集群计算技术使得大规模可扩展的,低成本的数据文件以任何格式存储数据科学家利用数据湖探索和构思数据专员,程序员可以挖掘数据流的实时分析该湖可以作为一个临时区域的数据仓库,在批处

55、理模式的报告和分析中更仔细的“处理”数据的位置数据湖接受输入各种来源的数据,可以保留原始数据的保真度和数据转换排列。数据模型与使用随时间出现而不是强加.欢迎来到“数据湖”数据湖是一个大数量和品种,结构化和非结构化的大数据架构 交易,事件,用途,社交,日志,语音和图像数据块ODSMDM数据仓库内容社交媒体和社区全面的监控和分析下一代的大数据体系数据湖内容认知的智能数据的分析模型,学习,模拟,行动,保护数据的理解异常关联源数据的自动标签知识语义标签数据的自我学习企业和行业知识库体系收集,关联,标签,学习数据信息数据价值数据技术数据变现数据的快速入库深度挖掘实时统计和检索IT创造(数据仓库集市)人工

56、打造多维度和ETLIT化的安全体系对数据量有上限业务场景假设和预制SQL大量ETL复杂IT架构非实时 数据湖 水库? 自然体系 原汁原味碎片化,标签化和平面化 自然安全组合 大数据量和多数据类型 数据探索的不确定性 语义和配置化搜索 实时统计和计算 简单IT架构(云服务) 实时性半实时将传统数据与大数据环境有机结合,构建基于客户洞察的综合视图大数据架构顶层框架123456789企业数据池: 包括数据来源,其价值是已知的和可量化的企业应用数据源数据集成和快速入库: 用于将数据源的新兴大数据平台和数据平台相连的新兴与传统数据平台(EDW,MDM等)的技术和机制传统数据平台: 数据库管理平台从建立和

57、涌现主要用于处理和存储大量传统的结构化数据源数据湖: 碎片化,平面化和标签化包含丰富数据类型的数据平台大数据平台: 开放源体系,商业商品为基础,“扩展”数据平台,支持各种类型的信息形式的高容量的处理和存储外部数据池: 包括外部和内部的和第三方合作的数据来源,从结构化到非结构化的价值是未知的,但持有的承诺,解锁的见解展现层: 参与数据业务用户报告,交互式仪表板显示技术,实时报警,先进的可视化,生成的商业洞察力的基本的和先进的数据分析分析工作台: 对于商业用户提供访问,探索,自学习数据的能力,工具和技术来思考和实验产生的商业洞察力云服务: 大数据能力和应用提供了一个基于云的服务。例如,Amazon

58、 RDS,SQL Azure核心组件大数据参考架构师技术分类的顶层设计建立的大数据方案安全管理风险管理治理新技术创新数据集成快速入库展现层云服务分析工作台企业数据池数据湖外部数据池传统数据平台大数据平台数据集成展现层分析工作台企业数据池外部数据池传统数据平台大数据平台MessagesETL,ELTData Exchange HubCustom APIsData FederationWeb ServicesAPIData Syndication2xProcessingPersistenceOperationsWorkflowMapReduceComplex EventsMetadataCusto

59、mMapReduce AbstractionNewSQLDoc StoreGraph DBBig DataAppliancesDistributedFile SystemKey ValueNOSQLSecurityAnalysisToolsCompressionClusterMgmt.IngestionODSPersistent StagingStagingFile StorageFile ExchangeType IIIType IIBIReportingReal TimeAlertsMashupsAdvancedVisualizationAnalyticsStatisticalMachin

60、e LearningTextUnstructuredAnalyticsApplicationsDecision EngineRecommend. EngineCRMERPSalesMaster DataSupply ChainCall CenterSocial MediaBlogsWeatherSensorsCensusDemographics大数据架构 参考体系框架云服务Infra.PlatformSoftwareDataAnalyticsMDM HubsLong Term StorageSpecialty StorageContent ManagementType 1RepositoryC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论