大数据厂商联盟为您的客户在天内部署大数据应用二_第1页
大数据厂商联盟为您的客户在天内部署大数据应用二_第2页
大数据厂商联盟为您的客户在天内部署大数据应用二_第3页
大数据厂商联盟为您的客户在天内部署大数据应用二_第4页
大数据厂商联盟为您的客户在天内部署大数据应用二_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

怎样在三十天内为您的客户部署大数据应用总体规划分步实施一、怎样快速部署大数据分析系统

1、怎样部署web数据的抽取监控2、非结构化动态数据的抽取整合和联网数据3、怎样部署适合您的融合三类数据的数据库4、怎样部署高速政务情报与舆情分析展现二、方案与产品的行业机会三、联盟能帮助您什么?合作模式(推广—交流方案—实施—服务)联盟能帮助您什么?(厂商+CIO+渠道方案=推广)

数据的相关性因果关系实时动态预警跟踪防范、社会治理成本将会低70%罗湖宝安中山珠海数据的混杂性精准性

抵御犯罪,保卫和平《少年派报告》“预警人”

2、现在:装配一个数采设备,通过网络连接到中央处理中心牛产的奶中收集数据。每一个乳头里挤出的奶都需要查验颜色、脂肪、蛋白质含量、温度、传导率(用于判断是否存在感染的指标)

每头牛身上收集数据汇总,检测结果直接发给奶农的手机上,以判断分析牛奶质量;预测发情、疾病总体数据样本数据不再担心喝的是三聚氢胺了模式的改变:

1、传统:奶农送样板检测动态的车位收费价格被逼迫的大数据决策定性分析—定量分析(经验决策—数据决策)(世界是由数据组成的,你我都在被大数据化)大数据改变着人们的生活工作和思维方式老公呀!市中心停车好贵哟,我下午去吧?我赶时间,我不得不走快车收费道!1、HOV(高使用率车辆)专用车道,鼓励拼车,只允许乘坐人数为3人或3人以上的车子行驶,否则将被处以100美元以上罚款2、按市场规则,停车场高额收费8.99-20美元,路边收费便宜1美元1小时,咪表限定15分钟-2个小时,不得不来回投硬币3、开始征收8美元,不征收拥堵费:1、造成对非市中心居民不公平,2、只改善5%,3,居民已经缴纳了道路城建费4、抗拥塞项目:收费快速通道,动态定价政府通过大数据引导驾驶人员在该通道上行驶,保证交通畅通车道用于高占用率的车辆紐約市政府還設立了HOV(高使用率車輛)專用車道,鼓勵私家車主上下班拼車。這種車道只允許車內乘坐人數為3人或3人以上的車子行駛。車內乘客不到3人且使用這一專用車道行駛的車輛將被處以100美元以上的罰款。紐約市政府還設立了HOV(高使用率車輛)專用車道,鼓勵私家車主上下班拼車。這種車道只允許車內乘坐人數為3人或3人以上的車子行駛。車內乘客不到3人且使用這一專用車道行駛的車輛將被處以100美元以上的罰款。

紐約市政市場規則限制私家車动态高占用率通道

数据公开、信息对称、数据决策人类社会从“全景监狱”到“共景监狱”

社会的变革都是因为资源拥有的不对称而对资源的争夺(煤炭石油黄金数据—信息)现在是收集情报数据的黄金时代

因为所有人都在自觉自愿地表达他们是谁现在是收集情报数据的黄金时代

因为所有人都在自觉自愿地表达他们是谁

数据的实时动态交互和互动性依据数据决策、分析的核心是预测上帝从此不用掷骰子

“人类行为的93%是可以预测的”

静态历史交易数据地理气象、环保卫生、交通通信社会数据、国家数据、商业数据

WEB数据、微博微信、电子邮件Cookies、点击行为、情感情绪发帖投诉、动态的IP

实时动态数据、感应器、机器监控、摄像头、交易、位置通信通话、短信、交通实时动态数据WEB数据三类数据的融合和互动第一步:重建新式数据库:2008年奥巴马的团队抛弃了众多分散的孤岛式数据库第二步:增加了大量来自Web追踪和社交媒体网站的新数据第三步:整合各类实时动态数据和WEB数据第四步:建立数据分类分析1、募捐大数据分析2、演讲拉选票大数据分析当“大数据”遇到“小数据”,大数据每次都会赢。大数据加上大量的资金呢?这将是无敌的

奥巴马竞选获胜的核心:数据驱动--的竞选决策“核武器”(Theyareour

nuclearcodes)数据决策的障碍:数据公开、信息对称总体规规划分分步实实施(怎样部部署政政务情情报与与舆情情分析析系统统)1、怎样样部署署web数据的的抽取取监控控2、非结结构化化动态态数据据的抽抽取整整合和和联网网数据据3、怎样样部署署适合合您的的融合合三类类数据据的数数据库库4、怎样样部署署高速速政务务情报报与舆舆情分分析展展现NOSQL大数据非结构化数据======Hadoop怎样把把静态态历史史交易易数据据与WEB数据融融合WEB数据

WEB数据、微博微信、电子邮件Cookies、点击行为、情感情绪发帖投诉、动态的IP转化为结构化数据与政府企业相关的网站微博媒体舆情评论投诉申诉其他

历史静态交易状态数据地理气象、环保卫生、交通通信社会数据、国家数据、商业数据提供分析服务(云服务)分类文件分类报道分类情报分类推送报表OLAPAdhoc分析Dashboard预警监控融合交交互互互动怎样解解决WEB数据抽抽取监监控发发布的的问题题监控与与自己己相关关的网网上信信息把把网上上数据据转化化成自自己的的数据据库Web数据抽抽取监监控神神器(Connotate+Paraccel+Datameer)16方式一一17方式二二HTMLTAG、、BTE算算法、、、、、、、、1819方式三三WebAgent(数据据抽取取的工工具))可自自动自自主的的运行行根据您您的要要求输输出结结构化化数据据集((通常常是CSV格式或或则是是XML格式))WEB数据抽抽取的的工作作流程程WebAgent可自动动自主主的运运行。。根据您您的要要求输输出结结构化化数据据集((通常常是CSV格式或或则是是XML格式->DB)2122实施和和运行行23效果传统数据抽取方式(人工方式or爬虫软件)Web数据自动抽取神器:Connotate监测范围100个网站>500,000时效间隔一天6mins信息有效率35%90%辅助研判人工研判通过机器学习后的agent自动化进行工作时间2-8h7*24工作方式网站访问→人工筛选→报告机器学习→研判结果→报告为什么么要用用WEB抽取工工具WEB抽取与与其他他方式式的比比较CoreProductFeaturesOn-PremiseHostedWeb-Harvest开源爬虫(WebSpider)侦查监控网站的变化用亮色突出变化部分过滤精准的作业安排常态化智能导航、机器学习深度挖掘、全文搜索通过下拉菜单和搜索框进行输入、查询和登录工作流模版数据库agents(SQL/MYSQL/ORACLE)抽取PDF内容Web服务应用程序界面点击型图形用户见面全天候运作模块增加PartnersPartners26采用自自动化化web数据抽抽取监监控软软件::该政府府部门门的IT团队采采用了了新技技术,,其中中包括括Connotate用于精准的的Web数据抽抽取,在八周周的时时间里里,Connotate监控了1000多个网站并并根据需求求每天地为为该部门抽抽取数据Connotate为该部门推推送符合其其格式要求求的数据,,并传送到到预设好的的网站上该部门还把把Connotate抽取的数据据导入数据据仓库,用其他应用用程序进行行分析某政府监控控1000多个网站,,进行政府府管理的大大数据决策策手工下载::政府部门开开展公共资资源数据抽抽取,在选选择自动化化抽取之前前,组织部门内内部大量的的研究调查查人员,从从成千上网网个公共资资源网站上上手动的下载载公共数据据,并手动动地进行统统计,然后后为短期计计划和长期期计划做准准备。但是,这种种方法不能能保证数据据的准确度、、速度和时时效性。爬虫软件搜搜索:接着,该政政府部门的的IT团队选择了了Web爬虫软件进进行数据抽抽取,但是是随着项目目的不断进进行,Web爬虫的维护费用用也不断增增加,而且且不稳定,,经常会由于Web数据源的改改变而瘫痪痪政府公共事业智智慧城市方方面的应用用政务WEB数据抽取监监控发布分分析举例一、日常管管理决策中中遇到的问问题:a、传统方式收收集信息情情报信息内内容少、内内容陈旧,,更新不及及时,更多多的是已经经发生的事件数据据和信息。。对于现在在正在发生生和即将发发生的事件件无法获取取数据信息息。b、效率低,,信息需要要时间长,,导致信息息滞后,对对战略决策策毫无意义义。c、提取的信信息精准度度不高,手手工的方式式往往会出出错却难以以发现。e、人工成本本太高,如如需要聘请请专业的技技术人员去去编纂历史史数据并进进行季度报报表。f、后期维护护费用太高高g、对接其他他数据仓库库时出现无无法兼容的的情况二、实现有有关政府部部门相关信信息的全网网监测,重重点监测::新闻、门户户、论坛、、微博(新新浪、腾讯讯)、提及及过政府的的微博大账账号监测内容涵涵盖政府官官方新闻、、媒体自发发报道、政政府其他新新闻。a、解决及时时预警如::网站,论论坛、微博博等迅速扩扩大的关于于政府信息息第一时间间反馈,实实现重大负面系系统自动预预警。b、实现海量量数据清晰晰分类,按按照不同条条件或多维维度要求整整理归类。。可按照舆舆情的性质质,及重要要程度等进进行分类。。如:政府的重大大新闻传播播,政府重重大负面扩扩散、论坛坛、微博相相关诉求等等。c、针对突发事件,,负面事件件。对政府府造成影响响重大的负负面事件,,需要专业业技术舆情情分析师给给予建议,,为其分析整整个事件起起因,传播播度,媒体体关注度,,影响力,,后期危机机公关效果果评估,提提供针对““事件性”深度分析析报告。d、解决区辖辖范围重点点企业相关关信息监测测,投资环环境、人文文环境、治治安环境等等信息监测测;信息息传传播播的的速速度度和和广广度度,,成成就就了了““意意见见领领袖袖””巨巨大大的的舆舆论论能能量量。。及时时发发现现、、收收集集、、监监控控和和分分析析舆舆情情信信息息,,调调整整管管理理,,从““维维稳稳””到到““促促和和””成成为为政政府府部部门门新新的的课课题题。。三、、监监控控范范围围::a、网络络媒媒体体::各各新新闻闻网网站站、、门门户户网网站站、、搜搜索索引引擎擎、、论论坛坛、、SNS、地地方方性性站站点点等等。。b、微微博博((新新浪浪、、腾腾讯讯))c、海海外外媒媒体体d、各种种少少数数民民族族的的文文字字信信息息四、、监监控控要要求求::一、、全全面面性性a、所所有有监监控控范范围围都都要要监监控控到到,,不不留留死死角角。。b、在在系系统统交交付付运运行行后后,,系系统统需需要要7*24小时时不不间间断断的的进进行行监监控控,,不不遗遗漏漏任任何何一一个个时时间间点点。。c、语语言言不不受受限限制制二、、及及时时性性对于于监监控控的的及及时时性性要要求求非非常常高高,,一一般般要要求求从从舆舆情情信信息息发发现现起起,,不不超超过过2小时时。。影响响重重大大的的舆舆情情信信息息要要求求更更高高,,从从舆舆情情信信息息出出现现起起到到系系统统预预警警处处理理完完毕毕,,中中间间需需要要经经过过及及时时发发现现、、分析析确确认认、、上上报报、、预预警警通通知知等等许许多多过过程程,,需需要要能能够够尽尽早早发发现现、、及及时时发发现现,,高高效效准准确确的的分分析析判判断断处处理理三、、准准确确性性需要要系系统统能能够够提提供供尽尽可可能能准准确确地地定定位位和和判判断断,,能能够够提提供供准准确确的的舆舆情情信信息息源源、、源源地地址址、、信信息息内内容容、、事件件发发生生时时间间、、事事件件证证据据等等。。四、、潜潜在在负负面面舆舆情情媒媒介介和和舆舆情情发发送送人人群群收收集集在系系统统交交付付前前和和运运行行期期间间,,系系统统能能够够不不断断自自动动收收集集潜潜在在的的负负面面发发生生媒媒介介和和发发送送人人群群,,作作为为后后续续的的重重点点监监控控源源。。五、、去去重重同一一负负面面舆舆情情信信息息只只需需要要监监控控和和报报告告一一次次,,避避免免重重复复报报告告,,过过滤滤广广告告。。人人人拿拿着着麦麦克克风风,,人人人人都都可可被被关关注注,,随随时时随随地地可可发发布布社会会围围观观结结构构是是众众人人对对个个体体展展开开的的凝凝视视和和控控制制人们们在在““交交头头接接耳耳””中中沟沟通通着着彼彼此此的的信信息息六、、分分类类对监监控控的的结结果果分分类类a、舆舆情情信信息息来来源源::网网站站、、微微博博、、博博客客、、SNS、论论坛坛b、舆舆情情产产生生类类型型::机机构构、、名名人人、、普普通通个个人人等等c、影影响响程程度度::包包括括转转载载数数、、评评论论数数、、网网站站影影响响力力等等综综合合指指数数评评定定。。七、、实实时时预预警警对于于影影响响重重大大的负负面面舆舆情情信信息息等等,,一一旦旦发发现现,,系系统统需需要要立立即即发发出出预预警警,,以以便便监监控控人人员员能能够够及及时时采采取取措措施施。八、、定定时时报报告告系统统按按照照指指定定的的时时间间报报告告最最新新监监控控结结果果,,上上报报内内容容包包括括::媒媒介介、、地地址址、、内内容容、、发发生生时时间间、、原原始始信信息息等等九九、、监控控结结果果分分析析系统统可可以以随随时时对对监监控控结结果果进进行行各各种种统统计计分分析析和和总总结结报报告告,,以以为为后后续续的的监监控控提提供供指指导导。。a、传传播播媒媒体体分分析析b、传传播播趋趋势势分分析析c、传传播播路路径径分分析析d、传传播播影影响响力力分分析析e、传传播播人人群群分分析析十、、数数据据格格式式转转换换系统统收收集集的的数数据据往往往往是是非非结结构构化化数数据据,,如如办办公公文文档档、、文文本本、、图图片片、、XML、HTML、各各类类报报表表、、图图像像和和音音频频/视频频信信息息等等,,而而要要把把这这些些数数据据转转换换为为结结构构化化数数据据加加以以分分析析是是非非常常关关键键的的。。十一一、、兼兼容容性性a、支支持持把把SOAP与RESTWebServicesAPIs集成成到到工工作作流流中中,,也也可可以以快快速速创创建建任任何何兼兼容容开开放放数数据据库库连连接接((ODBC)的的数数据据库库,,包包括括SQL服务务器器、、MySQL、Oracle等。。b、当当网网站站格格式式发发生生变变化化时时,,很很多多传传统统的的爬爬虫虫软软件件都都会会罢罢工工!!因因此此需需要要一一种种适适用用性性更更好好的的数数据据挖挖掘掘工工具具。。十二二、、成成本本a、人人工工成成本本,,配配备备专专业业的的技技术术人人员员进进行行编编写写代代码码的的成成本本要要低低。。b、物物理理成成本本,,不不需需要要高高昂昂的的硬硬件件设设备备支支持持,,订订阅阅新新闻闻信信息息服服务务和和后后期期维维护护成成本本。。(3)一、、为为政政府府节节省省资资源源,,舆舆情情信信息息采采集集效效率率提提高高独有有的的技技术术可可以以有有效效的的利利用用海海量量数数据据,,从从中中挖挖掘掘出出对对企企业业增增长长有有价价值值的的信信息息,,并并可可以以进行行高高度度可可扩扩展展性性的的数数据据监监控控和和数数据据收收集集。。二、、及及时时监监测测政政府府部部门门相相关关舆舆情情信信息息通过Connotate的自动化Web数据抽取工具具,自动化抽抽取数据和监监控数据,实现对政府相相关领导和相相关部门对目目标数据的精精准抽取。全全面监测,及及时发现问题题,做出应对对措施。三、准确正负负面判断呈现现政府关注的的负面舆情信信息政府可以第一一时间了解到到最新舆情信信息。四、政府相关关行业信息监监测对Connotate抽取的信息进进行舆情趋势势分析,及时时掌握本区最最新及热点信信息。五、舆情传播播路径、趋势势分析对抽取的信息息进行媒介分分析、关键字字分析、传播播度分析及舆舆情信息传播播趋势分析,,预判所收集到到舆情信息的的未来走势。。六、负面舆情及时时预警敏感事件、违违法乱纪行为为、民生问题题、社会分配配、突发性事事件等舆情信信息,通过对Connotate抽取的数据进进行语义分析析,自动判断断信息的正负负面,在此基基础上分析负负面信息中出出现的热点信信息,当其热度达到到一定的预警警值,则自动动推荐为预警警信息,自动动弹窗、邮件件通知、短信信通知。七、自动生成成舆情报告根据之前设定定的关键字眼眼和敏感话题题,自动生成成政府预设模模板的舆情报报告,并定期期发送。实施效果a、全面:自动动全天候抽取取相关网站的的内容,新闻、门门户、论坛、、微博(新浪浪、腾讯)QQ群b、高效:大大大减少了数据据抽取需要的的时间,又提提高了精准度度,避免了人人工干预带来来的难以发现的错误。。c、低成本:无无需专业的技技术人员,普普通职员也可可以进行操作作,减少了人人工成本。d、发现洞察::及时发现并并解决问题,,大大有利于于决策的制定定和维护社会会稳定和促进进和谐。e、毫无保留地地导入到数据据仓库中,把把关注的网络络数据转换为为自己私有的的数据库为政府部门维维稳促和发挥挥至关重要的的作用。f、适用性:不不受网站格式式变化的影响响,无需编写写代码,维护护费用几乎为为0.社会效益有敏感信息及及时发现、热热点识别、倾倾向性问题分分析与统计、、突发事件分分析、自动生成舆情情简报等多项项功能,可帮助纪检监监察机关及时时掌握舆情动动态,有效拓宽了解解社情民意的渠渠道,提高收集、分分析、处置以以及应对网络络舆情的能力力;使得反腐腐倡廉舆情工工作实现由人工搜搜索向自动搜搜索转变、由由被动应付向向主动应对转转变、由无人人负责向齐抓抓共管转变案件调查取得得了关键性突突破建立健全协调调机制,增强强规范性建立健全交流流机制,增强强互动性建立健全舆情情汇集分析机机制,增强预预见性建立健全反馈馈机制,增强强实效性建立健全应急急机制,增强强调控性经济效益情报收集、科科学决策:公检法安全部部门:情报收集和预预警监控分析析各级政府厅局局:情报收集集舆情监控•收集政治情情报信息•监测恐怖攻攻击嫌疑犯面部、、出现匹配报报警•检索性犯罪罪者的记录•监测处罚记记录•确保遵守反反洗钱条例•抽取和收集集地方新闻•创建政治圈圈里关键任务务的信息查询•监控和收集集施工招标的的数据公检法、安全全军队、反腐腐调查部门情情报分析预警警监控收集各类与单单位相关的文文章建立单位的动动态知识库收集地方和全全国的相关报报道•监控市场动态态新闻•创建律师文件件的数据库•为教育工作者者创建查询目目录•收集医师关系系的数据•收集车辆事故故数据以支持持集体诉讼•收集未成年性性交易数据以以支持犯罪调调查•监控法律法规规网站以支持持医院索赔管管理•推送驾驶员的的驾驶资料•监控商业上分分担风险的状状态军队情报收集集分析动态指标、数数据的收集监监控预警收集各类与单单位相关的文文章建立单位的动动态知识库收集地方和全全国的相关报报道•监控市场动态态新闻•收集医师关系系的数据•收集车辆事故故数据以支持持集体诉讼•收集未成年性性交易数据以以支持犯罪调调查•监控法律法规规网站以支持持医院索赔管管理•推送驾驶员的的驾驶资料•监控商业上分分担风险的状状态•监测处罚记记录情报收集和预预警监控分析析阿拉巴马州的的县级移动公公共学校系统统2008年以来辍学率率高达48%,实施了大数据据分析应用后后,通过对95所学校的学生生数据进行深深入挖掘,提炼出学生辍辍学前的“信信号”,并制制定有针对性性的措施,成功将学生的的毕业率提高高了70%,学生的成绩绩也获得大幅幅增长。交通、环保、、气象、卫生生、教育等部部门情报收集集分析预警监监控某手机价格监监控定价策略略PoC36依托大数据分分析决策,开开展“网上作作战”,通过网上查证证、排摸、串串并、控嫌、、控赃、缉捕捕和预警等措措施,发现案件和嫌嫌疑人线索,,实现以情报报研判引领实实战、主导侦侦查一、建立基本本数据库在“大平台””的基本信息(公公安信息和社社会面信息))和车辆视频监控控信息(“320”工程、道路交交通、收费站站及卡口的车车辆视频)、、手机、基站等等通信信息、、GPS信息、网络监监控信息和公公安、社会面面图像监控信信息等7大类的基础上上,结合利用用部、省信息息系统平台,,调整完善市市级重点人员员库、高危地地域库等专题题库,通过各各类数据资源源库、集约各各警种技术手手段,实现多多库轨迹的联联查联侦,逐逐步将单一平平台轨迹管控控方式向网格格化、多层级级的管控方式式拓展。包括:构建多个面向向基础分析的的专题数据库库:(1)市级重点人人员库(2)高危地域库库(3)保安等专门门人员信息库库(4)排查结果数数据库等。。。。。。。举例:某公检检法安全部门门情报分析全网实时动态态监控防范系系统融合历史数据据+WEB数据+实时动态数据据37功能要求整合多网信息息库资源和轨轨迹线索信息息,构建多点交集集信息、多轨轨交织轨迹,,适时开展网上上作战工作,,形成网上作作战、合成作作战体系。达到多轨排查、信信息关联、伴伴随分析、轨轨迹比对、多多轨研判等功能。多轨排查(1)是案件轨迹迹—案件的串并分分析(多库联联侦的案到案案的硬串、软软串;案到人人;人到案)),从高危到到案、从前科科人员到案。。(2)是人员轨迹迹—人员轨迹包括括旅馆住宿信信息、暂住人人员信息、网网吧上网信息息、涉警信息息、空港信息息、公路铁路路乘车信息、、银行交易信信息等社会信信息。对可疑人员在在时空范围内内进行排查(包括从车到到人、从物证证到人、从电电信到人、从从虚拟信息到到人);(3)是车辆轨迹迹—运用现有车辆辆数据资源,,包含警情案案件中车辆信信息、交管系系统车辆信息息、卡口系统统车辆信息、、租赁车辆信信息,进行排排查,排查关关系车辆。车辆轨迹的查查询搜索,从车到车主、、违章违法记记录、到关系系人、到嫌疑疑人、到团伙伙。全网实时动态态监控防范系系统38(4)移动电信位位置轨迹—以技侦部门信信息为基础,,案件及所处处电信基站的的串并分析((同类型案件件的不同基站站内进入的号号码分析);;(技侦侦提供供)(5)网络络轨迹迹—结合上上网场场所信信息((包含含网吧吧或旅旅馆的的地理理位置置信息息、单单位信信息))、网网络活活动信信息。。实现现由网网络信信息到到人、、由网络络信息息到案案件、、由网网络信信息到到电信信信息息的多多轨侦侦查。。(网网侦提提供))(6)视频频轨迹迹—以视频频监控控平台台信息息为基基础,,结合合视频频时间间、点点位信信息图图像轨轨迹的的查询询搜索索,行行车图图像轨轨迹。。(图图侦提提供))同行伴伴随分分析模模型重点分分析涉涉案嫌嫌疑人人的案案件同同案、、暂住住同地地、住住宿同同行、、车辆辆同行行、手手机同同行、、民航航同行行、动动车同同行等等。信息关关联及及多轨轨研判判信息关关联及及多轨轨研判判通过对对“人、、车、、电、、网、、像、、案”各类信信息往往复式式核查查,不不断深深入,,相互互碰撞撞,逐逐步将将单一一平台台轨迹迹管控控方式式向网网格化化、多多层级级的管管控方方式拓拓展。。对“人人”的的联查查联控控,是是对各各类数数据信信息进进行筛筛选,,关联联出相相关的的车辆辆信息息、SIM卡信息息、网网络轨轨迹等等信息息;对对“车车”的的联查查联控控,关关联出出相关关的人人员信信息、、图像像信息息、车车辆经经过采采集点点时的的电子子轨迹迹等信信息;;对““电””的联联查联联控,,关联出出人员员通信信轨迹迹、密密切联联系人人等信信息;;对““网””的联联查联联控,,关联联出人人员的的网络络虚拟拟活动动轨迹迹及网网上网网下关关系人人等信信息;;对“像像”的的联查查联控控,关关联出出车辆辆轨迹迹、人人员轨轨迹、、电信信轨迹迹等相相关信信息。。在PGIS平台上上实现现可视视化的的展示示,同时时依依据据各各类类轨轨迹迹的的时时空空分分布布及及活活动动规规律律特特性性,,进进行行综综合合研研判判。。缉控控追追踪踪在多多轨轨信信息息数数据据库库信信息息实实现现关关联联应应用用的的基基础础上上,,建建立立专专门门多多轨轨缉缉控控数数据据库库,,实实现现对对涉涉案案人人员员信信息息、、车车辆辆信信息息、、手手机机信信息息等等布布控控,,通过过多多轨轨缉缉控控库库和和各各轨轨迹迹信信息息库库之之间间的的数数据据实实时时比比对对,,实实现现自自动动报报警警、、精精确确打打击击的的功功能能。。总体体规规划划分分步步实实施施(怎样样快快速速部部署署大大数数据据分分析析系系统统))1、怎怎样样部部署署web数据据的的抽抽取取监监控控2、非非结结构构化化动动态态数数据据的的抽抽取取整整合合和和联联网网数数据据3、怎怎样样部部署署适适合合您您的的融融合合三三类类数数据据的的数数据据库库4、怎怎样样部部署署高高速速政政务务情情报报与与舆舆情情分分析析展展现现怎样样把把静静态态历历史史交交易易数数据据与与实时时动动态态数数据据融融合合

实时动态数据、感应器、机器监控、摄像头、交易、位置通信通话、短信、交通实时动态数据WEB数据

WEB数据、微博微信、电子邮件Cookies、点击行为、情感情绪发帖投诉、动态的IP转化为结构化数据与政府企业相关的网站微博媒体舆情评论投诉申诉其他

历史静态交易状态数据地理气象、环保卫生、交通通信社会数据、国家数据、商业数据提供分析服务(云服务)分类文件分类报道分类情报分类推送报表OLAPAdhoc分析Dashboard预警监控融合合交交互互互互动动各类类内内部部外外部部数数据据抽抽取取整整合合Syncsort’’sDMX-hintheBigDataEcosystem41SyncsortConfidentialandProprietary-donotcopyordistribute抽取取整整合合内内部部和和外部部的各各种种数数据据Syncsort42SyncsortConfidentialandProprietary-donotcopyordistributePROCESSSortJoinAggregateCopyMergeDISTRIBUTECOLLECTEExtractTTransformLLoadTheEconomicsofData43SyncsortConfidentialandProprietary-donotcopyordistributeCostofmanaging1TBofdataMainframeEDWHadoop$20,000––$100,000$15,000––$80,000$250––$2,000ScalabilityPerformanceReliabilityAgilityAgingworkforceButthere’’smore……BigDataTestingwithCognizantatLeadingFinancialOrganization44SyncsortConfidentialandProprietary-donotcopyordistributeCDCBenchmark.NoCoding,NoScripting,JustFaster!3xFaster>Pig+JavaPig+JavaZero423DMX-h4ManweeksHiveQL12Manweeks总体体规规划划分分步步实实施施(怎样样快快速速部部署署大大数数据据分分析析系系统统))1、怎怎样样部部署署web数据据的的抽抽取取监监控控2、非非结结构构化化动动态态数数据据的的抽抽取取整整合合和和联联网网数数3、怎怎样样部部署署适适合合您您的的融融合合三三类类数数据据的的数数据据库库4、怎怎样样部部署署高高速速政政务务情情报报与与舆舆情情分分析析展展现现怎样样处处理理复复杂杂的的数数据据关关系系(把把你你100代的的家家谱谱30秒可可以以呈呈现现出出来来))林则则徐徐左宗宗棠棠女婿婿曾国国藩藩连襟襟曾纪纪鸿鸿儿子子梁启启超超女婿婿梁思思成成儿子子林徽徽因因老婆婆徐志志摩摩单恋恋宰相相陈陈宝宝箴箴女儿儿陈寅寅恪恪孙子子曾孙孙女女叶剑剑英英儿子子儿子子江青青蓝平平舅舅舅干女女儿儿丈夫夫改名名曾祖祖父父梁启超孙女俞明震娶了了曾曾纪纪泽泽的的女女儿儿,,是是鲁鲁迅迅的的老老师师叶剑剑英英的的老老婆婆是是曾曾宪宪植植,,曾国国藩藩的的曾曾孙孙女女,,曾曾宪宪植植的的表表兄兄的的女儿儿的的儿儿子子叫叫蒋蒋经经国国,,他他爸爸叫叫蒋蒋中中正正。。俞正正声声的的二二舅舅舅舅叫叫范范文文澜澜,,范文文澜澜的的两两学学生生,,一一个个叫叫郭郭沫沫若若,,一个叫汪汪兆铭,,汪兆铭铭的老婆婆是陈璧璧君,陈寅恪的的外甥女女,兆铭铭兄脑子子和别人人不一样,,总想填填海,后后改名为为汪精卫卫梁启超孙女俞明震贺子珍妻子侄子毛主席丈夫贺国强愈正声儿子姚依林外甥王岐山

女婿孟学农梁启超孙女俞明震黄敬敬传统关系型数据库简单慢小型快复杂大型应用复杂杂度单独数据据价值集合数据据价值数据价值值什么样的的数据库库适合我我?互动式实时分析记录查询历史分析探索分析事务性分析性速度

(“New”OLTP)联盟合作作的NOSQL列式数据库文件数据库Key-value数据库图形数据库解决复杂杂的数据据关系问问题—--部署公共共服务应应用、用用数据决决策1个人认识识6个人就可可以找出出全球60亿人的关关系系统监控与管理应用Cache专业化硬件负载平衡器信息队列Neo4j群集终端用户图形可视化其它数据库EAI索引提供者ETL大量数据分析基础架构(e.g.GraphComputeEngine)ETL报表复杂数据据关系的的处理分分析(Neo4jorMongoDBorParaccel)+(PentahoorDatameer)构建高高速大数数据分析析平台利用Neo4j有效管理理社会成成员关系系深圳市织织网工程程深圳一千千五百万万人,平平均每个个人有价价值的社社会关系系有数十十个累计可以以产生社社会关系系超过十十亿深圳市织织网工程程复杂的社社会关系系深圳市织织网工程程如果您需需要处理理高频读读写高高速大大量I/O吞吐的数数据存储储分析对高频读读写高速速大量I/O吞吐的数数据存储储分析互动式实时分析记录查询历史数据分析探索性数据分析微秒百分之几秒几秒几分钟几小时交易Placetrade投入广告Servead丰富数据流stream检验数据包核准交易计算风险排行榜集合整合计算检索点击数据流Retrieveclickstream显示订单翻背试验算法BI商业智能每日报表算法挖掘日志分析欺诈方式匹配单独数据价值数据价值整合数据价值数据时代代实时动态态数据分分析计算大规模计计算非常常困难VoltDB为擅长计计算而设设计排名通过规模模、价值值或者幅幅度排名名VoltDB优化了实实体化的的表现可可视图集合集合收集集大量数数据在快速变变换的数数据基础础上,查查看实时时的切片片图闭环大数数据ClosedLoopBigDataInteractiveReal-timeAnalyticsRecordLookupHistoricalAnalyticsExploratoryAnalyticsTransactionalAnalyticVoltDBloginssensorsimpressionsordersauthorizationsclickstradesIngestEventsDecisioningReal-timeAnalyticsDataSciencesExploratoryReportsLongtermtrendingAnalysisRawEventsPre-processedDataKnowledgeMakethemostinformeddecisioneverytimethereisaninteractionVoltDB的的一个典典型架构构ERPCRMHROrdersCartRecom-mendationUserMgt.ClickStreamInvPersonal-izationDatawarehouseHadoopTraditionalOLTPVelocityOLTPloginssensorsimpressionsordersauthorizationsclickstradesInteractiveReal-timeAnalyticsHistoricalAnalyticsExploratoryAnalyticsAnalyticresultsenrichdecisionmaking总体规划划分步实实施(怎样快速速部署大大数据分分析系统统)1、怎样部部署web数据的抽抽取监控控2、非结构构化动态态数据的的抽取整整合和联联网数据据3、怎样部部署适合合您的融融合三类类数据的的数据库库4、怎样部部署高速速政务情情报与舆舆情分析析展现高速的大大数据分分析平台台怎样解解决分析析速度慢慢的问题题—--把传统的的数据中中心升级级为大大数据分分析平台台连接分析展示云端或者者地面部部署的任意形式式的数据快跨整个数数据生态态系统、、跨用户户和跨应应用的无约束式分析快真正的实时展示,为为行动提提供决策策快123把大数据据转换成成真正的的商业价价值50TB以下—SMP,50TB-PB级MPP无约束高高速分析析的Paraccel61Confidential©©2013ActianCorporation客户PoC:传统数据据库Oracle对比ParAccelMPP62Confidential©©2013ActianCorporation总共需要85hours总共需要1分钟15秒ModelBuildTestTune查询加载30秒45秒ParAccel分析Oracle分析46小时2小时3小时6小时8小时Model20小时LoadBuildTestTuneQueryXXXX客户PoC:ParAccelMPP对比Greenplum63Confidential©©2013ActianCorporationGroupNumberParAccelGreenplumPAtimesbetter

DB1114.01329.4524.02209.249.711011.3Countdistinctqueriesonhighlydistinctcolumn98.06313.0correlatedsubqueries335.029015.2Outerjoinqueries812.010217.4>12Joinsinaquerywith2largetables112.735.122.7195.06628.9125.0110.335.4103.9102.544.6GEOMEAN1.753.29AVERAGE11.93123.09COMPOSITE4.5720.14客户PoC使用ParAccelMPP的好处:对比现有的的Teradata64Confidential©©2013ActianCorporation延长现有数据仓库的使用年限2年以上提高数据分析性能达到18倍提高性价比10倍对比1/10成本缩减数据库管理达到75%减少基础设施成本,对比升级1/10提高数据分析量达到10倍提高分析人员利用率超过50%第三代超高高速处理PB级

大数据据分析平台台SpaceCurve适合空间地地理气象数数据处理历史静态数数据+动态数据+实时数据集集成分析快速部署大大数据的可可视化Datameer海量数据的的超高速查查询XQueryXMLextensionPoweredby海量数据的的超高速查查询28.ioUnifiedInformationAccessPlatformContentsourcesstoringdocuments,emails,books,articles,webpages,etc.RelationalDatabaseFilesystemThird-PartyContentFeeds(XML,HTML,ZIP,etc.)NoSQLDatabaseQueryacrossdisparatecontentrepositoriesEditors,ContentCuratorsSearch,reuse,repurposecontentWebSites,Portals,WebAppsMobileAppsDynamicallyrenderanddelivercontentinmultipleformats……CustomContentFeedsSeparateTask-SpecificRepository(e.g.,MongoDB)Optionallyimportcontentintoatask-specificrepositoryContentdestinationsCuratedcontent,Masterindices,Markup/structureforrepurposing,Migratedcontentfromretiredsources怎样解决高高速查询28msec高速查询解解决方案可视化了的查询及处理图层结构化数据/半结构化数据/非结构化数据

JSONiq查询语言:非关联数据库的结构化查询语言自动并行运算RESTAPI实时NoSQL(MongoDB,CouchDB,...)SQLthroughJDBCFileStores(S3,GlusterFS,…)JSON,XMLRelationalText,Pdf,HTML..Otherdatastores...其它数据格式商业应用WebServices(Salesforce,Zendesk,…)JSON,XMLHadoop同28.io架构对比S3ETLHDFSMapReduce结果S328.io结果Hadoop28.io运行45分钟35秒几个小时数据科学家家费时2小时开发MapreduceCode商业用户费费时20分钟建立JSONiq查询Hadoop部署、优化化、快速开开发管理怎样对一体体机的优化化管理电信、网络络运营商、、金融应用用hadoop集群优化、提高系统的稳定性hadoop的安全加密管理、提高安全性简化hadoop工作负载和应用开发、提高速度hadoop应用快速部署在数天而不是数月完成降低hadoop部署和应用开发门槛提高hadoophive的速度

静态历史交易数据地理气象、环保卫生、交通通信社会数据、国家数据、商业数据

WEB数据、微博微信、电子邮件Cookies、点击行为、情感情绪发帖投诉、动态的IP

实时动态数据、感应器、机器监控、摄像头、交易、位置通信通话、短信、交通实时动态数据WEB数据对WEB数据+历史数据+实时动态数数据的抽取、存储储、分析可可视化是部部署大数据据分析的关关键总结结怎样在三十十天内为您您的客户部部署大数据据应用总体规划分分步实施一、怎样部部署政务情情报与舆情情分析系统统1、怎样部署署web数据的抽取取监控2、非结构化化动态数据据的抽取整整合和联网网数据3、怎样部署署适合您的的融合三类类数据的数数据库4、怎样部署署高速政务务情报与舆舆情分析展展现二、方案和和产品的行行业机会??三、为什么么联盟?联联盟能帮助助您什么??合作模式((推广—交流方案—实施—服务)联盟能帮助助你什么??(厂商+CIO+渠道方案=推广)大数据厂商商联盟分销销推荐产品品75集群优化性能优化性能优化快速部署安全管理平台优化NOSQL分析平台层数据抽取集成层Hasoop优化层VoltDB应用/方案的高吻吻合目标行行业行业电信和网络络金融服务广告科技能源和应用用资本市场电子商务/零售业在线游戏以上绝不是是仅有的行行业!其它行业种种类战略性大数数据项目早期使用者者感应器驱动动的环境电信领域计费和权限管理,用户数据个性化营销广告优化,观众分组能源与传感器领域智能电网/电表,资产跟踪与管理,实时交通与地理位置证券市场风控管理,市场数据管理基础设施数据管道,批次->实时,流媒体的ETLVoltDB高频数据存存储分析77SmartMeter资金市场写/索引所有交易,存储逐笔交易资料显示整合交易者的风险呼叫初始请求实时授权认可欺诈侦测分析入站HTTP请求访问者登陆、分析、警告流量图形分析在线游戏等级分数定义的间隔执行玩家“最好成绩”排行榜状态查找实时广告交易系统匹配形式因素,下单规范,竞价/询价报告广告效能无线设备位置感应器位置更新,服务品质,事物处理事务处理上的数据分析VoltDB应用使用方案中中会包含VoltDB的目标客户户理想的销售售机会IdealProspectCharacteristics初期采用者者高速率-增长中的交交易处理率率寻求竞争差差异事务处理–需要做出决决策创建新的apps数据吞吐量量用尽水平分区Sharding––目前使用手手工操作其次寻求削减成成本-准备使用云云端ACID––不能做到最最终一致性性就无法生生存次要销售机机会对风险抱保保守的态度度使用传统数数据库可以以解决问题题很少使用到到高速决策策非结构化数数据、文件件数据库复杂的查询询和分析特别巨大的的数据J2EE,HibernateWindows/Unix/COBOLarchitecturebias吸引用户使使用VoltDB的原因(条条件)公司的战略略同大数据据相关新的应用部部署,而不不是在现有有应用上转转换数据库库额外的数据据来源于在在线数据为了获取性性能、分区区等使用费费自然的技技术手段面临来自于于创新的竞竞争压力Oracle不能满足性性能的需求求、授权或或者对于降降低硬件成成本的需求求公司需要围围绕特定技技术寻求发发展实时数据分分析基于内存的的数据库25个客户需求求排名,用用来评价用用户是否需需求使用VoltDB产品数据库基于内存速度在线事务管管理实时大数据SQLNewSQL关系型线性扩展能能力事务处理过过程实时数据分分析实时决策可扩展数据据库快速数据库库分布式数据据库高性能数据据库机器产生的的数据数据吸取到到决策速度扩展(扩展展性)商业价值创新降低总成本本投资回报率率产品卖点及及应用场景景产品核心功能及卖点行业应用方案及场景价格体系自动WEB数据抽取监控发布1、政府情报:相关WEB数据抽取监控发布2、运营商电商零售:WEB数据抽取监控3、金融:风险分析、投资推荐4、企业:相关数据抽取,价格和市场策略制定,客服分析,精准营销5、各行业web数据抽取监控发布1、连web数agent2、DEV提供速度的列式内存数据库构建在所有原应用系统或数据仓库架构上,解决各行业系统性能差速度慢的问题,提供数据分析处理几十倍按压缩2TB,4TB海量数据的超高速查询泛异构环境下海量数据的高速查询1、图书档案文件数据查询2、详单查询3、商品库存价格海量查询4、任何行业海量数据查询查询服务台数怎样制订您您的大数据据解决方案案一、海量数数据的高速速查询(28io+MongoDB)应用行业与与场景:1、话单(电电费、水费费。。。))实时查询询2、海量数据据(图书、、档案、专专利、知识识库。。。。)高速速查询3、企业、商商品、库存存数据信息息查询二、传统数数据中心BI升级为大数数据分析平平台(Connotate+Syncsort+Praraccel+Datameer)1、提高查询询分析速度度几十倍((Praraccel)2、增加分析析WEB数据(Connotate)3、增加对对对手+外部动态实实时数据的的分析(Syncsort+Praraccel+Datameer)三、WEB数据自动抽抽取监控发发布(Connotate+您自己的门门户+arcplan)1、企业竞争争价格收集集定价2、情报数据据监控分析析3、证交所((券商、证证券公司、、公募私募募投资分析析推送)4、政府情报报监控分析析怎样制定您您的大数据据解决方案案四、高速数数据仓库处处理分析平平台(Paraccel或SpaceCurve+Pentaho)1、电信运营营商详单查查询2、提高数据据仓库速度度性能几十十倍3、医院、企企业等提高高数据访问问查询速度度4、网站电商商超高速高高性能平台台五、非结构构化数据抽抽取整合((Syncsort+arcplan)1、感应器、、机器产生生的数据的的抽取分析析2、各类非结结构化数据据结构化数数据的抽取取整合六、复杂数数据关系的的分析(Neo4j+arcplan)1、物流路线线优化分析析,邮品可可视化查询询跟踪2、各类网络络优化分析析3、社交网站站云服务4、人群关系系分析5、实时电视视评分、互互动交互怎样制定您您的大数据据解决方案案七、Web及点击行为为分析(Connotate+GIGYA+Metamarkets)1、RTB精准营销2、把浏览客客户转化为为购买客户户3、跟踪监控控情报分析析4、可视化点点击行为八、Hadoop优化管理及及快速开发发部署(HPPC+Zettaset+Karmasphere+Hadapt+Hyve)1、Hadoop集群优化2、Hadoop

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论