基于大数据的数据分析_第1页
基于大数据的数据分析_第2页
基于大数据的数据分析_第3页
基于大数据的数据分析_第4页
基于大数据的数据分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于大数据的数据分析摘要在当今世界的发展过程中,计算机信息技术的飞速发展使得数据的应用和扩展变得愈加轻易。在今天的时代,可以说大数据的时代,无论是数据,存储,分析,在机遇的新时代,处理,挖掘等仍然面临着机遇和挑战。在时代机遇背景下,大数据技术的迅速发展对于社会各方面事业以及科学技术的进步具有非常明显的增进作用,因此对于大数据其所存在的价值,以及其在项目数据分析工作当中所发挥的作用,要进行真实有效的研究。因此在文章中,笔者将从数据分析角度着手,对国内外有关研究工作进行分析,对大数据项目数据分析工作进行论述。关键词大数据;项目;数据分析;价值序言近年来,业界和学术界都在进行大数据讨论,大数據时代已经一夜之间到来。大数据为学术界带来了新的思潮。据预测,大数据将成为商业,政府,科研,教育和医疗等行业面临的挑战。在大数据时代,数据分析和数据挖掘工作面临机遇和挑战。结合国内外研究,试图回答大数据是什么以及怎样处理大数据。1对大数据的有效认识1.1大数据的宗旨:通过度析的数据才有价值必须分析大数据,这是由大数据的4V特性(大数据量,多种数据类型,迅速处理速度,低密度)决定的。换句话说,数据是高维的,低密度的,并且很难从单个数据中看到法则。因此,有必要分析和优化高维度的维度并细化大量低密度信息的值以便起作用。否则,在大数据的环境中,更轻易使“实时”信息沉浸在大量的“死”数据中。大数据的分析应当是“简朴,迅速,大规模”。1.2大数据的目的:实现基于数据的决策与资源配置大数据最终需要实现科学决策,基于信息对称的有效资源分派。伴随大数据分析技术的发展,数据源可以从离线封闭数据库和数据仓库扩展到打开O2O(在线到离线)融合数据。可分析数据构造已经从基于数值的构造化数据演变为多媒体数据,例如文本,视频和音频。因此,大数据将逐渐变化我们的决策目的以及怎样布署社会资源。基于数据的科学决策是一贯追求的目的。然而,信息不对称是常态,因此老式的决策目的是建立相对满意而非最优(由决策科学家Simon提议),资源配置效率是基于计划的市场优势。1.3大数据的角度:个性化服务+中间索引+宏链接目前,大数据的开发,重要是基于数据,为客户提供个性化的营销服务,预测中观行业或区域趋势指数,基于链接的宏观资源配置方案等角度。这不仅反应在阿里小伟的个性化风险控制决策中,高端品牌在线销售品牌和定价动态决策(基于阿里巴巴网络业务活动指数和零售商品价格指数)以及识别集团企业发展战略征询汇报,它也反应在阿里巴巴商业智能指数(预测经济发展趋势)和基于公共气象数据的资源配置优化服务中。互联网金融是大数据开发各个方面的前沿。在金融领域,我们必须实现从金融互联网到互联网金融的迅速转变。老式模式下的金融企业开展在线业务,如:网上银行和网上银行不是真正的互联网金融。互联网金融是指通过互联网上的新技术为客户提供搜索或风险控制等增值服务。消除供需构造不对称的P2P贷款,提高增值理财产品的效率。1.4大数据的要点:保证数据质量要开发大数据分析,首先要保证数据的质量。错误的输入必然导致错误的输出。没有数据质量,一切都是浮云。数据质量没有保证,是不敢用的。数据质量是一种耗时且费力的基础。保证数据质量需要数据搜集和清理的两个原则:有关性和低噪声。首先,大数据不是越“大”越好,但越“大”的有关数据越多越好。尤其是,在数据搜集中,有必要尽量多地搜集“有关”数据,而不是尽量不过滤。另一方面,当获取数据时,必须保证不存在诱导趋势的干扰原因,同步执行去噪处理。保证数据质量可以建立数据。在建立数据质量数据标签方面获得了进展。运用数据质量数据,决策者可以更安全、科学和有效地使用数据[1]。2大数据的有效运用2.1大数据时代,数据分类和清理工作首先,数据清理和清理是数据分析的基础。根据经验,大数据专家普遍认为,这项工作是一项基本工作,既耗时又简朴,占数据分析工作量的60%以上,这是数据分析的前提和基础。在此基础上,数据分析需要识别数据,进行深入分析,编写专题汇报,保证成果得以实行,最终实行决策和实行。另一方面,在大数据时代,有必要充足运用IT技术来管理数据质量工作。在大数据时代,手动发现和处理数据质量问题的措施成本高,效率低且不可持续。有必要对数据质量工作进行原则化,系统化和自动化管理,并将节省的人力资源投入到新问题的研究中。2.2大数据时代,数据分析的特点使用倒金字塔模型来分派“思索,工作,分享”的时间比例。数据分析工作包括三部分:“思索”,分析实际问题,将实际问题转化为数学模型,提出处理方案;“工作”,对处理方案进行编程并产生成果的过程;“分享”,即将分析成果转化为决策并将其付诸实践的过程。在时间分布中,金字塔构造或柱构造的分布形式不是最优构造,倒金字塔构造是合理的。也就是说,思索过程需要很长时间,这可以减少后期的工作量,少走弯路。第二,通过数据分析进行科学决策。许多人均有误解,并认为数据分析是做汇报和撰写汇报。在大数据时代,数据分析不仅仅是在这里,还需要深入分析才能建立基于数据的决策过程。尊重数据,识别数据,但不识别迷信数据。在尊重数据和尊重事实的前提下,减少主观原因的干扰,迅速做出数据决策是一种能力。第三,在大数据时代,数据分析的本质是简朴,迅速,大规模。数据分析的成果要简洁、易懂;数据分析的时间应当很短,成果应当尽量自动化,并且应当迅速满足客户的需求;数据分析措施可实现大规模扩展。一种好的数据分析师应当有一种全球性的远见,假如有问题,问题可以立即分解成诸多问题。虽然是一种问题也会被克隆到诸多问题中,从而与业务人员建立信任并减少工作量。第四种是将“实时”信息与“死”消息分开。大数据有大量数据-产生大量“死”数据。错误的数据意味着数据与实际状况不一致。在大数据时代,大量数据是不活跃的主题,即“死”数据。因此,有必要从高维和低密度数据中提取“实时”信息并发现规律[2]。2.3大数据时代,数据分析师的培训一是培养关键技术人才,保证长期竞争力。当美国建立国家医疗系统时,它将系统外包给一家加拿大企业,系统在运行的第一天就瓦解了。为此目的,美国政府已经在这个模型上进行了反思。首先,外包企业的设计只符合甲方的直接利益,不考虑甲方的长远利益;另一方面,项目外包导致了美国技术人员骨干的过错,导致问题发生后问题得到处理;第三次采用这种模式导致美国缺乏关键技术。因此,在采用项目外包模式的同步,有必要掌握其关键技术。在大数据时代,我们在数据分析,信息管理和IT技术方面保持着关键竞争力。需要培养和维护业务的骨干,产品设计,数据分析,数据架构等方面。二是建立专业的大数据分析团体。大数据分析的关键是基于实际业务的数学建模,成果是自动化程序。在实际工作中,有必要对的合理地运用数学建模思想,构建基于数学模型的数据分析,建立定量管理风险的概念。对大数据分析的深刻理解和对的控制,大数据分析措施正处在不停发展的过程中,有必要根据实际问题和实际数据灵活构建模型。3大数据分析措施3.1神经网络法神经网络措施可以自主地从数据中提取知识,具有较强的迁移性,尤其适合于大数据的分析。近年来,世界上各大著名企业和高校,如Google、微软、百度、StanfordUniversity、UCBerkeley等,相继斥重金与人力投入研究基于人工神经网络的大数据分析措施,并不停在语音大数据、图像大数据、文本大数据等大数据应用领域获得了巨大的突破,极大地推进了大数据商业应用与科学研究的变革与发展。这些研究成果也揭示了一种定律,即“大数据+神经网络=巨大的成功”。前馈神经网络(feedforwardneuralnetworks,FNN)是对大脑神经网络建模的最初尝试,也是一种最简朴的神经网络模型。前馈神经网络由多层构成,每一层包括多种神经元。不一样层通过神经元之间的前向连接而连接起来,任意一层只接受它前面层的输出为输入。因此,在前馈神经网络中,信息沿着一种单一的方向流动,即从输入层,通过隐层(一般有多种),流向输出层。文献指出只要提供充足的神经元和合适的激活函数,前馈神经网络可以任意精度迫近任意的非线性映射。得益于此,前馈神经网络可以有效提取数据的空间构造特性,如感知机、深度自动编码机、卷积神经网络,这些网络均获得了丰硕的研究成果[3]。3.2可视化分析技术可视化分析的基础理论包括支持分析过程的认知理论、信息可视化理论以及人机交互与顾客界面理论,支持分析过程的认知理论重点研究从大数据中获取信息并形成知识的过程,信息搜索和获取的行为本质是意义构建行为,Pirolli等的信息觅食理论为这种行为提供了理论基础,Card等建立了意义建构循环模型,在信息觅食的基础上搜索并分析潜在的规律和模式并运用它分析处理问题的过程,形成一定决策,Green等以信息发现活动为关键根据人和计算机各自的优势,对分析推理过程中各自的角色进行建模,提出了支持人机交互可视分析的顾客认知模型.信息可视化被Card等认为是从原始数据到可视化形式再到人的感知认知系统的可调整的一系列转换过程,或者理解为编码和解码2个映射过程,重点是能瞬间感知大量信息并在真实的基础上具有丰富的体现能力,人机交互与顾客界面理论则包括3个模型:①任务建模理论模型:支持并辅助顾客认知过程,指导可视分析系统的顾客界面设计与实现,追求具有多层次多粒度特性并且多领域有关。②交互模型:描述顾客与系统为了协作完毕任务目的,在互动过程中各自的角色与关系、承担的任务以及互相之间的消息反馈与影响,Keim等对人、机两侧承担的最佳任务范围进行了划分,同步Pike等根据任务的多层次特点,从高层与低层映射的维度建立了信息可视化与分析的交互模型。③顾客界面模型:定义界面中的多种构成元素以及对于交互事件的响应方式,是任务模型和交互模型的最终实现,对此,Puerta等定义了完备的顾客界面模型,时空数据可视化,时空数据可视化对时间与空间维度以及与之有关的信息对象属性建立可视化表征,并对与时间和空间亲密有关的模式及规律进行展示,重点处理时空数据的高维性、实时性等特点,经典措施有将时间事件流与地图进行融合并使用边捆绑措施或密度图技术的流地图Flowmap,以三维方式直接展现时间、空间及事件的时空立方体(space-timecube)。④多维数据可视化技术.多维数据可视化技术的目的是探索多维数据项(基于老式关系数据库以及数据仓库的应用中具有多种维度属性的数据变量)的分布规律和模式,并揭示不一样维度属性之间的隐含关系.散点图(scatterplot)是最为常用的多维可视化措施,投影(projection)尤其是平行坐标(parallelcoordinates)也被广泛使用[4]。4结束语在现如今,科学技术迅速发展的状况下,多种新型技术对于社会各行业的发展都,可以发挥非常重要的作用。在现今的时代背景下,大数据技术是一项可以对社会更好的发展起到非常明显增进作用,提高社会各行业发展速度以及发展稳定性的高新技术之一,因此为了可以使社会各行业得到更好的发展,需要对大数据技术在社会各行业当中的,实际应用以及项目分析作用进行论述。在本段中所述的,在电力系统中应用大数据,的分析技术,对电力系统项目进行建设分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论