




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章大数据调查法一、知识点与关键词解释1.大数据大数据(bigdata或megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。西方学界一般从五个维度来描述大数据的特征:“体量”(Volume),“速度”(Velocity),“多样性”(Variety),“准确性”(Veracity)和“价值”(Value),统称为5V。2.大数据调查法大数据调查法是指调查者有目的、有计划地运用计算机和网络技术采集、处理、存储和分析实时记录社会现象及其活动而形成的海量数据的调查方法。3.数据挖掘大数据方法或者说大数据分析技术的核心是“数据挖掘”(datemining)。数据挖掘,又称为“爬梳”或KDD(KnowledgeDiscoverinDatabase),就是从海量数据中,提取能揭示有意义的潜在规律和人们感兴趣的知识的处理过程。数据挖掘要实现自行采集大数据,通常需要掌握专业数据抓取技术。大数据挖掘主要分为基于内容信息的数据挖掘和基于结构信息的社会计算。4.机器学习机器学习,是一门多领域交叉学科,涉及概率论、统计学、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"逼近论、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"凸分析、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"算法复杂度理论等多门学科。简单地说,机器学习就是让计算机根据历史数据自己去学习,以适应新的环境,模拟或实现人类的\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"人工智能的核心,是使计算机具有智能的根本途径。5.结构化数据结构化数据,通常是指用关系数据库方式记录的数据,数据按表和字段进行存储,字段之间相互独立。比如企业ERP、财务系统,医疗HIS数据库,教育一卡通,政府行政审批,其他核心数据库,等等。6.半结构化数据半结构化数据,是指以自描述的文本方式记录的数据,由于自描述数据无须满足关系数据库中那种非常严格的结构和关系,在使用过程中非常方便。很多网站和应用访问日志采用了这种格式,网页本身也是这种格式。课后习题详解1.什么是大数据,它有何特点?大数据(bigdata或megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。西方学界一般从五个维度来描述大数据的特征:“体量”(Volume),“速度”(Velocity),“多样性”(Variety),“准确性”(Veracity)和“价值”(Value),统称为5V。与传统数据不同,大数据不是通过抽样调查所获取的样本数据,而是人类活动的实时记录,并大都可以通过互联网存储、获取、交换和分析,这些数据可以克服抽样调查数据带来的许多随机和非随机误差。2.简述大数据调查法及其特点。大数据调查法是指调查者有目的、有计划地运用计算机和网络技术采集、处理、存储和分析实时记录社会现象及其活动而形成的海量数据的调查方法。与其他调查方法相比较,大数据调查法的特点是:(1)从“大型数据”到“大数据”。大数据则必须使用新的模型、算法及新的计算机集成技术才能进行有效的采集与处理。大数据调查需要应对数据的异构性和质量的不一致性问题。数据的异构性主要表现为:一是数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合;二是数据产生方式的多样性带来了数据源变化,移动终端数据带有明显的时空特性;三是数据存储方式的变化,要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。质量的不一致性,是指数据量大不等同信息量增大或者数据价值提高,相反很多时候意味着信息垃圾的泛滥,使得数据清洗过程更加复杂。(2)从“随机抽样”到“观察总体”。大数据调查法采集、处理的数据,一般都不是个别的、局部的,也不是抽样的,而是对总体信息进行海量的抓取,通过海量数据直接观察总体,所以调查结果能更加贴近调查对象的总体特征,规避了抽样调查推断总体时经常出现的抽样误差等问题。(3)从“精确测量”到“总体真实”。大数据时代的原则变成了“要效率不要精确”,并不是说精确不好,而是因为在大数据时代就单个数据来说很难做到精确。以调查媒体用户信息为例,调查获取数据的类型繁多,有各种网络日志、视频、图片、地理位置信息等,但很难获取一个用户的完整信息,其中还可能有用户有意无意填写的错误信息。如果继续把排除错误数据作为重要工作,大数据分析就无法进行。况且大数据的规模庞大,数据的精确性没有那么重要。因为海量数据可以更好地反映总体的真实,从而大大降低了错误信息造成的误差。(4)从“因果关系”到“相关关系”。大数据调查法无法揭示或验证“因果关系”,但却可以通过海量数据揭示社会现象之间的相关关系,并据此成功做出预测。3.大数据调查法的一般步骤和方法是什么?大数据调查法的一般步骤是:甄别与分类数据;采集与提取数据;审读和清理数据;分析和挖掘数据;从数据到结论。一是甄别与分类数据。大数据调查要从甄别与提取数据开始。数据的甄别,就是对大数据进行研究鉴别,明确调查课题需要什么样的大数据,如何获得、如何分析这些大数据。数据的甄别。数据的分类,是根据人们活动的类别,将目前常用的大数据分为四类:关于日常生活的数据、关于主观态度的数据、关于交通出行的数据和关于空间分布的数据。二是采集与提取数据。常用的采集与提取技术主要有:(1)探针采集法。探针采集法是一种采集数据的物理方法。人们日常打电话、手机上网时的数据交换,是由路由器、交换机等设备承载的。探针是一种从路由器、交换机上把数据采集过来的专有设备。(2)网页采集法。网页采集是指从网页中获取数据。互联网上有大量散落的数据。采集互联网上的数据,必须把数据从网络中截取下来,这就需要网页爬虫技术。爬虫技术,就是利用编程语言编写脚本,模拟人的浏览行为,自动获取网页上的数据,形成一个网页备份,作为采集数据的载体。(3)日志收集法。任何一个计算机系统,在运行过程中都会产生大量日志文件,其中蕴含着非常丰富的有价值的信息。如果不加以利用,这些日志文件经过一段时间就会被清理、消失。随着网络技术的发展和成熟,大数据技术可以将这些日志文件收集起来加以研究。(4)应用程序接口法。通常情况下,不同软件之间都会预先设定一个接口(如函数或HTTP接口),让使用者可在无需访问源码、无需理解内部工作机制的情况下,调用他人可共享的功能或资源。调查者通过这些应用程序接口,就能非常方便地采集、提取大量所需的数据。(5)数据采集软件收集法。市场上有许多数据采集软件平台和公司,能够为社会科学不同领域的调查研究者,提供各种个性化的数据采集服务。三是审读和清理数据。(1)判断数据结构。审读数据,首先要判断数据的结构。按照结构化程度,数据可分为三类:结构化数据、半结构化数据和非结构化数据。(2)数据结构化过程。分析和挖掘数据,必须按照结构化数据实施。因此,在分析和挖掘数据之前,必须对采集、提取的数据进行审读和清理,即将半结构化、非结构化数据转换为成结构化数据。这就是说,审读和清理数据的过程,就是数据的结构化过程。四是分析和挖掘数据。大数据分析和挖掘主要有五种方法:分类,聚类,回归,关联规则分析和社交网络分析。(1)“分类”,就是根据某些规则或属性将观察结果划分为预定义组的方法。(2)“聚类”,是一种将相似或相关数据聚集在一起、实现“组内相似,组间不同”的分析方法。(3)“回归”,是一种确定两个或两个以上变量之间相互关系的分析方法。(4)“关联规则分析”,是一种用于发现事物间相关性或相互依赖性的方法。(5)“社交网络分析”,是一种用来查看节点、连接边之间社会关系的一种分析方法。五是从数据到结论。大数据调查法的实施,既要重视各种数据采集、分析技术和算法的应用,又要重视唯物史观基本原理的指导,并努力把二者有机结合起来。只有如此,才能科学验证现有理论,或提出新的科学理论。4.简述大数据采集与提取的主要技术。大数据分析和挖掘主要有五种方法:分类,聚类,回归,关联规则分析和社交网络分析。(1)“分类”,就是根据某些规则或属性将观察结果划分为预定义组的方法。其中,决策树、支持向量机和朴素贝叶斯分类器都是相对成熟的分类算法。以城市研究为例,通过分析城市基础设施和文本数据,量化城市基础设施模式、提取不同类型城市的土地利用率,就可有效预测城市的发展状态和趋势。(2)“聚类”,是一种将相似或相关数据聚集在一起、实现“组内相似,组间不同”的分析方法。基于大数据的聚类方法,主要用于获取不同类别的数据,而不特别关注所获取类别数据的意义。聚类技术用于区分“无标签”数据比较有优势。例如,在分析蜂窝网络数据和车辆GPS数据时,可以使用聚类分析法,以此发现不同时间的人口分布模式和乘客出行模式,为制定公共交通网络规划提供基础。(3)“回归”,是一种确定两个或两个以上变量之间相互关系的分析方法。其中,线性回归和逻辑回归是使用最广泛的两种算法。回归分析法,主要用于事物之间因果关系的分析和预测,具有降维、信息提取、估计和预测等功能。例如,运用回归分析方法,可以根据居住环境与居民健康的数据,确定居民疾病与环境的关系;可以根据居住环境与房地产的数据,弄清居住环境与房价的关系,等等。(4)“关联规则分析”,关联规则分析,是一种用于发现事物间相关性或相互依赖性的方法。其中,“Apriori”和“灰色关联”是两种广泛使用的算法。关联规则分析法,可基于某些事件的发生推测其他事件的出现,并确定事物之间的影响程度,发现有价值的数据项之间的相关性,也可以用于分析遥感数据、社交媒体数据,研究城市扩张与城市活力之间的关系,等等。(5)“社交网络分析”,是一种用来查看节点、连接边之间社会关系的一种分析方法。节点是社交网络里的每个参与者,连接边则表示参与者之间的关系。节点之间可以有很多种连接。社交网络是一张地图,可以标示出所有与节点间相关的连接边。随着社交媒体的发展,该方法已成为一种相当流行、新颖的大数据分析方法,已广泛应用于分析人与人之间、人与物之间、物与物之间的关系。比如,分析人口流动和物资流动的方向、强度等关系。5.大数据分析和挖掘有哪些方法?大数据方法或者说大数据分析技术的核心是“数据挖掘”(datemining)。数据挖掘就是从海量数据中,提取能揭示有意义的潜在规律和人们感兴趣的知识的处理过程。因此,数据挖掘又被称为“爬梳”或KDD(KnowledgeDiscoverinDatabase)。要实现自行采集大数据,通常需要掌握专业数据抓取技术。大数据挖掘主要分为基于内容信息的数据挖掘和基于结构信息的社会计算。(1)基于内容信息的数据挖掘。语言是社会媒体最重要的表现形式,文本是社会媒体中用户表达信息的最重要的方式。基于内容信息的数据挖掘包括网络搜索技术与实体关联分析等主要研究内容。社会媒体的出现为互联网信息搜索提出了新的挑战,研究的热点从传统的海量数据抓取、索引结构优化和用户查询分析等转移到了排序学习算法,专注于提高检索质量。此外,社会媒体需要关注数据的短文本特征、对简短关键词表达的深入理解和分析,掌握用户真实的查询意图。(2)基于结构信息的社会计算。社会网络是以社会媒体中的用户为节点、用户间的关系为连边而构建的网络。它既是用户间社会关系的反映,也是用户间进行信息交互的载体。社会网络具有关系的异质性、结构的多尺度性以及网络的动态演化性三方面特性。在社会网络中,个体因血缘关系或兴趣爱好等因素而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征,社区结构的存在对于网络的高效搜索、网络演化、信息扩散等具有重要意义。针对社区结构的研究可分为社区发现、社区结构演化等方面。父母社会经济地位对子代地位获得的影响是社会学研究领域的一个经典议题。很多研究人员通过对比父子两代的社会经济地位来分析社会流动,其基本研究结论是:父母社会经济地位越高,子代的社会经济地位也越高。但是,代际之间在社会经济地位上的关联程度在不同时期和不同社会也存在非常明显的差异。6.实施大数据调查应当注意哪些问题?一是技术依赖性问题。大数据调查法从甄别、获取、采集、提取、清理、分析、挖掘,直至得出调查结论,都高度依赖于软件和计算机技术。采集、处理的数据尽管是具有很大客观性、真实性、可靠性的自在数据,但却是非实体性的存在。机器分析算法期望同构数据,并且不能理解细微差别。同时,依赖技术获取的大数据,往往难以分清与目标总体间的差异。二是大数据调查的多学科配合问题。大数据调查一般都要涉及到广阔的调查空间,众多的调查对象,海量的调查数据,多方面的调研资料,要使用多学科的调研方法和技术,其工作量往往十分巨大,并有一定的时间要求,单靠个别调研人员是很难完成的。一般地说,大数据调查课题,都应该组建一个多学科合作的、有一定规模的团队来承担。三是隐私与信息安全问题。互联网的发展使数据更加容易产生和传播,数据隐私问题越来越严重。一是隐性的数据暴露。互联网,尤其是社交网络的出现,使得人们在不同的地点产生越来越多的数据足迹。如果有办法将某个人的很多行为从不同的独立地点聚集在一起,他的隐私就很可能会暴露。二是数据公开与隐私保护的矛盾。如果仅仅为了保护隐私就将所有的数据都加以隐藏,那么数据的价值根本无法体现。大数据时代的隐私性主要体现为在不暴露用户敏感信息的前提下进行有效的数据挖掘,这有别于传统的信息安全领域更加关注文件的私密性等安全属性。四是大数据管理的易用性问题。从数据集成到数据分析,直到最后的数据解释,易用性应当贯穿整个大数据的流程。易用性的挑战突出体现在两个方面:一方面,大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化。其复杂程度已经远远超出传统的关系数据库。对于数据管理领域,需要借助AI发挥作用。另一方面,大数据已经广泛渗透到人们生活的各个方面,很多行业开始有大数据分析的需求。要想达到易用性,需要关注以下三个基本原则:可视化、匹配和反馈。三、扩展阅读(一)什么是大数据分析?大数据分析是指用于从不同的大量、高速数据集中收集、处理和得出见解的方法、工具和应用程序。这些数据集可能来自各种来源,例如Web、移动应用、电子邮件、社交媒体和联网智能设备。它们通常表示以高速生成、形式各样的数据,从结构化(数据库表、Excel表)到半结构化(XML文件、网页),再到非结构化(图像、音频文件)应有尽有。传统形式的数据分析软件无法支持这种程度的复杂度和规模,而这就是专为大数据分析设计的系统、工具和应用程序发挥作用的地方。(二)大数据分析为什么很重要?现在,你知道了什么是大数据分析。但是,它为什么很重要呢?最重要的是,理解和使用大数据可如何帮助我们?数据与我们的日常生活息息相关。随着与物联网(IoT)关联的移动应用、社交媒体和智能技术的兴起,我们现在传输的数据比以往任何时候都多,而且传输速度超快。得益于大数据分析,组织现在能够使用此信息来快速改善他们工作、思考的方式,并为他们的客户提供价值。在工具和应用程序的协助下,大数据可帮助你获得见解、优化运营和预测未来成果。大数据之所以重要,就是因为它能够提供见解来帮助做出更好的决策。通过这种方式,零售商可打磨他们的定向广告活动,批发商可解决供应链中的瓶颈。也是通过这种方式,医疗保健提供商可根据患者数据趋势发现临床护理的新方法。大数据分析为决策制定提供一个更全面的数据驱动的方法,进而促进增长、效率和创新。现在你知道了大数据的重要性,也知道了数据分析的重要性,接下来让我们探索大数据分析是如何工作的。(三)大数据分析的工作原理分析解决方案通过分析数据集来收集见解和预测结果。不过,为了成功分析数据,必须先按照一个集成的分步准备流程用一系列应用程序存储、组织和清理这些数据:收集。数据有结构化、半结构化和非结构化的形式,它是跨Web、移动和云从多个来源收集的。收集后,数据存储在存储库中(数据湖或数据仓库),为处理做好准备。处理。在处理阶段,会对存储的数据进行验证、排序和筛选,这为将来的使用做好准备并提高了查询的性能。
清理。处理后,会对数据进行清理。
数据集中的冲突、冗余、无效/不完整的字段和格式错误将得到纠正和清除。分析。现在可以对数据进行分析了。
大数据分析是通过数据挖掘、AI、预测分析、机器学习和统计分析等工具和技术来完成的,它们有助于定义和预测数据中的模式和形式。(四)大数据分析的使用和示例如今,很多主要行业使用不同类型的数据分析,围绕产品策略、运营、销售、营销和客户服务做出更明智的决策。通过大数据分析,处理大量数据的组织都能从这些数据中获得有意义的见解。大数据分析有很多实际应用,下面仅列举一些:产品开发。大数据分析通过大量业务分析数据挖掘客户的需求、指导功能开发和路线图策略,帮助组织定义他们的客户想要什么。
个性化定制。流式处理平台和在线零售商分析用户参与情况,以推荐、定向广告、追加销售和忠诚度计划的形式创建更加个性化的体验。
供应链管理。预测分析可定义和预测供应链的各个方面,包括仓储、采购、交付和退货。
医疗保健。大数据分析可用于从患者数据中收集关键见解,这有助于提供商发现新的诊断和治疗方法。
定价。可分析销售和交易数据来创建更优定价模型,帮助公司做出能实现收入最大化的定价决策。
预防诈骗。金融机构使用数据挖掘和机器学习来检测和预测欺诈活动的模式,从而降低风险。
运营。分析财务数据可帮助组织检测和降低隐藏的运营成本,进而节省资金和提高生产力。
赢得和留住客户。在线零售商使用订单历史记录、搜索数据、在线评论和其他数据源来预测客户行为-他们可能使用预测结果来更好地留住客户。
(五)大数据分析的优势和挑战正如众多用例展示的那样,大数据有利于众多行业中、各种背景情况下的组织。不过,鉴于大数据基础结构的复杂性,大数据也带来一些需要考虑的问题。下面是一些需要注意的大数据挑战:保持数据井然有序且易于访问。与大数据相关的最大挑战是,弄清楚如何管理传入的海量信息,使其在你的应用程序中正确传输。
避免数据孤岛、保持数据集成,并围绕有效的管理策略规划基础结构,这些都至关重要。质量控制。保持数据的准确性和质量可能很困难也很耗时,尤其是当快速传入非常大量的数据时。
在执行任何分析之前,你将需要确保你的数据收集、处理和清理流程是集成的、标准化的且经过了优化。保持数据安全。
随着数据泄露的增多,保护数据比以往任何时候都更重要。随着分析系统的发展,出现虚假数据、泄露、合规问题和软件漏洞等形式的数据挑战的可能性也增加了。加密数据、跟进安全审核和进行尽职调查可帮助减轻其中一些担忧。选择正确的工具。可用的工具和技术太多了,可能让人无从选择。
正因如此,让自己获得信息、保持消息灵通,可能的话在需要时聘请或咨询专家非常重要。虽然高效建立和管理系统可能需要大量工作,但使用大数据分析带来的好处值得付出这一努力。对于寻求一种数据驱动的更明智的方法来改进其组织运营方式的任何人来说,大数据的长期优势都是无价的。下面是几个例子:更快获得见解。凭借无与伦比的速度和效率,大数据分析可帮助组织更快地将信息转化为见解。
这些见解随后被用来围绕产品、运营、营销和其他业务计划做出明智的决策。成本效率。海量数据需要存储,维护起来可能很昂贵。
但随着更具伸缩性的存储系统的出现,组织现在可在降低成本的同时,最大程度提高运营效率。这意味着更高的利润率和更高效的系统。用户满意度。大数据的高级商业智能功能不仅能分析客户趋势,还能通过预测分析来预测客户的行为。
通过更多地了解用户的需求,组织可创建能满足这些需求的个性化产品。四、教学案例案例1:大数据分析工具随着大数据时代的到来,越来越多的企业和组织开始探索如何利用海量数据来提高决策效率和质量。这就需要一些专门的大数据分析工具,用于处理、分析、可视化和挖掘数据中蕴含的价值。下面是10个常见的大数据分析工具:1.HadoopHadoop是Apache基金会的一个开源项目,是大数据处理中最为常用的分布式计算框架之一。它可以帮助用户快速处理大数据集,并支持数据存储、处理、分析和可视化等功能。Hadoop使用HDFS(Hadoop分布式文件系统)来存储数据,使用MapReduce来分析和处理数据。常用的Hadoop发行版有Cloudera、Hortonworks、MapR等。2.SparkSpark是一个快速、通用、可扩展的分布式计算系统,也是Apache基金会的一个开源项目。它可以在Hadoop集群上运行,并支持批处理、交互式查询和流处理等多种计算模式。Spark具有内存计算和快速调度等优点,能够大大提高计算速度和效率。3.HiveHive是一种基于Hadoop的数据仓库系统,支持使用SQL-like查询语言来访问和处理大规模数据。它将结构化数据映射到Hadoop的HDFS上,并使用HadoopMapReduce进行查询和分析。Hive还支持自定义函数和UDF(用户定义函数),可以方便地实现复杂的数据分析操作。4.TableauTableau是一种数据可视化工具,可以帮助用户轻松地创建交互式和美观的图表和仪表盘。它支持多种数据源和文件格式,并提供自定义计算、过滤和聚合等功能。Tableau适用于各种行业和领域,例如营销、金融、医疗等。5.PythonPython是一种通用的编程语言,也可以用于数据分析和机器学习。它支持多种数据分析和机器学习库,例如NumPy、Pandas、Scikit-learn等,并提供数据可视化和交互式计算等功能。Python广泛应用于数据科学、机器学习、自然语言处理等领域。6.阿里云大数据阿里云大数据是阿里巴巴旗下的云计算平台,提供包括MaxCompute、DataWorks、QuickBI等多种大数据分析工具。其中,MaxCompute是一种分布式云计算服务,可以用于大规模数据存储和分析,例如阿里巴巴的电商数据分析;DataWorks是一种数据协作平台,可以帮助企业实现数据整合和共享;QuickBI是一种智能化BI工具,可以进行数据可视化和探索性分析。7.腾讯云大数据腾讯云大数据是腾讯公司旗下的云计算平台,提供包括CDH、TDH、DAS等多种大数据分析工具。其中,CDH是一种Hadoop生态圈的分布式计算框架,可以用于大数据存储和分析;TDH是一种Hadoop生态圈的大数据处理平台,可以用于海量数据处理和分析;DAS是一种基于Spark的大数据分析服务,可以实现实时数据处理和分析。8.百度大数据百度大数据是百度公司推出的一种大数据分析平台,提供包括BSP、BMR等多种大数据分析工具。其中,BSP是一种分布式计算框架,可以用于海量数据处理和分析;BMR是一种批量MapReduce计算引擎,可以用于大规模数据处理和分析。9.华为云大数据华为云大数据是华为公司旗下的云计算平台,提供包括FusionInsight、ModelArts等多种大数据分析工具。其中,FusionInsight是一种Hadoop生态圈的大数据处理平台,可以用于大规模数据存储和分析;ModelArts是一种基于人工智能技术的平台,可以用于大数据分析和预测,例如人脸识别和语音识别。10.科大讯飞科大讯飞是一家语音和人工智能技术公司,提供包括智能客服、语音识别、自然语言处理等多种服务,可以帮助企业进行大数据分析和预测,例如金融、电商等领域的智能客服和语音识别。案例2:大数据分析,到底在分析什么?“大数据”仨字已经被喊烂了,“大数据分析”也经常被人提起。可到底咋完全是“大数据分析”?为啥大家喊得很多,平时工作中很少感受得到?今天系统讲解一下。一、普通人理解的“大数据”普通人理解的大数据可谓千奇百怪,比如:一个excel文件200M,多大的数据呀!我国人口14亿,这个数据好大呀!卧槽,我刚看了车,就有4S店推广电话,肯定收集了我的大数据。……这些千奇百怪的理解,都是来自对“数据”本身不够了解导致的。想整明白“大数据”真正的含义,得从数据是从哪里来的讲起。二、先理解“小数据”,再谈“大数据”最原始的数据采集方式就是:问卷。由专门的调查人员,借助一张张调查问卷,通过现场询问、测量等方式获得数据。这种方法已经沿用了400多年,经典的统计学、管理学理论都是建立在此之上的(如下图)。小数据有没用?有用!非常有用!能采集到某个地区的数据,代表着政府对这个地区有统治力。能采集到越多的数据,中央就能掌握地方情况,从而加强管理。数据是如此重要,以至于历史上很长一段时间,统计任务归属于政府、军队、情报机关。我国的第一家调查公司还是在90年代初,在宝洁强烈要求下成立的。但是,调研做法有三个明显的问题:非常耗费人力。访问员、督导、审核、录入、数据处理……都是人。非常耗费时间。设计问卷、填写、回收、都是时间。准确度低。现场测量的数据会相对准,但口头问回来的大部分都不准。这些问题,导致了问卷时代的数据采集,只能有抽样式的,不能是全量采集。也因此衍生出了专门的抽样理论和方法。但无论数据方法怎么改进,在业务上,抽样,始终是一个难以逾越的梗阻。决策者总会觉得:是不是样本量太少;是不是代表性不够;没有覆盖的样本是不是真的一致。只要是抽样数据,就一定会被质疑,就总是充满怀疑。这也是最初“小数据”的说法来源,后续所有“大数据”其实都是围绕“小数据”问题而来。1.数据变大第一步:系统采集数据从小变大的第一步,从系统采集开始。比如企业扩大规模,要在各地建连锁店,第一步做得就是装POS机,把交易数据采集进来,替代纸质订货单/出货单。此时想了解销售数据,是可以基于POS机收集的数据全量查看的(如下图)。从抽样数据到全量数据,是一个质的变化。基于全量数据,可以直接管理到各个终端门店,直接基于数据作出经营决策。因此大部分企业的销售分析、经营分析、业务分析体系,都是在此基础之上建立起来的(如下图)。但是这个阶段的局限也是很明显的:POS机只能记录交易结果,对过程一概不知。谁在买,买了多少,为啥买,通通不清楚。这个阶段的分析,是典型的知其然,不知其所以然的分析,大部分分析只能通过成交结果去猜。如果只有这个阶段的数据,想做深入分析,还是得依靠调研。比如传统企业想了解门店成交流程,会做门店调查,研究消费者在门店的动线,询问消费者体验。2.数据变大第二步:主动采集有了系统采集以后,大家自然地会想:除了交易数据,其他数据也能通过系统化采集。比如最简单的形式:让用户自己交身份证,通过图像识别录入。这样既能采集到用户数据,又能避免手动填写的错误。但是问题来了:凭啥要交身份证给你呀!于是传统采集,只有银行、航空、通讯等有国家背景+法律规范要求的地方,才能相对准确地采集这些真实数据。不过这些困难并没有阻挡住企业采集信息的热情。常见的手段,比如:勾引用户办会员卡,给生日礼遇让用户填写生日。用户完成信息给积分奖励之类。更激进的,甚至有常识在门店装人脸识别、装眼动仪跟踪设备来采集数据(当然,成本很高)。为什么企业会孜孜不倦追求这些数据,因为这些数据真的有用。至少能把数据具体到一个人的身上,能识别出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中毛笔书法课程设计方案
- 九年级数学学习兴趣提升计划
- 纺织印染部门客户服务岗位职责
- 2021年江苏扬州大学教学系统设计考研真题A卷
- 爱国主义的演讲演讲稿13篇
- 体育赛事突发事件应对措施及预案
- 成人高考语文作文话题选择技巧
- 新版PEP小学英语五年级作业安排计划
- PbCYP78A6和PbCRF4参与GA4+7诱导梨单性结实的机制研究
- 我喜欢过春节作文(14篇)
- GB/T 14249.2-1993电子衡器通用技术条件
- 水系锌离子电池市场分析报告-培训课件
- 国家开放大学(财务报表分析)形考1-4
- 空白教案模板(表格形式-已排版)
- 工程经济学项目经济评价案例分析
- 最全深圳市工改工案例分析
- 在市财政系统警示教育暨作风建设大会上的讲话
- 《管理信息系统》课程设计报告范文
- GB∕T 37821-2019 废塑料再生利用技术规范
- 测量学地形图的基本知识培训讲义PPT(讲解)
- 自控实验三线性定常系统的稳态误差
评论
0/150
提交评论