第11章 大数据调查法_第1页
第11章 大数据调查法_第2页
第11章 大数据调查法_第3页
第11章 大数据调查法_第4页
第11章 大数据调查法_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章大数据调查法

第一节

大数据调查概述

一、大数据的概念

大数据(Bigdata或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

大数据的特征

4V—

体量巨大(Volume);—

种类繁多(Variety);—

流动速度快(Velocity);—

价值密度低(Value)。浩如烟海的大数据与传统数据的比较大数据不是通过抽样调查所获取的样本数据,通过互联网存储、获取、交换和分析,克服抽样调查数据带来的许多随机和非随机误差。要确保抽样调查的随机性,需要建立总体的抽样框;大数据对于特定的群体所收集的数据一般就是该群体的总体数据。传统数据的产生过程是“搜集”,设计问卷后进行调查,问卷的针对性强,但应用范围受到限制;大数据分析重在“挖掘”,客观数据并不为任何一个课题而产生,而是对真实世界的自然记录,有利于研究者充分发挥想象力,可供研究的领域没有边界。

二、大数据的种类

人为数据移动数据机器和传感器数据交易数据大数据平台能够获取时间跨度更大、更海量的结构化交易数据,这样就可以对更广泛的交易数据类型进行分析,包括POS或电子商务购物数据和行为交易数据,例如Web服务器记录的互联网点击流数据日志。非结构数据广泛存在于电子邮件、文档、图片、音频、视频,以及通过博客、维基,尤其是社交媒体产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉。移动数据库是能够支持移动式计算环境的数据库。随着能够上网的智能手机和平板越来越普及,这些移动设备上的App都能够追踪和沟通无数事件,从App内的交易数据到个人信息资料或状态报告。机器和传感器数据包括功能设备创建或生成的数据,例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器。从数据来源和数据形式两个角度看:a.按数据来源分类b.按数据形式分类结构化数据,通常是指用关系数据库方式记录的数据,数据按表和字段进行存储,字段之间相互独立。比如企业ERP、财务系统,教育一卡通,政府行政审批等。结构化数据01半结构化数据02半结构化数据,是指以自描述的文本方式记录的数据,自描述数据无需满足关系数据库上那种非常严格的结构和关系。很多网站和应用访问日志都采用这种格式,网页本身也是这种格式。非结构化数据03非结构化数据,通常是指语音、图片、视频等格式的数据。这类数据一般按照特定应用格式进行编码,数据量非常大,且不能简单地转换成结构化数据。三、大数据调查法概念及特点

大数据调查法是指调查者有目的、有计划地运用计算机和网络技术采集、处理、存储和分析实时记录社会现象及其活动而形成的海量数据的调查方法。

大数据调查法的特点:(1)从“大型数据”到“大数据”。大型数据可以拆分成为一系列小型数据集合用传统方法处理。大数据则不同,传统调查统计方法无法处理,必须使用新的模型、算法及新的计算机集成技术才能进行有效的采集与处理。大数据调查需要应对数据的异构性和质量的不一致性问题。(2)从“随机抽样”到“观察总体”。其他调查方法往往运用随机抽样调查方法,通过样本调查的统计量去推断总体的参数值。大数据调查法采集、处理的数据,一般都不是个别的、局部的,也不是抽样的,而是对总体信息进行海量的抓取,通过海量数据直接观察总体,所以调查结果能更加贴近调查对象的总体特征,规避了抽样调查推断总体时经常出现的抽样误差等问题。(3)从“精确测量”到“总体真实”。其他调查方法一般要求测量精确,强调“宁缺勿烂”,因为传统小数据分析的数据量本身并不大,任何一个错误数据都有可能对结果产生相对较大的负面影响,对错误数据必须花大精力去清除。大数据时代的原则变成了“要效率不要精确”,大数据的规模庞大,数据的精确性没有那么重要。因为海量数据可以更好地反映总体的真实,从而大大降低了错误信息造成的误差。(4)从“因果关系”到“相关关系”。其他调查方法通常把揭示、验证社会现象之间的“因果关系”作为目标。大数据调查法通过海量数据揭示社会现象之间的相关关系,并据此成功做出预测。大数据调查法与网络调查法的区别网络调查虽通过网络收集数据,但其数据处理依然沿用传统方法。而大数据调查法,由于数据海量,传统技术和方法不可能采集和处理,因而在数据采集层面要依赖更高级的网络技术,在数据处理层面要依赖人们创造出的新算法及更高性能的计算机。大数据调查法是比网络调查法更高一个层次的计算机调查方法。

第二节大数据调查的步骤大数据调查法的一般步骤是:甄别与分类数据;采集与提取数据;审读和清理数据;分析和挖掘数据;从数据到结论。

一、甄别与分类数据(一)数据的甄别数据的甄别,就是对大数据进行研究鉴别,明确调查课题需要什么样的大数据,如何获得、如何分析这些大数据。数据的甄别,主要包括以下内容:一是,研究鉴别调查课题与数据类型、数据规模的关系。二是,研究鉴别数据的来源和搜集数据中可能存在的问题。三是,研究鉴别数据存储、处理和分析中可能存在的问题。(二)数据的分类根据人们活动的类别,可以将目前常用的大数据分为以下四类:一是,关于日常生活的数据。二是,关于主观态度的数据。三是,关于交通出行的数据。四是,关于空间分布的数据。二、采集与提取数据(一)探针采集法探针采集法是一种采集数据的物理方法。探针是一种从路由器、交换机上把数据采集过来的专有设备。根据探针放置的位置不同,可分为内置探针和外置探针。此外,还需要Tap/分光器。(二)网页采集法网页采集是指从网页中获取数据。采集互联网上的数据,需要网页爬虫技术(利用编程语言编写脚本,模拟人的浏览行为,自动获取网页上的数据,形成一个网页备份,作为采集数据的载体)。爬虫系统采集,抓取策略的设计(如抓取URL队列设计,即先抓取哪个页面,后抓取哪个页面,等)和硬件设备水平,往往决定着抓取数据的最终质量。(三)日志收集法任何一个计算机系统,在运行过程中都会产生大量日志文件,其中蕴含着丰富的有价值的信息。大数据技术可以将这些日志文件收集起来加以研究。(四)应用程序接口法通常情况下,不同软件之间都会预先设定一个接口(如函数或HTTP接口),让使用者可在无需访问源码、无需理解内部工作机制的情况下,调用他人可共享的功能或资源。这种设定,对于获取数据的研究者来说是非常方便的。调查者通过应用程序接口,就能非常方便地采集、提取大量所需的数据。(五)数据采集软件收集法在大数据调查过程中,数据量会从TB级上升至FB级,甚至EB量级,这是传统数据采集、存储方式无法完成的。目前,市场上有许多数据采集软件平台和公司,能够为社会科学不同领域的调查研究者,提供各种个性化的数据采集服务。

三、审读和清理数据(一)判断数据结构审读数据,首先要判断数据的结构。按照结构化程度,数据可分为三类:结构化数据、半结构化数据和非结构化数据。(1)结构化数据,是指按表格、问卷方式记录的数据。它的每个字段都有固定语义和长度规范,并通过关系型数据库存储和管理。例如,企业管理系统、医疗信息系统、教育一卡通、行政审批数据库里的数据。(2)半结构化数据,是指有一定结构,但结构不固定、不容易模式化的数据。例如,访谈记录、日志文件、XML(制作网页等用的文本结构标记系统)等。其内容大都用文字记录,没有严格的结构和关系,无法直接录入数据库。(3)非结构化数据,是指结构不规则、不完整,不能用规范格式记录的数据。例如,语音、图片、视频等格式的数据。这类数据一般按照特定应用格式编码,数据量非常大,而且不能简单转换成为结构化数据。(二)数据结构化过程在分析和挖掘数据之前,必须对采集、提取的数据进行审读和清理,即将半结构化、非结构化数据转换为成结构化数据。数据结构化过程,主要有三个环节:(1)数据集成,就是对不同来源、不同结构的数据,通过审读、调整、翻译和创建等方法,融合、集成为统一的结构化数据。对结构化过程前后的数据,应建立一定的对应关系,以便在后续程序中访问和操作,使结构化过程成为可追溯的过程。此外,数据集成还应处理隐私问题,努力避免在集成数据中泄露某些隐私信息。(2)数据准备,就是将融合、集成为统一的结构化数据,转换成为符合分析和挖掘技术所要求的格式数据,为计算机读取和操作做好准备。例如,使用自然语义处理技术,进行文本分类、情感分析和意图识别,挖掘出许多有定性价值的材料;或通过图像识别技术,处理各种图片、视频数据。(3)数据检验,就是通过清理形成一份“干净整齐”的数据后,通常还应做一些探索性检验。通过检验,进一步发现数据中可能的重复值、缺损值,甚至奇异值。这些数据,通常没有记录,或被错误记录。如果出现这种情况,就得回过头去,采集更多数据,或花更多时间清理数据。这就是说,审读和清理数据并非是一次完成的,清理办法并非是一次确定的,往往需要不断检查、不断改变清理策略,才能逐步完成。四、分析和挖掘数据(一)“分类”分类,就是根据某些规则或属性将观察结果划分为预定义组的方法。其中,决策树、支持向量机和朴素贝叶斯分类器都是相对成熟的分类算法。(二)“聚类”聚类,是一种将相似或相关数据聚集在一起、实现“组内相似,组间不同”的分析方法。基于大数据的聚类方法,主要用于获取不同类别的数据,而不特别关注所获取类别数据的意义。聚类技术用于区分“无标签”数据比较有优势。(三)“回归”回归,是一种确定两个或两个以上变量之间相互关系的分析方法。其中,线性回归和逻辑回归是使用最广泛的两种算法。回归分析法,主要用于事物之间因果关系的分析和预测,具有降维、信息提取、估计和预测等功能。(四)“关联规则分析”关联规则分析,是一种用于发现事物间相关性或相互依赖性的方法。其中,“Apriori”和“灰色关联”是两种广泛使用的算法。关联规则分析法,可基于某些事件的发生推测其他事件的出现,并确定事物之间的影响程度,发现有价值的数据项之间的相关性,也可以用于分析遥感数据、社交媒体数据,研究城市扩张与城市活力之间的关系,等等。(五)“社交网络分析”社交网络分析,是一种用来查看节点、连接边之间社会关系的一种分析方法。节点是社交网络里的每个参与者,连接边则表示参与者之间的关系。节点之间可以有很多种连接。社交网络是一张地图,可以标示出所有与节点间相关的连接边。五、从数据到结论数据不可能自动形成结论。调查者只有在分析和挖掘数据的基础上,以唯物史观基本原理为指导,进行去粗取精、去伪存真、由此及彼、由表及里的思维加工,才能做出结论。这就是说,大数据调查法的实施,既要重视各种数据采集、分析技术和算法的应用,又要重视唯物史观基本原理的指导,并努力把二者有机结合起来。只有如此,才能科学验证现有理论,或提出新的科学理论。第三节

大数据调查的技术和工具

一、数据挖掘和机器学习(一)数据挖掘大数据方法或者说大数据分析技术的核心是“数据挖掘”(datemining)。数据挖掘就是从海量数据中,提取能揭示有意义的潜在规律和人们感兴趣的知识的处理过程。因此,数据挖掘又被称为“爬梳”或KDD(KnowledgeDiscoverinDatabase)。1.基于内容信息的数据挖掘语言是社会媒体最重要的表现形式,文本是社会媒体中用户表达信息的最重要的方式。基于内容信息的数据挖掘包括网络搜索技术与实体关联分析等主要研究内容。社会媒体的出现为互联网信息搜索提出了新的挑战,研究的热点从传统的海量数据抓取、索引结构优化和用户查询分析等转移到了排序学习算法,专注于提高检索质量。此外,社会媒体需要关注数据的短文本特征、对简短关键词表达的深入理解和分析,掌握用户真实的查询意图。2.基于结构信息的社会计算社会网络是以社会媒体中的用户为节点、用户间的关系为连边而构建的网络。它既是用户间社会关系的反映,也是用户间进行信息交互的载体。社会网络具有关系的异质性、结构的多尺度性以及网络的动态演化性三方面特性。在社会网络中,个体因血缘关系或兴趣爱好等因素而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征,社区结构的存在对于网络的高效搜索、网络演化、信息扩散等具有重要意义。针对社区结构的研究可分为社区发现、社区结构演化等方面。(二)机器学习机器学习,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简单地说,机器学习就是让计算机根据历史数据自己去学习,以适应新的环境,模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。目前,热门的“神经网络”和“深度学习”,都属于“机器学习”范畴。

二、大数据调查的常用工具(一)入门级工具(1)Excel。它是许多学者比较熟悉的数据处理软件,一般办公系统中都备有这款软件。它容易上手,资源丰富,可以完成一些简单的建模、可视化、图表等工作,可做一些简单的方差分析和回归分析。(2)R软件。这是统计分析和大数据分析中使用较多的一款软件,功能上能满足相当部分大数据调查需求。(3)Python。这是一款需要编程的数据分析工具。与R软件一样,它也是免费开源的。有一些常用的库,如BeautifulSoup、Scrapy等,可以帮助用户更快速、高效地采集网页数据。不同的是,R是专门用于数据分析的软件,而Python除数据分析外,还可用于计算机领域,比如web页面开发、系统后端开发等。它在大数据管理中可以起非常重要的作用。(二)高级工具(1)Hadoop。这是一套公认的大数据标准开源软件。Hadoop框架最核心的设计是:HDFS和MapReduce,能够处理PB级数据,从而为Hadoop提供了海量数据的存储和计算功能,而且对硬件的要求不高。与只作为一种编程语言存在的Python不同,Hadoop是真正意义上的大数据处理软件。(2)RapidMiner。这是主要用于数据挖掘的工具。它的最大好处是无需编程,从而避免了大量的编程工作。调研者可用RapidMiner连接其中算子形成数据处理流程,实现对大数据文件的挖掘,并获得对挖掘流程的理解。(3)Storm。这是一个免费开源、分布式、高容错的实时计算系统,它是基于hadoop研发的。可以使持续不断的计算变得容易,弥补了Hadoop不擅长实时计算的缺陷。所以,在大数据处理中,Storm经常被用于实时分析、在线机器学习、持续计算、分布式远程调用等领域。第四节

大数据调查的关键问题

一、技术依赖性问题大数据调查法从甄别、获取、采集、提取、清理、分析、挖掘,直至得出调查结论,都高度依赖于软件和计算机技术。采集、处理的数据尽管是具有很大客观性、真实性、可靠性的自在数据,但却是非实体性的存在。研究者依赖的是计算机和软件,缺乏实际的调查体验,如同文献调查、遗存调查、网络调查等间接调查方法一样。这一特征虽然可以有效避免“价值有涉”的问题,但也会降低调查者对社会现象和社会问题的认知程度。自然语言的细微和丰富可以提供有价值的深度。然而,机器分析算法期望同构数据,并且不能理解细微差别。因此,数据分析时必须在数据分析之前(或在分析的第一步)仔细地将数据结构化。即使在数据清理和纠错之后,数据中的一些不完整性和一些错误也可能保留下来。数据分析期间必须管理这些不完整性和这些错误。同时,依赖技术获取的大数据,往往难以分清与目标总体间的差异。从理论上看,作为“全体数据”的大数据可以彻底消除随机性抽样误差,如果综合考虑系统性抽样偏差,特别是覆盖偏差,那么大数据在代表性上可能存疑,误差问题比传统抽样调查更复杂,也更隐蔽。大数据的数据量极大,这使得研究者可以使用大数据进行非常精细的事后分层并基于事后分层对原始计算结果进行统计调整。二、大数据调查的多学科配合问题大数据调查一般都要涉及到广阔的调查空间,众多的调查对象,海量的调查数据,多方面的调研资料,要使用多学科的调研方法和技术,其工作量往往十分巨大,并有一定的时间要求,单靠个别调研人员是很难完成的。一般地说,大数据调查课题,都应该组建一个多学科合作的、有一定规模的团队来承担。一个理想的大数据调查团队,至少应该由四类学科的学者和一个核心组成。四类学科的学者是,社会学学者、计算机学学者、统计学学者和社会调查学学者;团队的核心应该是一个具有跨学科知识背景的人才,不仅需要熟悉马克思主义哲学和社会学理论,还应当了解计算机软件工程和统计学知识,且具有丰富社会调查学知识和实践经验,并善于组织协调的具有综合素质的研究者。此外,若希望能够更好的完成大数据调查,团队最好与具有物理学、电子信息专业背景的电子数据取证分析师进行合作,即从事电子数据的收集提取、数据恢复及取证分析的人员,其任务是:(1)针对各类电子数据的现场及在线提取固定;(2)分析基于物理修复或数据特征等的电子数据恢复技术;(3)提取分析不同介质和智能终端电子数据;(4)提取分析服务器、数据库及公有云电子数据;(5)提取分析物联网、工程控制系统电子数据;(6)设计建立电子数据取证可视化分析模型;(7)分析计算机及其他智能终端应用程序功能。三、隐私与信息安全问题互联网的发展使数据更加容易产生和传播,数据隐私问题越来越严重。一是隐性的数据暴露。互联网,尤其是社交网络的出现,使得人们在不同的地点产生越来越多的数据足迹。如果有办法将某个人的很多行为从不同的独立地点聚集在一起,他的隐私就很可能会暴露。二是数据公开与隐私保护的矛盾。如果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论