数据采集与加工技术研究_第1页
数据采集与加工技术研究_第2页
数据采集与加工技术研究_第3页
数据采集与加工技术研究_第4页
数据采集与加工技术研究_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京理工大学珠海学院2020届本科毕业论文V绪论课题研究背景:在这个信息化时代,各个领域行业都存在着大数据的身影,大数据的优势伴随着互联网企业的发展慢慢彰显出来。全球知名咨询公司的麦肯锡,是最早提出大数据时代到来的人。他对大数据的评价是:一种传统数据库无法存储的大规模数据集。大数据在信息时代的地位如同工业时代的“煤矿”,它的数量庞大且内部蕴含着丰富的资源,但传统的采集工具无法对如此庞大的数据进行采集、加工、存储,因此,大数据技术应运而生。大数据的采集与加工技术是当下研究的热点之一,在医疗行业、科研行业、企业管理、电商销售等发挥着重要作用。课题研究目的:2019年的《中国互联网发展报告》指出:中国网民规模为8.54亿人,互联网普及率达61.2%,网站数量为518万个。如今互联网覆盖着人们的日常生活,智能手机的普及加速社会进入信息化时代,国内外许多互联网行业因此而生,如国外的Facebook、Google等,国内的腾讯、网易、阿里巴巴等。这个时代,人们手机一点便可知悉天下事,而用户的数据,成为了各大互联网行业相互竞争的强力资本。谁能更精确地采集到数据,谁能更精确地从各个层面分析数据,谁就是这个信息时代的赢家。而大数据的兴起,各个互联网行业将面临更大的机遇和挑战。与传统数据采集不同,大数据的采集更加复杂,更加困难,分析处理的方法也大不如前。国内外研究现状信息化时代是充满机遇和挑战的时代,掌握丰富多彩的信息,就等于掌握了制胜的关键。而信息就来源于大数据,通过对大数据的分析和处理,提取出有价值的信息,正是当下研究的重点。国外研究现状在美国,互联网企业最早着手开展大数据研究,通过商业来源、政府来源和其他公开来源三个途径来获取数据。美国积极应用大数据技术来提升政府管理能力,用大数据分析进行打击犯罪、反恐等活动;利用应用大数据技术来提高社会服务能力,用于交通管理、医疗管理等,有助于缓解交通压力、抑制疫情扩散等问题;利用应用大数据技术来提高商业决策水平,利用大数据对消费者进行分析,掌握消费者的行为爱好,有针对性的制定营销策略。国内研究现状我国大数据技术研究还在初级阶段,很多技术尚未成熟。因为我国的数据量约占全球总量的20%,可以构建以开源为基础的大数据产业生态。相关研究人员表明,目前中国要利用大数据来对未来进行预测和指导实际深层次的应用,才是大数据当下研究重点。在政策上,全面支持大数据产业化发展,鼓励人们使用和传播免费数据,公开政府数据,立相关法律法规保护网民的隐私等;在经济上,我国大数据市场经济发展迅速并呈持续增长趋势,早在2015年大数据市场经济规模就破百亿美元,直至2019年,我国大数据市场经济规模高达436亿美元;在科技上,虽然我国在大数据应用上取得巨大进展,但由于核心技术尚未掌握,因此与美国、日本等科技大国仍有一些差距。课题研究方向大数据应用的领域有很多,如:互联网行业、医疗行业、科学研究、企业管理等。而各领域的数据采集方式和加工技术也会有所不同,而本文主要研究互联网行业的大数据采集方法和加工技术。大数据概述本章节主要介绍大数据的概念、大数据的价值体现以及大数据的来源大数据概念大数据(Bigdata)从字面上理解就是一个很大的数据集,那到底有多大呢,按照外国有名的咨询企业麦肯锡提出的定义就是,一个大到传统工具无法采集、加工和存储的数据集。我们通常可以通过大数据的特征来判断数据集是否为大数据,它的特征为:数量大、价值密度低、数据处理速度快、数据种类来源多样化和数据准确性高。大数据价值体现有人将“大数据”比作“煤矿”,寓意着它的数量庞大,大数据的价值体现并不在于其数量,而在于它的内在价值和挖掘过程中所使用的技术。对大多数互联网行业而言,如何利用大数据才是赢得竞争的关键。大数据的商业价值体现在:客户类型细分:对用户的兴趣爱好、消费水平进行有针对性的服务模拟销售环境:通过大数据来模拟销售环境,从而挖掘潜在需求,提高销售额。加强内部联系:企业可以通过大数据技术提高内部管理效率。降低服务成本:挖掘新的需求,进行服务和产品的供求创新。不过,需要注意的是,即使大数据在经济发展中占重要地位,也并不意味着可以取代对社会问题的理性思考,科学发展的逻辑和社会发展的理性不能被海量数据所淹没。大数据来源随着互联网迅速发展,人类产生数据的途径也发生了变化,数据形式越来越多样化,数据量也呈现爆炸式增长。人们可以随时随地产生数据。从开始采用数据库作为数据管理被动产生的数据到社会网络的发展,用户主动产生数据到物联网技术的崛起,大量传感器自动产生大量复杂的数据。这些由用户主动、被动和系统自动生产的数据共同构成了大数据的来源。数据的主要来源是通过各种数据采集器、企业系统日志、社交平台、开源的数据分布、车辆和手机定位信息、网络痕迹(如历史搜索、浏览痕迹等)、传感器等收集的结构化和非结构化的数据。具体包括,互联网数据、各行业数据以及政府公开数据等。互联网数据随着Web2.0技术的出现,让互联网用户由单纯的“读者”转变为“写作者”和“共同建设者”,由接受互联网数据转变为产生互联网数据。因为智能手机的普及,各种交友app和电商平台的出现,使得近几年的移动互联网数据呈爆炸性增长。各大社交平台的出现,用户的交流和网络搜索数据促使着大数据的形成,给人们带来了翻天覆地的变化。而互联网数据的来源如下:社交app(如微信、QQ、微博等),可供用户之间进行信息交流,社交平台可记录用户传收的图片视频等,也可记录用户的行为习惯。这类数据具有一定的实时性和针对性。电商app(如京东、淘宝),平台允许用户自由购买产品并查询,发布产品评论及销售量。这类数据具有一定的实时性和真实性。新闻媒体平台(如腾讯新闻、虎扑体育等)发布的新闻、评论、报道等。这类数据具有一定的实时性和专业性。网站论坛,属于开放性平台,允许用户发表个人意见并记录用户的价值倾向和事件评估信息等。这类数据具有一定的实时性和针对性。政府门户网站所发布的一些民生信息、新规政策、法院公告、疫情信息等。这类数据具有实时性和权威性。由于互联网数据来源广泛,数据结构复杂、数量庞大,且平台建设程度不一样,对网络爬虫的监管程度也不一样,因此互联网数据采集,具有一定的难度和挑战性。下面将会介绍大数据的采集方式。

大数据采集分布式存储由于传统关系型数据库的局限性,无法满足海量数据的存储。因此,为,了适应大数据时代,因此分布式存储技术应运而生。分布式存储系统就是将大量数据,分散存储在企业内部的每个独立设备中,利用企业内部多个数据存储服务器来分担存储负荷。分布式存储不仅能够满足海量数据的存储空间,还能提高数据的可靠性、安全性,在未来遇到数据量更大的数据集时,可以通过增添存储服务器来扩展存储空间,而且即使一个存储系统发生故障,也不会影响其他存储系统的正常运行。数据采集方式大数据的采集方式主要有:传感器、系统日志文件采集、Web爬虫和ETL工具采集等。下面是详细的采集方式。传感器通过传感器把外界物理量转换成计算机能识别的数据。如物联网应用中的智能家具,用户可以从手机上获取家中设备的信息,如温度湿度等。系统日志文件采集系统日志文件采集是最广泛使用的数据采集方法,企业系统每天都会自动产生大量日志文件,这些日志文件记录着企业数据源的操作过程。许多互联网企业都有自己的数据采集工具,如Hadoop的ChuKwa,Cloudera的Flume,Facebook的Sbcrible以及ApacheKafka等大数据采集框架。这些工具均采用分布式架构,能满足大数据的日志数据采集和传输需求。Web爬虫互联网网页数据通常使用Web爬虫进行抓取的,网络爬虫也叫网络蜘蛛,是一种可以自动抓取互联网页面信息的程序。通俗来说,网络爬虫从指定的链接入口,按照某种策略从互联网中自动获取有用信息。对于这一互联网数据采集方式,在文章后面将详细介绍。利用ETL工具采集ELT也就是数据仓库技术,是英文Extract(抽取)、Transform(转换)和Load(加载)的缩写。简单来说ETL就是将数据经过抽取、转换处理后加载到数据库的过程。它可以将企业内部杂乱的数据,整理好存放在一起。如下图是ETL的结构图。图3.1ETL体系结构图系统日志采集随着互联网技术的发展,各行业的相关部门、各大公司等都在不停地生产大量信息,这些信息看似简单,但如果经过处理,便可以满足各种应用需求。大数据技术带来了许多挑战,其中之一就是在大量数据中采集到自己所需要的信息。许多大型互联网公司、金融行业、医疗行业等本身具备从事大数据分析的条件,因此这些企业每天都会积累大量的系统日志。这些系统日志数据包含着:用户的交易数据、社交数据、搜索数据等,并拥有稳定、安全的数据源。一些规模比较小的公司,并不具备这样的条件,会向大型互联网公司购买用户数据,从而精准地发现新客户。因此,系统日志采集,是大数据采集的重要途径。目前,许多企业通过架设日志采集系统来保存日志数据,这些数据可以用于提高商业价值和社会价值。如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible以及ApacheKafka等大数据采集架构。这些采集工具均采用分布式架构,能满足海量系统日志的采集需求。Chukwa采集架构Chukwa是构建在hadoop基础上的一个分布式日志处理系统,简单来说就是你要先有Hadoop,然后才能在上面搭建Chukwa。Chukwa保留着hadoop的可伸缩性和鲁棒性,可以在异常情况下,保证系统不死机、不崩溃。同时还拥有一个强大的工具集,可用来展示、分析和监控采集到的数据。图3.2为Chukwa的采集架构。图3.2Chukwa的架构从上图可以看出,Chukwa的采集架构包括采集层和处理层两部分。工作原理和流程大致如下:数据采集层的Agent管理多个adaptors(数据采集工具和接口),将采集到的原始数据发送到数据处理层的Collector;Collector为了避免大量小数据写入集群,会将收到的数据进行部分合并再写入集群里;然后map/reduce负责把集群上的数据进行分类、排序、去重和合并。最后再通过HICC进行数据展示。从Chukwa的工作流程可以看出,Chukwa对数据的产生、采集、存储、分析都提供巨大帮助。Flume采集架构Flume是Couldera提供的一个高可用性、高可靠性的分布式日志采集系统,能进行海量企业内部日志的聚合和传输操作。Flume具有可定制能力,可将采集到的数据进行简单处理再发到数据接收方处。应用在运行时产生的数据可以存储在任何集中存储器中如分布式文件系统。当采集的数据非常大,超过系统的写入数据能力时,Flume会在数据产生方和数据接受方之间进行数据传输量调整,以保证数据产生方与接收方之间能够稳定地传输数据。Flume是分布式日志采集系统,它将各网站服务器日志采集起来发送到指定地方,如:HDFS。如图2.3Flume的结构。图3.3Flume结构图由上图可知,Source从服务器上采集数据并以event格式换递给Channel;Channel是一个临时存储数据的通道,等待Sink取出数据并将数据放到不同目的地如(HDFS)。Scribe采集架构Scribe是Facebook的一个具有高容错性的日志采集系统,它可以采集各种数据源中的数据和各种机器产生的系统日志,并将它们集中存储在一个中央存储系统中,方便进行下一步的数据分析处理。如下图为Scribe的架构图。图3.4Scribe的结构图如图所示,Scribe将采集到的数据发送到同一个信息队列中,等待传送到分布式文件系统中或其他Scribe中,一旦分布式文件系统发生故障时,Scribe会将数据发送到本地文件中等候分布式文件系统修复,待修复完成后,将存储在本地文件中的数据发送回分布式文件系统或其他Scribe中。Kafka采集架构Kafka是一个高采集-输出量的分布式发布-订阅信息系统,可以处理消费者所有在网站上的操作数据。最开始由Lockedin公司开发,之后成为了Apache软件基金会的一个开源流处理平台。Kafka架构具有扩展性高、容错率高和高并发性等,相比其他消息系统具有更高的数据采集量和输出量。Kafka为发布信息提供了一套存储系统,因此其不仅用于发布和阅消息,还能用于日志采集。Kafka架构如图3.5。图3.5Kafka架构图如图所示,Kafka由Producer、Broker、Consumer三层架构组成。Producer将信息发布到KafkaBroker上,Broker上的topic根据用户的定义采集指定消息,然后Consumer即用户,可以从Broker上读取自己感兴趣的信息。Web爬虫Web爬虫,也称为网络蜘蛛或网络机器人,常用于进行网页数据采集。互联网网页上存在着结构化、半结构化和非结构化数据,如:图片、视频、音频、文档表格等。Web爬虫通常会根据一定的网页规则,自动获取网页上的数据,并进行网页解析和数据存储。Web爬虫工作原理Web爬虫的工作流程大致为:首先选取一些种子URL,将其加入待抓取URL队列中;然后从待抓取URL队列中抓取URL种子,根据URL在互联网上下载对应的网页,进行处理分析并保存在本地网页库中;然后将抓取过的URL放在已抓取URL队列中;从已抓取URL队列中提取URL加入待抓取URL队列,进行新一轮网页抓取;循环该过程,直到清空待抓取URL队列。下图3.6位爬虫框架流程图。图3.6爬虫框架流程图;Web爬虫面临的问题截至2019年,我国互联网网页数量高达2816亿个,虽然网页数量规模巨大,但有关研究表明其中有将近30%的页面内容是重复的,使得Web爬虫的爬行效率降低。网页内容越来越复杂,不仅有视频、音频、图像、文档等非结构化数据,还有需要注册登录才能访问的内容,还有一些网站在建设的时候设定了反爬虫功能等。一系列问题导致了Web爬虫的爬行效率降低,影响了爬行质量等。为了提高Web爬虫的爬行速度,一般采用并行爬行方式,但这方式容易导致爬虫抓取重复页面内容。为了减少并行爬行方式的重复率,往往在爬行之前预先给爬虫分配URL,使它们按照规定的路线爬行。互联网页面数量急速增长,网页数据越来越复杂,Web爬虫面临这巨大挑战。如何提高爬行速度和爬行质量是主要问题。Web爬虫的类别Web爬虫根据结构特性可以分为以下四种,分别是:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。通用网络爬虫通用网络爬虫,又称全网爬虫,可以对整个互联网网页进行爬行,因此这类Web爬虫的数量大、范围广。因为爬行对象是整个网络,因此下载网页数量庞大,所需要的存储空间也很大,而且对爬行速度要求很高,常用于网站搜索引擎如百度、谷歌等。聚焦网络爬虫聚焦网络爬虫,又称主题网络爬虫,能预先设定好要爬行的主题来选择相关网页进行爬行,有选择性地采集数据。与通用网络爬虫的爬行范围相比,聚焦网络爬虫的爬行范围更小,但采集到的数据内容精度更高,因此所需要的存储空间也比较小。聚焦网络爬虫可以按照用户要求对一些特定内容的网页进行爬行。增量式网络爬虫增量式网络爬虫通俗来说,每当互联网网页内容发生变化或已经爬行过的网页内容有所更新时,增量式网络爬虫就会对这些发生变化的网页进行再次爬行,以保持所爬行的网页是新网页。因此能增量式Web爬虫在一定程度上能减少网页下载量,但由于需要对网页内容进行监控,因此爬行的算法结构会相对复杂。(4)DeepWeb爬虫互联网的页面可以分为两种类型:表层网页和深层网页。表层网页就是可以被常规搜索引擎所索引的,其页面信息可以用静态链接来获取。深层网络就是不能被常规搜索引擎所索引,如通过填写表格形式才能获取在线数据库的动态页面内容、需要注册才能观看的内容、PDF或Word文档和一些无法被静态链接获取的内容。大数据时代下,数据采集是后续数据分析、处理的前提,采集到的互联网数据的数量、类型对大数据研究至关重要。目前已有很多开源的网络爬虫技术,如Nutch、Serapy、JSpider。

大数据的加工技术数据采集获得的数据往往存在缺失值、含有噪声以及数据不一致等问题,这些数据无法直接进行数据分析和数据挖掘,或者挖掘效率低和挖掘效果差等。而为了提高数据发掘效率,需要进行数据加工。本章节主要介绍了数据加工的相关技术,包括数据清洗、数据变换、数据集成和数据规约等技术数据清洗大数据发展离不开大数据加工技术,而其应用价值也十分显著,大数据加工技术的目的是将大量数据进行数据分析,进而挖掘它们潜在的价值。而在数据采集的过程中,由于种种因素导致数据产生了误差,产生一些含有杂质、被噪声污染或内容缺失等劣质数据,被行业称为“低质量数据”。而要想充分挖掘数据的潜在价值,就必须对这些“低质量数据”进行初步加工,通过数据清洗、数据集成、数据变换和数据规约等操作,将“低质量数据”进行质量提升。数据清洗是数据加工的首要方法。常用的操作包括:缺失值处理、光滑噪声数据处理、检查和纠正偏差等。 缺失值处理忽略元组:当类标号缺失时,可以通过采用忽略元组的方式来处理数据缺失值,但在使用这方法的时候,用户不能使用该元组的其他属性值,因此可能会影响后续的数据挖掘效果。人工填写缺失值:由用户自己人工填写缺失值。但缺失值数量很多时,人工填写会很耗时而且容易产生漏填、错填等二次误差。使用一个固定常量填充缺失值:通常使用一个常量如(“未知”或“0”)来替换缺失值。但如果大量缺失值均采用同一个常量,在数据挖掘时会认为它们属性相同,从而得出错误结论,因此该方法可能会导致挖掘结果产生误差。使用中位数/均值度量:根据数据属性分布特点,如果属性呈对称分布,则可取属性的平均值来填充;如果数据呈线性分布,则可取属性中位数来填充。使用同类型对象的属性均值或中位数填充:如将潜在客户按照消费水平分类,将消费水平相同的客户的消费平均值或中位数填充到未知客户的消费水平缺失值。使用公式推断最可能值填充缺失值:利用机器学习方法,如线性回归方程来预测缺失的数据,但如果数据属性并不是线性分布则有可能产生误差。有时候,缺失值的产生并不代表数据发生了错误,有可能是用户填写信息时的漏填,因此数据清理时要尽量识别这种空值,在处理时尽可能智能化,减少数据误差。光滑噪声数据处理Bin方法。Bin方法也就是分箱方法,可以观察数据的相邻值来对有序数据进行光滑处理。将有序数据分布在箱子中进行局部处理,然后利用这段有序数据的均值、最大值、最小值来进行分配。如图4.1为分箱法的例子。图4.1用于数据光滑的分箱方法由图4.1分箱方法可知,首先将商品价格按照大小进行排序,将图中第一列箱子划分成大小为3的等频箱(即每个箱子包含3个数值。) 图中第二列采用的是均值光滑,将等频箱中数值相加取平均值来替换箱子中的值,如图等频箱箱1平均值为9,因此均值光滑箱1中每个数值都用9替换。图中第三列采用的是边界光滑方法,将箱子内的最大值和最小值作为边界,将箱子内每个数替换成最靠近的边界值,如等频箱3中数值为20,24,25,在边界光滑方法中就变成20,25,25了。回归。可以利用数学中的拟合函数进行数据光滑,数学中称作回归。借助数学中的线性回归方法,获取数据之间的拟合关系,然后可以通过其中一个数据变量来预测另一个数据变量取值范围,从而进行数据的光滑。孤立点分析。由下图4.2数据聚类图可以看出,将一些相似或相邻的数据进行聚合,形成各种聚类集合。集合之外这些零散的数据对象,称作孤立点。这些零散的数据对象往往会被认作是异常数据或误差数据,因此可以清理这些孤立点从而完成光滑数据。图4.2数据聚类图检测偏差和纠正偏差检查偏差和纠正偏差是十分繁琐的过程。产生偏差的原因有很多,有人为的错误输入、有人为故意的错误输入、有系统故障产生的偏差和一些失效已久的数据。检查偏差。检查偏差是数据清理的第一步,通常可以通过已知的数据性质来寻找数据中的噪声、孤立点和异常数据等需要清理的数据。对每个数据的定义域、数据类型、每个属性的临界值和值的范围进行考察;找出属性之间的函数关系;找出数据的均值、中位数和众数。目前企业中有很多商业工具用作数据偏差检查。例如,数据清洗工具可以利用已知的领域知识来进行数据偏差检查和纠正;数据审计工具可以分析数据属性,发现它们之间的函数关系,检测出不符合规则的异常数据。纠正偏差。当检查出偏差时,需要通过一系列变换来修正偏差。例如,利用数据迁移工具实现字符串的替换。但这些工具只能进行有限的变换,因此很多偏差纠正需要定制的程序解决。由上述分析可知,检查偏差和纠正偏差是迭代执行的,整个过程繁琐费时,而且容易出现错误,如有些数据变换会导致更多的数据偏差,这些叠加偏差可能在其他偏差解决之后才能检查出来。为了让数据清洗更加有效率,需要加强数据清洗的交互性。数据集成分布式存储存在的问题由于大数据的分布式存储,数据库分散在各个地方,数据库之间彼此独立,阻隔了数据的交流和共享,从而形成了数据孤岛。数据孤岛的存在会导致系统积累大量“垃圾”数据,使得数据的利用率降低。 数据集成的概念数据集成是结合应用、存储和各组织数据的相关管理操作。数据集成就是将各种数据中的格式、特点、性质不同的数据合并存储在一个数据仓库中。数据集成后的数据仓库,可以为后续的数据分析和数据挖掘提供数据支持,用户可以自由访问数据源,实现全面的数据共享。数据集成的数据源主要是非结构化、半结构化和结构化数据。如何将数据格式转换成一致的格式,是数据集成所要面对的首要难题。数据集成面对的问题数据集成需要考虑三个问题,分别是数据冗余问题、数据识别问题和数据冲突问题。数据冗余问题:数据仓库中的数据属性冗余问题,可以利用数据相关性公式4.1:;(4.1)根据数据相关性公式可知,当的值大于0时,证明A、B两个数据属性相关;当的值等于0时,证明A、B两个数据属性不相关。因此可以利用公式来度量数据属性是否存在冗余。数据识别问题:数据识别问题,也就是数据实体识别问题,是指不同数据库的用户为同一实体,导致多个数据源实体发生冲突。可以利用元数据实体来识别是否为同一实体,并将实体进行同名化,删除多余的部分。数据冲突问题:数据冲突包括检测和处理,对于现实世界的实体,可能由于其表达方式不同,而导致其属性不同。例如,在某所学校开展了大数据课程,其评分标准为等级制,即A~E;而另一所学校开展大数据课程,其评分标准为百分制,即0~100分。因此由于其评分标准不同,导致了数据属性存在差异性。将数据属性格式统一,能有效减少数据的冗余性和差异性,提高数据挖掘效率。数据集成存在着核心问题,分别是其异构性、分布性和自治性。其中异构性一直是数据集成所要面对的主要问题。数据规约数据规约就是利用替代方法,使用较小的数据来替换原来的数据,尽可能保证其完整性,在后续数据挖掘中获得与规约前相差无几的结果。数据规约包括:维简约、数量约束和数据压缩。维简约维简约实际上是降低数据属性维数的过程,通过降低数据原来的维数,保证原数据库的数据内容完整性,既能最大限度节约数据库的存储空间,又能去除噪声影响、提取出数据的特征进行分析,还能将高维数据投影到低维可视空间以便观察分布情况。数量约束简单来说,数量约束就是用一些小数据来概括大数据,从而节约存储空间。具体操作上,数量约束一般分为参数形式和非参数形式,如参数形式我们可以利用函数来进行约束;非参数形式可以利用数据直方图或者聚类图来进行约束。数据压缩数据压缩就是原数据通过一系列数据变换得到自身压缩表示,如果压缩后不丢失信息,则可称为无损压缩,否则称为有损压缩。对于一些稀疏的数据,我们通常会使用主成分分析压缩方法来进行数据压缩,主成分分析压缩简单来说就是将一些具有相关性的数据进行重新组合排列变成互不相关的数据。而对于一些高维度数据,我们通常会使用离散小波变换方法来处理,经过小波变换处理的数据可以保留最接近原始数据的一部分,而且可以光滑噪声数据,而且压缩速度快。数据变换数据变换是将数据变换或统一成适合数据挖掘的形式。数据变换常用方法包括:光滑数据、属性构造、数据汇总、数据缩映、数据离散化和数据泛化等。光滑数据:就是消除数据噪声影响,在上面数据清洗有详细方法,主要包括分箱法、回归和聚类方法。属性构造:根据数据已知的属性去构造新的属性,有助于加快数据挖掘过程。数据汇总:将数据细节汇总在一起,形成一个抽象的直方图,便于观察数据倾向。如网站浏览人数年度汇总。数据缩映:将数据的属性按比例缩放,让它落入在一个特定区间内,如:0.0~1.0区间。数据离散化:数据属性的数据原始值用区间标签或概念标签替换。数据泛化:泛化就是将低层概念转换成高层概念方便进行数据分析,如可以将乡镇泛化成市级省级。

结论本次毕业设计的题目是数据科学—数据采集与加工技术研究,本课题主要涉及理论知识的研究,由于缺乏这方面的知识,因此需要翻阅大量资料,以及在指导老师的帮助下才能完成本次毕业设计论文。本文结合了自己的看法与理解,着重于研究大数据的采集技术,深刻了解大数据采集的重要性,有意在未来的日子研究这方面的知识。在本篇论文中,我们可以了解关于大数据采集和加工技术的相关问题。大数据的来源有很多,如互联网、物联网、系统日志以及定位信息等;而相对应的采集方法也很多,有传感器采集、Web爬虫抓取、系统日志数据采集和ETL工具采集等;对于采集回来的大数据,我们通常会先进行加工处理再进行数据挖掘,而加工方法包括:数据清洗、数据集成、规约和数据变换等,对数据进行一系列的加工处理,提高后续数据挖掘的效率。大数据采集与加工技术在中国市场经济的应用十分广泛,尤其是电商平台和论坛等,如字节跳动旗下的“今日头条”和“西瓜视频”等app,可以采集用户的浏览历史,分析用户的兴趣爱好进行内容推送;还有京东、淘宝等电商平台,会采集用户的浏览历史、消费记录,给用户推送相关产品,还会采集商家的产品数据以及用户的评价,筛选出价格最优、声誉最好的商家。一些以传统经营模式的企业要跟上时代的脚步,利用大数据技术进行转型,才能在大数据时代中独放异彩。大数据在本次新冠肺炎的防疫抗疫上也提供了巨大的数据支持,我们可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论