第3章 数据基础-SDU-2017秋_第1页
第3章 数据基础-SDU-2017秋_第2页
第3章 数据基础-SDU-2017秋_第3页
第3章 数据基础-SDU-2017秋_第4页
第3章 数据基础-SDU-2017秋_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章数据基础

山东大学计算机科学与技术学院蒋志方2主要内容3.1数据基础3.2数据特征3.3数据预处理3.4数据存储3.5数据分析2023/2/42/4/2023数据常伴我们左右,有关数据的常识3.1数据基础数据属性数据对象的特征(characteristics)或特性(feature)别名:特征维度变量属性集合:属性向量属性类型(1)类别型属性属性类型(2)有序型属性属性类型(3)数值型属性离散型和连续型属性类型基本统计描述

数据的宏观表达“探索式数据分析”的基础3.2数据特征

基本统计描述均值表示一系列数据或统计总体的平均特征的值中位数是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数均方差方差是各个数据与平均数之差的平方和的平均数,通常以σ2表示

数据对象间的关系:相似度和相异度数据间关系的度量,经常在统计和数据挖掘中使用相异度矩阵存储n个对象两两之间的相似性,表现形式是一个n×n维的矩阵。d(i,j)是对象i和j之间相异性的量化表示,通常为非负值,两个对象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)=d(j,i),d(i,i)=0。

多数聚类算法都是建立在相异度矩阵基础上,如果数据是以数据矩阵形式给出的,就要将数据矩阵转化为相异度矩阵。对象间的相似度或相异度是基于两个对象间的距离来计算的。相异度矩阵类别型数据:表现为类别,但不区分顺序,是由定类尺度计量形成的

其距离度量可以直接用属性集中,对应位置不相等的属性的个数作为度量值不匹配率:公式中,p为两对象间的属性个数,m为两对象对应属性相等的个数。(二值类别型数据)Jaccard系数:

Jaccard相似性系数,用来比较样本集中的相似性和分散性的一个概率。Jaccard系数等于样本集交集与样本集合集的比值类别型数据距离计算数值型属性间的距离:明科夫斯基距离系欧氏距离(L2)曼哈顿距离(L1)明科夫斯基距离(LP)分类存在不确定性属性不确定性来源本身误差精度转换特定应用需求缺失值数据集成数据不确定性3.3数据预处理标准系统架构应用数据库ETL抽取(Extract)转化(Transform)装载(Load)数据仓库数据产品商业智能分析ETL的内部过程 ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。数据清理数据整合原始数据通常含有杂质“Garbagein,garbageout.”处理过程数据质量数据质量:数据质量高->对目标用途的符合度高精确性(Accuracy)完整性(Completeness)一致性(Consistency)适时性(Timeliness)可信性(Believability)可解释性(Interpretability)数据可视化质量数据墨水比(data-inkratio): 数据可视化质量的衡量标准数据清洗

数据清理:检测和清除数据中的错误和不一致,以提高数据质量Data…Data!数据错误类型及处理方法缺失值常量代替缺失值属性平均值填充回归人工填充噪声值回归分析离群点分析可视数据清洗使用可视化工具进行数据清洗数据整合数据整合包括:(1)合并来自多个数据源的数据(2)向用户提供一个关于这些数据的统一视图管理来自多个数据源的数据数据1数据2数据3数据多数据源结构冲突(structuralconflicts): 不同的模式(schema)等数据冲突(dataconflicts): 重复的记录,冲突的记录属性等

数据整合实例(1)客户列表1客户列表2整合结果数据整合实例(2) 对同一篇论文,来自不同论文数据库的引用格式可能存在不同 整合为某种统一格式另一种数据整合方式:虚拟化数据源A数据源B数据源C转换器转换器转换器拥有统一模式的“虚拟数据库”

数据清洗和整合步骤 初步分析:在操作之前进行数据分析 冲突解析:解析数据源间的数据冲突 定义数据转换工作流和转换规则:使用工作流方式完成模式(schema)配准和转换 工作流验证:验证工作流中的步骤是否正确 数据转换:开始流程3.4数据存储装载并存储数据基于文件的存储数据库&数据库管理系统数据仓库最简单的方法直接将数据存储为文件形式简单、方便

电子表格类型:CSV文件逗号分隔值(Comma-SeparatedValues)结构化文件格式 通用格式:XML(可扩展标记语言,eXtensibleMarkupLanguage)<employer>

<id>23</id>

<name>Alice</name>

<city>CA</city>

<dptid>1</dptid></employer>IDNameCityDpt.ID23AliceCA124BobNY2XML的扩展IVOA(International

Virtual

ObservatoryAlliance)VOTable:用于交换天文学领域表格数据的XML扩展XML的扩展 KeyholeMarkupLanguage(KML):在基于web的二维或三维地图上表达地理标注信息<?xmlversion="1.0"encoding="UTF-8"?><kmlxmlns="/kml/2.2"><Document><Placemark><name>NewYorkCity</name><description>NewYorkCity</description><Point><coordinates>-74.006393,40.714172,0</coordinates></Point></Placemark></Document></kml>特殊用途文件格式 HDF(HierarchicalDataFormat):组织和存储大量的数值型数据,特别是科学计算数据数据库 “Adatabaseisacollectionofdata,typicallydescribingtheactivitiesofoneormorerelatedorganizations.” (数据库是数据的集合,通常用来描述多个相关组织结构的活动。)应用数据库--RaghuRamakrishnanandJohannesGehrke,“DatabaseManagementSystem”关系数据库管理系统(RDBMS) 数据的关系模型是现代数据库系统的标准— 最小化应用程序与机器表示间的耦合度 高级数据语言:

数据定义语言(DataDefinitionLanguage)

结构化查询语言(StructuredQueryLanguage)关系模型表(关系)列(属性)行(记录)约束键:主键,外键等索引 “Whenpeopleusetheworddatabase,fundamentallywhattheysayisthatthedatashouldbeself-describinganditshouldhaveaschema.That’sreallyalltheworddatabasemeans.” (当使用数据库这个词时,人们强调的是数据需要能够自描述,并且拥有模式。这就是“数据库”的含义。)--JimGray,“TheFourthParadigm”关系数据库可视化美国自然基金数据库可视化Z.Liu,S.B.Navathe,andJ.T.Stasko,Network-basedvisualanalysisoftabulardata,IEEEConferenceonVisualAnalyticsScienceandTechnology(VAST),pp.41–50,2011.挑战胜任交互式任务所需的响应时间(通常为亚秒级)大尺度数据的索引构建数据间的语意关系NoSQL数据库“NotOnlySQL”(不仅仅是SQL)面向海量数据(并且数据不需要关系模型)通常不使用表结构,并且不使用SQL进行查询NoSQL数据库实例文档存储 –Apache

CouchDB是一个面向文档的数据库管理系统。它提供以JSON作为数据格式的REST接口来对其进行操作,并可以通过视图来操纵文档的组织和呈现。CouchDB是Apache基金会的顶级开源项目。CouchDB是围绕一系列语义上自包含的文档而组织的。CouchDB中的文档是没有模式的(schemafree),也就是说并不要求文档具有某种特定的结构。图结构存储 –Neo4j:一个嵌入在Python中的图数据库模块,让Python可以通过图数据库的API操作本地文件以存储图结构的数据(类似于很多支持SQLite的类库)。键-值存储 –Redis(内存数据库-(in-memorydatabase),MongoDB(磁盘数据库)-

(分布式文档存储数据库)表格数据 –ApacheHBase(基于Hadoop)--HBase是一个分布式的、面向列的开源数据库,HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。数据仓库Adatawarehouseisasubject-oriented,integrated,time-varient,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmakingprocess.(数据仓库是面向主题的、已整合的、时变且稳定的数据集合,用来支持管理的决策过程。)--W.H.Inmon,“BuildingtheDataWarehouse”.1996.数据仓库数据仓库LooselySpeaking,adatawarehousereferstoadatarepositorythatismaintainedseparatelyfromanorganization’soperationaldatabases.(概括地讲,数据仓库指与企业功能数据库分离维护的数据贮藏系统。)--H.JiaweiandM.Kamber,“DataMining:ConceptsandTechniques”,3rded.,2011.数据库和数据仓库的异同数据库数据仓库特点处理数据操作处理数据中的信息

面向领域事务分析用户终端用户:职员,数据库管理员(DBA)知识工作者:经理,分析师,执行官功能日常操作长期决策支持分析数据当前最新的数据历史数据,时变数据访问方式读写平均(主要)读聚焦点数据输入信息/知识输出容量尺度1GB~<1TB>=TB探索式数据分析数据挖掘3.5数据分析基础:统计(基本上讲)现代数据分析的基础(同样也是)数据挖掘、机器学习的基础探索式数据分析(ExploratoryDataAnalysis,EDA)基于统计数据可视化驱动的方法使用简单的方式概括数据主要特征 “SomeofmyfriendsfeltthatIshouldbeveryexplicitinwarningyouofhowmuchtimeandmoneycanbewastedoncomputing,howmuchclarityandinsightcanbelostingreatstacksofcomputeroutput.Infact,Iaskyoutorememberonlytwopoints: 1.Thetoolthatissodullthatyoucannotcutyourselfonitisnotlikelytobesharpenoughtobeeitherusefulorhelpful.(连自己都伤不了的工具也不会锋利到使用或有帮助。) 2.Mostusesoftheclassicaltoolsofstatisticshavebeen,are,andwillbe,madebythosewhoknownotwhattheydo.(绝大多数统计工具是由外行人使用的)”

--JohnW.Tukey,“TheTechnicalToolsofStatistics”,atthe125thAnniversaryMeetingofAmericanStatisticalAssociation,1964探索式数据分析探索式数据分析中的可视化 这里仅讲解探索式数据分析中的可视化方法,统计计算方法并不涉及。 探索式数据分析中的可视化方法分类:原始数据绘图简单统计值标绘多视图协调关联原始数据绘图:数据轨迹

(datatrajectory)原始数据绘图:柱状图(barchart)原始数据绘图:饼图(piechart)原始数据绘图:直方图(histogram)原始数据绘图:等值线图

(contourmap)原始数据绘图:走势图(sparkline)原始数据绘图:散点图

(scatterplot/scatterplotmatrix)原始数据绘图:热力图(heatmap)原始数据绘图:维恩图(Venndiagram)用封闭曲线(内部区域)表示集合及其关系的图形简单统计值标绘:一维盒须图(1-Dboxplot)maxmin25%75%mean箱形图(box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。简单统计值标绘:二维盒须图(2-Dboxplot)多视图协调关联基础:统计 “DataMining,alsopopularlyreferredtoasknowledgediscoveryfromdata(KDD),istheautomatedorconvenientextractionofpatternsrepresentingknowledgeimplicitlystoredorcapturedinlargedatabases,datawarehouses,theWeb,othermassiverepositories,ordatastreams.” (数据挖掘/知识发现是一种自动、简易地从从存储在数据库、数据仓库中的数据,到网页、其他大型储存库、或是数据流的数据中提取表示知识模式的过程。)--H.JiaweiandM.Kamber,“DataMining:ConceptsandTechniques”,3rded.,2011.数据挖掘模型解释

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论