《Python数据分析基础与案例实战》第3章 了解数据的常见类型_第1页
《Python数据分析基础与案例实战》第3章 了解数据的常见类型_第2页
《Python数据分析基础与案例实战》第3章 了解数据的常见类型_第3页
《Python数据分析基础与案例实战》第3章 了解数据的常见类型_第4页
《Python数据分析基础与案例实战》第3章 了解数据的常见类型_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

了解数据的常见类型1半结构化数据目录结构化数据2非结构化数据3数据的类型多种多样,按照数据的结构可分为结构化数据、半结构化数据和非结构化数据。结构化数据的表现形式为二维的列表结构,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据由行和列构成,通常每一行对应一条记录,每一列对应一个属性,同一个表中的数据具有相同的属性集,即同一张表中所有记录的列的个数是一致的。一个结构化数据的例子,如下表所示。结构化数字IDSexbodyTypecreatDate1男020160309表中展示了一条结构化的汽车交易记录,ID列表示该交易的编号为1,通常为数值型或字符型。Sex列表示该客户的性别为男性,通常为字符型;bodyType列的0表示该车的车型是豪华轿车,为数值型。creatDate列表示该客户的消费时间为2016年3月9日,通常为字符型或时间型。结构化数据主要应用于各类业务系统的关系型数据库中,其存储需求包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求等。结构化数字1半结构化数据目录结构化数字2非结构化数据3半结构化数据是结构化数据的一种特殊形式,是以树或图的数据结构存储的数据,其结构并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构。半结构化数据包含相关标记,用来分隔语义元素以及对记录和字段进行分层,这种结构也被称为自描述的结构。半结构化数据的数据库是节点的集合,每个节点都是一个叶子节点或一个内部节点。叶子节点与数据相关,数据的类型可以是任意原子类型,如数字和字符串。每个内部节点至少有一条外向的弧。每条弧都有一个标签,该标签指明弧开始处的节点与弧末端的节点之间的关系。半结构化数据一个名为根的内部节点没有进入的弧,它代表整个数据库。每个节点都从根可达整个图的结构未必是一棵树。常见的半结构化数据格式有XML和JSON。一个XML文件中的记录,可以看到两条记录的属性个数是不一样的。第一条记录有name、age和gender三个属性,而第二条记录只有name和gender两个属性。半结构化文件记录的属性个数是可以变动的,这点与结构化数据要求数据必须具有相同的属性集不同,使得半结构化数据具有更好的灵活性。半结构化数据半结构化数据包括邮件、HTML、报表、资源库等,常见的应用场景有邮件系统、WEB集群、教学资源库和档案系统等。这些应用的存储要求主要有数据存储、数据备份、数据共享以及数据归档等。半结构化数据1半结构化数据目录结构化数字2非结构化数据3非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。常见的非结构化数据包括办公文档、文本、图像、音频、视频等。非结构化数据的格式非常多样,标准也具有多样性,在技术上非结构化信息比结构化信息更难标准化和理解。其存储、检索、发布以及利用需要更加智能化的IT技术。常见具体应用有医疗影像系统、教育视频点播、视频监控、地理信息系统、设计院、文件服务器(PDM/FTP)、媒体资源管理等。非结构化数据非结构化数据常见具体应用有。医疗

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论