2023学年完整公开课版Volume特征_第1页
2023学年完整公开课版Volume特征_第2页
2023学年完整公开课版Volume特征_第3页
2023学年完整公开课版Volume特征_第4页
2023学年完整公开课版Volume特征_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本分析的4V特征之一Volume特征引语Volume特征引语/01

在线网络环境中,文本类型数据的分析技术符合典型的大数据技术的基本特征,4V特征。引语4VVolume:大量Variety:多样性Value:价值Velocity:时效Volume特征/02

大数据分析方法强调调用数据的全集对事物进行分析并得出结论,避免由于样本采集过程的偏差得出片面或错误的结论。过去人们对数据的获取能力、存储能力、分析能力都很差,因此,倾向于采用从数据的全集中抽取数据样本的方法来观察数据的基本特征。当抽取的样本有代表性时,基于抽样的数据分析方法效果就会很好。但是,由于实际抽样过程中总会存在误差,所以基于抽样的统计方法得到的结论不够准确。Volume特征

随着大数据技术的发展,数据的获取、存储和分析等相关技术都得到大幅提高,这使得对数据的全集进行分析成为可能。对数据全集进行分析有利于获得更多客观、准确的统计模型和分析结论。当对数据全体进行分析时,就要求数据集合的规模十分庞大,即要符合Volume特征。Volume特征

特别是对文本数据进行分析时,其数据规模更大。人类语言的内涵十分丰富,因此,对文本数据进行分析时需要对内容有十分精确的理解。为更好地区分不同词汇、词组、句子,以及其他各种文本要素组合的语义、语法上的差异,需要对大量的文本内容进行统计学习,从而对文本对象进行精益的建模和量化。Volume特征

在实际操作过程中,考虑到对计算资源的占用及分析结果实时性的要求,一般情况下不必基于数据的全集进行分析,采用一定程度的样本过滤即可。例如,在有条件下,可以获取数据的全集进行分析;而在考虑资源约束的情况下,可在尽可能提高抽样比例的情况下选取部分数据进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论