版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文本分析的4V特征之一Variety特征引语Variety特征引语/01
在线网络环境中,文本类型数据的分析技术符合典型的大数据技术的基本特征,4V特征。引语Variety特征/02数据分为结构化数据和非结构化数据。相对于以往便储存的以数据库/文本为主的结构变化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。这些多类型的数据对数据的处理能力提出了更高要求。Variety特征
对结构化数据进行分析,可以直接采用统计推断分析法、机器学习方法、深度学习方法进行处理,这些数据分析方法在相关理论及技术应用当前已经发展得非常成熟。然而,当前非结构化数据分析方法的发展阻力却较大。尤其文本类型数据的复杂性、变化性都很高,当前技术仍主要是将文本类型数据转化成结构化数据,再通过传统的数据挖掘方法进行处理。Variety特征
文本类型数据的核心是人类社会的语言内容,语言则是人的情感及行为的综合体现。因此,文本类型数据本质上就带有大量人为的复杂性因素,其分析难度远远大于一般的结构化数据。将文本类型数据转化成结构化数据时需要一系列复杂、烦琐的技术环节,这导致文本分析技术相对于数据挖掘技术的的发展滞后很多。文本分析技术在未来仍具有充足的探索空间。Variety特征
此外,数据在多样性也要求分析文本数据时需要设计符合其基本特征的算法,这要求数据分析者要关注文本数据的产生过程和具体应用场景。文本类型的数据会涉及不同有知识领域、不同的场景,同时以不同的表达方式呈现给用户。这些特点,都是文本类型数据多样性的具体表现。Variety特征
当考虑数据的多样性设计文本分析方法时,需要根据具体问题、场景有针对性地设计符合领域特征的特定方法,不能一概而论,正是由于这种原因,文本类型数据与结构化数据相比,分析难度更大,分析者往往需要不断地设计对实际问题具备深入的理解,也要对与文本分析技术相关的算法和原理具备强硬
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度大连市生猪买卖合同协议
- 2024年度电商企业财务咨询服务协议3篇
- 二零二四年度技术转让合同及技术资料保密协议
- 二零二四年技术支持与维护合同
- 导购员续签劳动合同(2篇)
- 公共厕所清洁保养协议
- 钢筋采购合同协议
- 二零二四年度艺人经纪与排他性表演合同
- 长期设备购销协议
- 卓越电气设计制作合同
- 违反师德师风惩戒办法
- 我是小小志愿者小学主题班会PPT
- 工伤职工医疗费报销单
- 细胞核的结构与功能说课课件 高一上学期生物人教版(2019)必修1
- MT 559-1996煤矿用带式输送机橡胶缓冲托辊安全性能检验规范
- GA/T 1567-2019城市道路交通隔离栏设置指南
- 幼儿规则意识培养《有趣的常规》课件
- 六朝志怪小说课件
- 2023江苏省高中学业水平合格性考试英语模拟试卷(含答案详解1)
- 设计任务通知单
- 北京理工大学2016级爆炸物理学习习题
评论
0/150
提交评论