《信息分析实验教程》处理编_第1页
《信息分析实验教程》处理编_第2页
《信息分析实验教程》处理编_第3页
《信息分析实验教程》处理编_第4页
《信息分析实验教程》处理编_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PPT模板下载:/moban/行业PPT模板:/hangye/节日PPT模板:/jieri/PPT素材下载:/sucai/PPT背景图片:/beijing/PPT图表下载:/tubiao/优秀PPT下载:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/资料下载:/ziliao/PPT课件下载:/kejian/范文下载:/fanwen/试卷下载:/shiti/教案下载:/jiaoan/PPT论坛:

信息分析实验教程处理编PPT模板下载:/moban/行业PPT模板:/hangye/节日PPT模板:/jieri/PPT素材下载:/sucai/PPT背景图片:/beijing/PPT图表下载:/tubiao/优秀PPT下载:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/资料下载:/ziliao/PPT课件下载:/kejian/范文下载:/fanwen/试卷下载:/shiti/教案下载:/jiaoan/PPT论坛:

数据处理数据预处理活动及其效果示意基础知识

数据预处理的范畴数据清洗数据集成数据变换数据规约基础知识数据预处理的必要性数据质量评估数据准确性数据完整性数据一致性数据及时性数据覆盖性数据可信性数据质量问题数据不完整数据不一致数据重复噪声基础知识

数据预处理活动简述数据清洗缺失值处理删除缺失值填补法噪声数据处理分箱聚类回归数据集成模式集成和对象匹配冗余检测数据值冲突检测与处理数据变换数据规范化数据离散化数据泛化属性构造基础知识数据预处理活动简述数据规约维规约小波变换主成分分析数值规约参数化数据规约非参数化数据规约小波变换示意主成分分析示意软件工具编号工具名称开发者技术特性功能简述类型1OpenRefine(GoogleRefine)谷歌跨平台;B/S架构;需要Java环境一类数据转换工具,对数据进行可视化操作处理(面向列和字段),用于数据的清洗与整合开源免费2NumPyNumPy团队Python包;跨平台用于数值型数据的清洗、缺失值处理和异常值检测处理开源免费3pandaspandas团队开源免费4plyrHadleyWickhamR包;跨平台开源免费5dplyrHadleyWickham等开源免费6tidyr开源免费7PowerQuery微软Excel插件,需要Excel用于多种数据的清洗、缺失值处理和异常值检测处理商业免费8QualityKnowledgeBaseSAS工业级产品;图形化界面软件提供11种清洗流程,每种流程包括若干处理算法,用于多种数据的清洗商业收费常见的数值型数据清洗处理软件实验2:数据清洗实验操作流程详见教材实验原理主要环节去重纠错统一规格修正逻辑转换构造数据压缩……本实验的核心工作流程导入数据统一规格添加与调整变量名称数据类型调整数据格式调整……转换构造数据离散化(合并数据)提炼新字段数据粒度转换……实验2:数据清洗实验操作流程详见教材注意事项在做数据类型检测和格式修整(即去除变量值前后可能对数据分析产生影响的空格等多余字符)时,应先单击“格式”下拉菜单,选择“修整”命令,再检测数据类型。如果先检测数据类型,再选择“修整”命令,那么修整过后会造成每一列数据的类型被重置为“任意”类型。此时,需要重新检测数据类型。如果某个类别型变量有n种取值,则为其创建虚拟变量时,要创建n-1个虚拟变量。实验3:缺失值处理实验操作流程详见教材实验原理数据缺失的可能原因未被采集到数据提取错误数据存储异常一般处理方法删除含缺失值样本删除值缺失严重的变量使用默认值填充(如平均数)使用预测模型给出的预测值本实验的核心工作流程分析缺失值产生的原因判定缺失值的含义缺失现象本身已经含有特定意义缺失值需要被特殊处理选择一种处理缺失值的方法删除样本删除变量使用默认值填充使用预测值填充使用相应的方法完成缺失值处理实验3:缺失值处理实验操作流程详见教材注意事项实验中所展示的删除含有缺失值的方法,是缺失值处理中最简单和直接的方法,也尽最大努力保证了数据样本的完整性,但被删除样本也可蕴含能有十分珍贵的其他价值。因此,删除含有缺失值的方法建议在数据集中缺失值较少的场景中应用。实验4:异常值处理实验操作流程详见教材实验原理异常值和其他样本数据有显著差异的值(离群点)统计学上指一组测定值中与平均值的偏差超过两倍标准差的测定值;而与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值在数据分析中,对于区间型变量,异常值指过大过小的取值,也可以结合统计学的定义,把超过均值n个标准差以上的取值定义为异常值,n的取值由具体情况而定;对于类别型变量,异常值指过于罕见的类别值实验4:异常值处理实验操作流程详见教材实验原理异常值的检测方法基于统计的方法基于距离的方法基于密度的方法基于假设检验的异常检测支持向量机的预测排除异常值处理的一般方法识别后剔除本实验的核心工作流程根据变量类型采取相应方法识别异常值区间型变量根据统计学定义,或观察极值(最大值、最小值等)类别型变量出现频率过低的一部分类别值剔除/修正异常值实验4:异常值处理实验操作流程详见教材注意事项不能简单认为异常值就是对数据挖掘和数据分析“有害的值”。尽管在大多数情况下,选择剔除异常值作为处理它的方式,但在欺诈识别等部分应用场景中,异常值本身反而是被重点关注的对象。PPT模板下载:/moban/行业PPT模板:/hangye/节日PPT模板:/jieri/PPT素材下载:/sucai/PPT背景图片:/beijing/PPT图表下载:/tubiao/优秀PPT下载:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/资料下载:/ziliao/PPT课件下载:/kejian/范文下载:/fanwen/试卷下载:/shiti/教案下载:/jiaoan/PPT论坛:

第3章文本处理基础知识

文本处理通过词性标注、分词、共词等技术从数据源中抽取有用的信息主要特征多学科交叉抽取的知识是直接可用的处理对象有着较强的领域特征文本挖掘高度依赖于文本(预)处理技术基础知识

文本处理的一般过程文本预处理分词对于词与词之间不存在空格等界限的语言(如汉语)文本进行按词切分的处理过程例:他从东经过我家→他/从/东/经过/我家基础知识

文本处理的一般过程文本预处理词性标注为分词结果中的每个单词标注一个正确词性的过程基础知识文本处理的一般过程文本预处理停用词过滤过滤对文本特征无任何贡献作用的词,如“a”“啊”等英语常见停用词基础知识

文本处理的一般过程文本预处理同义替换将同义词进行转换,以统一的一个词表达同义词词林:层次越深,词义刻画越细哈工大扩展版同义词词林层次结构基础知识文本处理的一般过程文本特征构造特征表示词袋模型例:苏宁易购/是/国内/著名/的/B2C/电商/之一词袋模型示意1词袋模型示意2基础知识

文本处理的一般过程文本特征构造特征表示词向量模型,例:例句1:天气预报说,明天会下雨,你明天早上去上班的时候记得带上伞。→天气预报/说/明天/会/下雨/你/明天/早上/去/上班/时候/记得/带上/伞例句2:你明天早上去上班的时候记得带上雨伞,天气预报说的可能会下雨。→明天/早上/去/上班/时候/记得/带上/雨伞/天气预报/说/可能/会/下雨得到词集合:{天气预报,说,明天,会,下雨,你,早上,去,上班,时候,记得,带上,伞,雨伞,可能}使用独热码构建例句1的词向量:[1,1,2,1,1,1,1,1,1,1,1,1,1,0,0]使用独热码构建例句2的词向量:[1,1,1,1,1,0,1,1,1,1,1,1,0,1,1]基础知识

基础知识

基础知识

基础知识

文本处理的一般过程文本信息抽取命名实体识别从文本中识别出诸如人名、组织名、日期、时间、地点、特定的数字形式等内容,并为之添加相应的标注信息方法:基于词典、基于规则、基于机器学习指代消解回指:当前的照应语与上文出现的词、短语或句子存在密切的语义关联性共指:多个名词(包括代名词、名词短语)指向真实世界中的同一参照体方法:基于句法、基于语料库基础知识

文本处理的一般过程文本信息抽取关系抽取抽取实体之间的语义关系按关系类型是否提前定义分为封闭式和开放式两类关系抽取方法:有监督学习、半监督学习、无监督学习事件抽取事件:在某个特定的时间段及地域范围内所发生的,由一个或多个角色参与,由一个或多个动作所组成的一件事情元事件抽取:基于句子的基础级的事件抽取,指一次动作的发生或状态的转变,其抽取目标包括时间、地点、人物、动作等主题事件抽取:一个主题事件由多个动作或状态组成,其描述信息通常分散在一个或多个文档中基础知识

文本处理的应用前景文本处理的应用现状主题导航优化研究竞争对手识别研究非物质文化遗产研究数字人文范式研究网络健康社区研究现实社会问题研究基础知识

文本处理的应用前景文本处理新进展自动问答、机器翻译知识结构化软件工具

接下页编号工具名称开发者技术特性功能简述类型1jiebaSunJunyiPython包;跨平台用于中文文本分词开源免费2similarityxumingJava包;跨平台用于词语、短语、句子的文本相似度计算开源免费3genismRadimŘehůřekPython包;跨平台用于文本相似度计算和文档关联度计算开源免费4NLPIR张华平跨平台;支持Python等多种语言用于中文文本分词、词性标注、命名实体识别等开源免费5LTP哈工大社会计算与信息检索研究中心用于中文文本分词、词性标注、命名实体识别、依存句法分析、语义角色标注等开源免费(商用除外)6THULAC孙茂松等用于中文文本分词和词性标注开源免费常见的文本型数据清洗处理软件软件工具

编号工具名称开发者技术特性功能简述类型7ROSTCM武汉大学ROST虚拟学习团队图形化界面,一键傻瓜式操作用于中文文本分词、词频统计、词性识别、聚类、社会网络语义网络、情感计算等免费8文本挖掘工具包华东师范大学商业分析实验教学中心图形化界面,一键傻瓜式操作;部分功能需要MySQL数据库、UciNet社会网络分析工具的支持用于中文文本分词、词频统计、高频词提取、文档相似度计算、共现分析、情感分析等免费9NVivoQSRInternationalPtyLtd图形化界面用于整理、分析非结构化数据(如采访、开放式调查回答、文章、社交媒体和网页内容),适用于问卷分析、定性研究商业收费

续表实验5:文本分词实验操作流程详见教材实验原理对于一段文本,根据语料库样本建立起的统计概率,计算各种文本切分方式对应的联合分布概率通过找到最大的概率所对应的切分方式,实现分词文本预处理导入词典执行分词文本后处理本实验的核心工作流程实验5:文本分词实验操作流程详见教材注意事项文本挖掘工具包运行所依赖的各文本文件(包括用户词典文件、停用词词典文件和同义词词典文件)和需要由工具包进行分词处理的文件,均应以UTF-8格式编码保存,以避免出现“乱码”现象如果分词结果需要作为后续词频统计模块(参见实验6词频统计)的输入,则分词时不应选择输出词语的词性,否则会造成词频统计结果出现异常待分词文件的大小,建议控制在5MB以内实验6:词频统计实验操作流程详见教材实验原理词频统计即统计一篇文本中各个词语的出现频次对中文语料,在统计词频前需要做文本分词处理实际操作中,高频词选取的标准多是在结合领域语料库的前提下选取TOP10或TOP20的词语文本数据预处理文本分词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论