R语言文本挖掘

上传人：精*** IP属地：广东上传时间：2020-03-26 格式：DOC 页数：12 大小：367.17KB 积分：20 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

精品文档 1欢迎下载中文及英文的文本挖掘中文及英文的文本挖掘 R R 语言语言所需要的包 tm text mining rJava Snowball zoo XML slam Rz RWeka matlab 1 1 文本挖掘概要文本挖掘概要文本挖掘是从大量的文本数据中抽取隐含的求和的可能有用的信息通过文本挖掘实现 Associate 关联分析根据同时出现的频率找出关联规则 Cluster 将相似的文档词条进行聚类 Categorize 将文本划分到预先定义的类别里文档自动摘要利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯描述性短文文本挖掘的运用主要有如下几方面智能信息检索同义词简称词异形词同音字赘字移除网络内容安全内容监控内容过滤内容管理自动分类检测和追踪市场监测口碑监测竞争情报系统市场分析 2 2 英文文本挖掘实例英文文本挖掘实例实现多个英文文档的聚类分析 2 12 1 文本预处理文本预处理 2 1 12 1 1读取文本内容读取文本内容取得 tm 内部文件 texts crude 下的文件目录 library tm lib loc d ProgramFiles R R 3 0 3 library vignette tm 获取相关帮助文档的内容 pdf 格式精品文档 2欢迎下载 reut system file texts crude package tm 用 Corpus 命令读取文本并生成语料库文件由于要读取的是 xml 文件所以需要 xml 包 reuters inputtest read csv file choose 2 1 22 1 2文本清理文本清理对于 xml 格式的文档用 tm map 命令对语料库文件进行预处理将其转为纯文本并去除多余空格转换小写去除常用词汇合并异形同意词汇如此才能得到类似 txt 文件的效果需要用到的包 SnowballC reuters tm map reuters PlainTextDocument 去除标签 reuters tm map reuters stripWhitespace 去多余空白 reuters tm map reuters tolower 转换小写 reuters query tm filter reuters FUN sFilter query 找到精品文档 3欢迎下载由于语料库已经将大小写转换以及将介词类删除所以对应的语句只是特有单词的组合 2 1 42 1 4生成词频矩阵并查看内容生成词频矩阵并查看内容 dtm inspect dtm 10 15 110 120 A document term matrix 6 documents 11 terms Non sparse entries 6 60 Sparsity 91 Maximal term length 9 Weighting term frequency tf Terms Docs activity add added added address addressed adherence adhering advantage advisers agency 1 0 0 0 0 0 0 1 1 0 0 2 2 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 1 4 0 0 0 0 0 0 0 1 0 0 2 5 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 2 1 52 1 5查看含有特定词的文档查看含有特定词的文档若要考察多个文档特定词汇的出现频率或以手工生成字典并将其作为生成阵的参数 inspect tdm c price texas c 127 144 191 194 A term document matrix 2 terms 4 documents Non sparse entries 6 2 Sparsity 25 精品文档 4欢迎下载 Maximal term length 5 Weighting term frequency tf Docs Terms 127 144 191 194 price 2 1 2 2 texas 1 0 0 2 inspect DocumentTermMatrix reuters list dictionary c prices crude oil A document term matrix 20 documents 3 terms Non sparse entries 41 19 Sparsity 32 Maximal term length 6 Weighting term frequency tf Terms Docs crude oil prices 127 3 5 4 144 0 11 4 191 3 2 0 194 4 1 0 211 0 2 0 236 1 7 2 237 0 3 0 2 1 62 1 6元数据操作词元素元数据操作词元素 2 1 6 12 1 6 1查看词条出现次数大于某个具体值的词查看词条出现次数大于某个具体值的词 findFreqTerms dtm 5 查看出现频大于等于 5 的词精品文档 5欢迎下载 2 1 6 22 1 6 2查看与某一词相关度大于查看与某一词相关度大于 0 80 8 的词条的词条 findAssocs dtm opec 0 8 opec meeting 0 88 15 8 0 85 oil 0 85 emergency 0 83 analysts 0 82 buyers 0 80 2 1 72 1 7处理词频矩阵处理词频矩阵 dtm2 temptoscale d fit plot fit 2 32 3 分析结果分析结果从聚类图可以看出文档 16 和 17 是比较接近的而 3 4 1 19 可以聚成一类 1 6 11 10 13 也可分别聚为一类 3 3 中文文本挖掘实例中文文本挖掘实例 3 13 1 前期准备前期准备 3 1 13 1 1Mmseg4jMmseg4j 分词分词使用中文分词法由于词之间无有像英文一样的空隔好在有 Java 已经解决了这样的问题我们只需要在 R console 里加载 rJava 与 rmmseg4j 两个工具包即可如 mmseg4j mmseg4j 中国人民从此站起来了中国人民从此站起来了精品文档 7欢迎下载 1 1 中国中国人民人民从此从此站站起来起来但事实上其技术是好几代之前的了目前很少有人还在使用并且其精度不高用户自定义词典在 R 测试并无效 teststring mmseg4j teststring 1 我要学习 r 语言兴趣小组学无止尽尽管在 D Program Files R R 3 0 3 library rmmseg4j userDic 中将自定义的词典 r 语言写入但似乎并没有被识别到 3 1 23 1 2RwordsegRwordseg 介绍介绍所需要的中文分词包所需要的中文分词包Rwordseg rjava 包 Rwordseg 是一个 R 环境下的中文分词工具使用 rJava 调用 Java 分词工具 Ansj Ansj 也是一个开源的 Java 中文分词工具基于中科院的 ictclas 中文分词算法采用隐马尔科夫模型 Hidden Markov Model HMM 作者孙健重写了一个 Java 版本并且全部开源使得 Ansi 可用于人名识别地名识别组织机构名识别多级词性标注关键词提取指纹提取等领域支持行业词典用户自定义词典 3 1 2 13 1 2 1分词分词 segmentCN strwords analyzer get Analyzer envir RwordsegEnv nature FALSE nosymbol TRUE returnType c vector tm isfast FALSE outfile blocklines 1000 nature 用于设置是否输出词性默认不用 segmentCN teststring 1 我要学习 r 语言兴趣小组学无止尽加入用户自定义词典并进行测试 3 1 2 23 1 2 2自定义词典自定义词典 insertWords c 我要 segmentCN teststring 精品文档 8欢迎下载 1 我要学习 r 语言兴趣小组学无止尽 3 1 2 33 1 2 3安装新的词典安装新的词典 installDict E default dic 3 1 2 43 1 2 4人名识别设置人名识别设置 getOption isNameRecognition 1 FALSE segment options isNameRecognition TRUE 用于设置是否进行人名识别 segment options isNameRecognition TRUE 3 1 33 1 3读取网站内容读取网站内容 library XML lib loc d Program Files R R 3 0 3 library x iconv xmlValue getNodeSet x a href 1 UTF 8 转换编码 1 COS 论坛统计之都 tables readHTMLTable x 读取内容 tables NULL NULL latest 帖子发表新帖子回复作者最后回复最近更新 1 COS 论坛说明新手必读 23 474849 979 谢益辉 cassiusoat 2 周 3 1 43 1 4TmTm 中文常识中文常识在tm 中主要的管理文件的结构被称为语料库 Corpus 代表了一系列的文档集合语料库是一个概要性的概念在这里分为动态语料库 Volatile Corpus 作为R 对象保存在内存中和静态语料库 Permanent Corpus R 外部保存在语料库构成中 x 必须有一个说明资料来源 input location 的源对象 Source Object 我们可以看一下tm 中Corpus 或VCorpus 函数的用法对于动态语料库 Corpus x 精品文档 9欢迎下载 2 readerControl list reader x DefaultReader language en 3 在tm 中静态语料库也是可以处理的但需要使用filehash 包来支持 1 PCorpus x 2 readerControl list reader x DefaultReader language en 3 dbControl list dbName dbType DB1 4 对于这些资料来源即x tm 包提供了一些相关的函数比如 DirSource 处理目录 VectorSource 由文档构成的向量 DataframeSource 数据框就像CSV 文件第二个参数是readerControl 这里必须声明reader 和language 两个内容第一个 reader是指从资料源创立的文本文件 tm 包提供了一系列的函数支持比如 readPlain readGmane readRCV1 readReut21578XMLasPlain readPDF readDOC 等 3 23 2 文件整理文件整理将各个文档放入一个 csv 文件夹中格式如下 3 33 3 读取文件读取文件 mydata txt txt txt txt txt txt inspect txt 1 查看内容 A corpus with 1 text document The metadata consists of 2 tag value pairs and a data frame Available tags are create date creator Available variables in the data frame are MetaID txt1 确定性趋势 3 53 5 中文分词并重新生成语料库中文分词并重新生成语料库 txt segmentCN as character txt 将语料库中的中文时行分词 txt Corpus VectorSource txt 3 63 6 导入中文停词表导入中文停词表将文件转换成 csv 文件导入中文停词表并转换成向量格式 cnword read csv file choose header F stringsAsFactors F cnword as vector

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

R语言文本挖掘

文档简介

温馨提示

最新文档

评论

R语言文本挖掘

文档简介

温馨提示

最新文档

评论

相关文档