机器学习课次25~26-分类算法综合练习(基于文本内容的垃圾短信识别)_第1页
机器学习课次25~26-分类算法综合练习(基于文本内容的垃圾短信识别)_第2页
机器学习课次25~26-分类算法综合练习(基于文本内容的垃圾短信识别)_第3页
机器学习课次25~26-分类算法综合练习(基于文本内容的垃圾短信识别)_第4页
机器学习课次25~26-分类算法综合练习(基于文本内容的垃圾短信识别)_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

彭辉94031097(QQ)机器学习MachineLearning分类算法综合练习任务目标能力目标利用分类算法解决分类问题掌握常用的分类算法原理使用sklearn库开发分类应用程序任务目标素质目标团队协作学会学习实践创新目录数据预处理31背景与目标4数据探索2文本的向量表示5构建朴叶素贝斯模型及评价背景与目标背景与目标2018年,全国约84.0亿条(360互联网安全中心)以银行诈骗、互联网虚假网购、电信诈骗等内容为主。背景与目标垃圾短信垃圾短信黑色利益链缺乏法律保护短信类型日益多变背景与目标我国目前的垃圾短信现状:由于短信的方便、低成本等特点,垃圾短信已经形成了黑色利益链,严重为害社会公众安全。由于监管缺失,一些不良组织通过各式各样的渠道收集个人手机信息,并将手机信息卖给有需求的商家和业务人员获取利益,同时商家等通过发送广告推销、诈骗等垃圾短息,来谋取利益,严重危害了短信用户的信息安全及正常生活。主要的黑色利益链存在形式:伪基站不法商家背景与目标现状一:垃圾短信黑色利益链公安部、信息产业部、中国银行业监督管理委员会联合发出《在全国范围内统一严打手机违法短信息的通知》等;但目前规范短信业务的制度法来说,仍属空白;背景与目标现状二:缺乏法律保护投放方式不断改进垃圾短信内容多变垃圾短信类型多样背景与目标现状三:垃圾短信形式日益多变案例目标:垃圾短信识别。背景与目标model短信1短信2短信3…垃圾短信1正常短信0基于短信文本内容,建立识别模型,准确地识别出垃圾短信,以解决垃圾短信过滤问题目录数据预处理32数据探索4背景与目标1文本的向量表示5构建朴叶素贝斯模型及评价抽取数据数据清洗分词

建模准备数据准备评价与优化总体流程80万数据太大,抽取2万数据处理建模

部署id类别短信内容10商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一21南口阿玛施新春第一批限量春装到店啦春暖花开淑女裙、冰蓝色公主衫气质粉小西装、冰丝女王长半裙、皇………数据探索数据展示建模前需要对文本数据做哪些处理?需要怎么评价模型的好坏?数据探索观察数据,请思考:对原始80万条数据进行数据探索,发现数据中并无存在空值,进一步查看垃圾短信和非垃圾短信的分布情况。数据探索数据分布欠抽样数据探索过抽样欠抽样通过减少多数类样本来提高少数类的分类性能通过增加少数类样本来提高少数类的分类性能垃圾短信及非垃圾短信中各取1万数据随机抽取上文的2W条文本处理后的数据的80%作为训练样本,其余作为测试集样本。数据探索数据抽取目录背景与目标13数据预处理4数据探索2文本的向量表示5构建朴叶素贝斯模型及评价数据预处理

数据清洗第一步第二步第三步第四步分词添词典去停用词绘制词云判别短信0有图有真相哦~~~

1南口阿玛施新春第一批限量春装到店啦???春暖花开淑女裙、冰蓝色公主衫?气质粉小西装、冰丝女王长半裙、?皇数据预处理去除空格空格及全角情况下的空格x序列数据预处理序号判别短信1921亲,金汕教育春季班从x月x号起陆续开班啦!报名热线xxxxxxxx,或者直接回复需要补习的年级科目,我们会尽快跟您联系的。2141xxxxxxxxxxxxxxxxxxx沈宇工商银行2241各位老板,元旦节快乐!现在淘汰母猪漂亮的x.x元一斤,公猪x.x元一斤,如有需要苹联系xxxxxxxxxxx殷水良,谢谢!祝您六畜兴旺2861您有来自莆田长富的通知:x月x日至x月xx日订长富巴氏鲜奶x个月送同品xx份,订奶热线:xxxxxxx或xxxxxxx,请注意查收。【群鸿】3891老凤祥“春彩女人季”!x月x日起时尚黄金满xxxx减xxx,钻石珠宝缤纷让利,“爱唯一”美钻一口价稀售!更有绚彩K金买x送x。祝您三………………银行账户电话、固话、QQ价格日期银行卡号——C账户C数据预处理对于x字符串序号判别短信4851你打款号,农行,陈勇,xxxxxxxxxxxxxxxxxxx2141xxxxxxxxxxxxxxxxxxx沈宇工商银行38771建行刘艳清xxxxxxxxxxxxxxxxxxx,交行刘艳清xxxxxxxxxxxxxxxxxxx,工行何程龙xxxxxxxxxxxx58861玉xxxxxxxxxxxxxxxxxxx。农行,车晓玉xxxxxxxxxxxxxxxxxxx。邮政,李炳侠xxxxxxxxxxxxxx95951农业银行xxxxxxxxxxxxxxxxxxx户名宁上林建设银行xxxxxxxxxxxxxxxxxxx户………………一般贷记卡的卡号位数都是16位,借记卡位数根据银行不同,是16位到19位不等,中间存在空格等字符电话、固话——T电话T数据预处理对于x字符串序号判别短信121(长期诚信在本市作各类资格职称(以及印/章、牌、……等。祥:xxxxxxxxxxx李伟%1951家长您好:旗帜数学本着提高学生成绩的宗旨,新学期开课啦。招生电话:xxxxxxxxxxxxxxxxxxxxxx地址:五完小西十2241各位老板,元旦节快乐!现在淘汰母猪漂亮的x.x元一斤,公猪x.x元一斤,如有需要苹联系xxxxxxxxxxx殷水良,谢谢!祝您六畜兴旺5041x.x-x.x来张家边苏宁!抢美的空调!预存xx元:最低=xxx元,最高=xxxx元!预约电话:李店长:xxxxxxxxxxx6561《冲上云霄》男女神三对恋人高空爱恋《澳门风云x》发哥斗智勇赢尽天下《xD钟馗伏魔》成龙演绎《xD天将雄师》订票xxxxxxxx【金字塔影城】………………手机(11位数)固话(区号+号码)价格——P价格P数据预处理对于x字符串序号判别短信91一次价值xxx元王牌项目;可充值xxx元店内项目卡一张;可以参与V动好生活百分百抽奖机会一次!预约电话:xxxxxxxxxxx1420全新世嘉xxxx元购车红包2241各位老板,元旦节快乐!现在淘汰母猪漂亮的x.x元一斤,公猪x.x元一斤,如有需要苹联系xxxxxxxxxxx殷水良,谢谢!祝您六畜兴旺2711x雅轩美发会所迎x周年店庆携手x.x节推出大型回馈活动老会员续充可按充值金额百分之十返送充值xxx元送xxx元xxxx元送x5041x.x-x.x来张家边苏宁!抢美的空调!预存xx元:最低=xxx元,最高=xxxx元!预约电话:李店长:xxxxxxxxxxx………………数字+元、万'满xxx返xx现金券'日期——D时间D数据预处理对于x字符串序号判别短信211红都百货x楼婷美专柜x.x节活动火热进行中。一年仅一次的最大活动力度!充值送:充xxx送xxxxxxx送xxxxxxx送xxxxxxx送xxxxxxxx送xxxx时间:x.xx-x.x日。欢迎各位美女们前来选购!2581台州银行xxxx期,限量版"稳进账”理财产品:投资期限xx天(xxxx年x月xx日-xxxx年x月xx日),预期最高收益率x.x%,认4060xxxx年x月被列为南京市文物保护单位2711x雅轩美发会所迎x周年店庆携手x.x节推出大型回馈活动老会员续充可按充值金额百分之十返送充值xxx元送xxx元xxxx元送x5041x.x-x.x来张家边苏宁!抢美的空调!预存xx元:最低=xxx元,最高=xxxx元!预约电话:李店长:xxxxxxxxxxx………………年月日、号在数据的的储存和提取过程中,由于技术和某些客观的原因,造成了相同短信文本内容缺失等情况,因此需要对文本数据进行去重,去重即仅保留重复文本中的一条记录。数据预处理文本去重短信ID识别短信文本内容-0晚上的旅游项目组织大家观看泰山封禅表演-0晚上的旅游项目组织大家观看泰山封禅表演表一原短信数据表重复文本仅保留其中一条记录中文分词是指以词作为基本单元,使用计算机自动对中文文本进行词语的切分,即使词之间有空格,这样方便计算机识别出各语句的重点内容。数据预处理中文分词分词之前:"将汽车工程和建筑设计完美融为一体"中文分词分词结果:"将""汽车""工程""和""建筑""设计""完美""融为一体"

正向最大匹配法数据预处理“有效率的方法”词库:“有效”、“效率”正向逆向“有效率的方法”“有效”“率”“的”“方法”“有”“效率”“的”“方法”分词分词利用Viterbi算法找出一条概率最大路径。数据预处理NLP概率图:HMM针对中文分词应用-Viterbi算法步人提高民收入和生活水平进一BEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMSBEMS支持繁体分词支持自定义词典数据预处理python结巴分词(jieba)支持三种分词模式中文表达中最常用的功能性词语是限定词,如“的”、“一个”、“这”、“那”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达,并没有太多的实际含义。而大多数时候停用词都是非自动生产、人工筛选录入的,因为需要根据不同的研究主题人为地判断和选择合适的停用词语。数据预处理停用词过滤停用词过滤结果词云图是文本结果展示的有利工具,通过词云图的展示可以对短信文本数据分词后的高频词予以视觉上的强调突出效果,使得阅读者一眼就可获取到主旨信息。数据预处理绘制词云图垃圾短信正常短信案例目标:垃圾短信识别。背景与目标model短信1短信2短信3…垃圾短信1正常短信0基于短信文本内容,建立识别模型,准确地识别出垃圾短信,以解决垃圾短信过滤问题如何将文本数据放入模型?思考model垃圾短信1正常短信0[您好刚刚打电话新理想花园...]

[女神节即将来临赠送奢宠...]

[宜昌长江市场盼盼木门...]

[舒心内衣三八节关爱...]

[特大好消息禹鑫天赋交房...]目录数据预处理34文本的向量表示1数据探索2背景与目标5构建朴叶素贝斯模型及评价'Mydoghasfleaproblems,helpplease.’'Maybenottakehimtodogparkisstupid.’'Mydalmationissocute.Ilovehim.’'Stoppostingstupidworthlessgarbage.’'Mrlicksatemusteak,whatcanIdo?.’'Quitbuyingworthlessdogfoodstupid’

labels=[0,1,0,1,0,1]#文档标签:是否是消极情感文本的向量表示文本分类实例从非结构化数据到结构化数据转化将每个词表示为一个长长的向量,词袋:所有词的不重复构成[a,ate,cat,dolphin,dog,homework,my,sandwich,the]文本1:Mydogatemyhomework.文本2:Mycatatethesandwich.文本3:Adolphinatethehomework.[a,ate,cat,dolphin,dog,homework,my,sandwich,the]a:[100000000]ate:[010000000]……文本的向量表示One-Hot表达文本转化为词向量矩阵[a,ate,cat,dolphin,dog,homework,my,sandwich,the]文本1:[010011100]文本2:[011000111]文本3:[110101001]缺陷:忽略了句子词频信息文本的向量表示One-Hot表达文本1:Mydogatemyhomework.文本2:Mycatatethesandwich.文本3:Adolphinatethehomework.增加词频信息文本1:[010011200]“my”在句子中出现了2次文本2:[011000111]文本3:[110101001]归一化:避免句子长度不一致问题,即文档TF信息文本1:[01/5001/51/52/500]“my”在句子中出现了2次文本2:[01/51/50001/51/51/5]文本3:[1/51/501/501/5001/5]如何体现生成词袋中的词频信息?文本的向量表示TF-IDF权重策略文本1:Mydogatemyhomework.文本2:Mycatatethesandwich.文本3:Adolphinatethehomework.权重策略文档中的高频词应具有表征此文档较高的权重,除非该词也是高文档频率词TF:Termfrequency即关键词词频,是指一篇文档中关键词出现的频率IDF:Inversedocumentfrequency指逆向文本频率,是用于衡量关键词权重的指数,由公式文本的向量表示TF-IDF权重策略N:单词在某文档中的频次M:该文档的单词数D:总文档数Dw:出现了该单词的文档数sklearn.feature_extraction.text#文本特征提取模块CountVectorizer#转化词频向量函数fit_transform()#转化词频向量方法get_feature_names()#获取单词集合方法toarray()#获取数值矩阵方法TfidfTransformer#转化tf-idf权重向量函数fit_transform(counts)#转成tf-idf权重向量方法文本的向量表示文本分类实例分词;去除停用词;转换成词频向量转换成TF-IDF权重矩阵特征提取,构建模型fromsklearn.feature_extraction.textimportCountVectorizer,TfidfTransformer

fromsklearn.naive_bayesimportGaussianNB

corpus=[

'Mydoghasfleaproblems,helpplease.',

'Maybenottakehimtodogparkisstupid.',

'Mydalmationissocute.Ilovehimmy.',

'Stoppostingstupidworthlessgarbage.',

'Mrlicksatemysteak,whatcanIdo?.',

'Quitbuyingworthlessdogfoodstupid'

]

labels=[0,1,0,1,0,1]

文本的向量表示文本分类实例transformer=TfidfTransformer()#转化tf-idf权重向量函数

vectorizer=CountVectorizer()#转化词频向量函数

word_vec=vectorizer.fit_transform(corpus)#转成词向量

words=vectorizer.get_feature_names()#单词集合

word_cout=word_vec.toarray()#转成ndarray

tfidf=transformer.fit_transform(word_cout)#转成tf-idf权重向量

tfidf_ma=tfidf.toarray()#转成ndarray

文本的向量表示文本分类实例'Mydoghasfleaproblems,helpplease.’'Maybenottakehimtodogparkisstupid.’'Mydalmationissocute.Ilovehimmy.’'Stop

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论