




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人工智能原理-课程技术报告基于深度神经网络的标题分类研究班级:XX学号:XX姓名:XX2020年10月25号基于深度神经网络的标题分类研究XX摘要:新闻是人们对时事、最新行业相关消息了解的重要途径,本文将新闻标题作为新闻分类的切入点,由于新闻标题属于文本中的短文本类别,所以本文主要通过利用深度学习相关方法对新闻标题短文本进行分类,针对前期分类出现过的问题,结合深度学习网络并引入的SVM 模型,解决新闻分类以及短文本分类过程中的常见困难问题。关键词:深度学习;SVM;标题分类1 引言随着大数据时代的来临,我们日常的信息规模呈现出爆炸式增长的趋势。数据挖掘和人工智能逐渐成为时代的主题。缩小信息规模
2、的方法有很多种,而分类就是其中一种极其有效的方式,所以它当前仍是吸引国内外学者研究的重点问题和热点问题。文本分类是在自然语言处理领域广泛研究的问题,在工业领域内,现在已经有着较为成熟的应用,无论是朴素贝叶斯还是决策树又或是最大熵以及神经网络都在工业领域有着相关应用。而文本分类技术在新闻分类领域的应用仍然有限,当前的文本分类系统大多基于统计学原理再结合相关机器学习方法训练相关数据集,从而得到所需的分类器并使用其达成对无标签数据进行分类的目的。在2017 年自然语言处理及中文计算会(NLPCC)也曾对新闻分类相关问题设立相关课题,这也间接表现出了其可能为文本分类领域的发展研究做出较大的贡献。由于中
3、文新闻文本分类起步较晚,再加以复杂精深的汉语语法的影响,使得之前关于中文新闻文本分类的研究相比于英文显得稍微落后,但现在伴随各种中文新闻语料库的出现和完善,中文新闻文本分类渐渐走上正轨。以往对新闻进行分类时通常是解析新闻的正文,由于部分新闻的篇幅较长,往往导致了新闻分类时的效率低下。而通过中文新闻标题对中文新闻文本进行分类,相比与传统的新闻分类来说在分类效率上可以得到很大的优化。除此之外,新闻标题往往是对新闻主题的高度概括,以有限的字数对全文内容进行凝炼,所以这属于一个短文本分类领域的相关问题。通过对中文新闻标题分类的研究,对短文本分类领域的部分问题有着借鉴意义。2 算法原理与系统设计2.1
4、算法原理支持向量机(Support Vector Machine ,SVM)的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,SVM正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类。支持向量机中的支持向量(Support Vector)是指训练样本集中的某些训练点,这些点最靠近分类决策面,是最难
5、分类的数据点。SVM中最优分类标准就是这些点距离分类超平面的距离达到最大值;“机”(Machine)是机器学习领域对一些算法的统称,常把算法看做一个机器,或者学习函数。SVM是一种有监督的学习方法,主要针对小样本数据进行学习、分类和预测,类似的根据样本进行学习的方法还有决策树归纳算法等。2.2 详细设计简单的Python机器学习实现新闻标题自动分类,爬虫获取的新浪新闻的分类,先对新闻进行分词,手动分类一些分词后的标题,然后以它为输入做SVM模型训练,然后用训练好的SVM模型对其他标题做预测。3 系统实现#news_classify.pyimport xlrdimport xlwtimport
6、jiebaimport numpy as npfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.svm import SVCdef read_data(file, sheet_index=0):读取文件内容workbook = xlrd.open_workbook(file)sheet = workbook.sheet_by_index(sheet_index)data = for
7、i in range(0, sheet.nrows):data.append(x for x in sheet.row_values(i) if x.strip()return datadef get_classified_sample():返回手动分类的新闻data = read_data(test.xls)return 经济: data1 + data14 + data20,社会: data2 + data3 + data4 + data9 + data17 + data18,政法: data5 + data6 + data7 + data8 + data11 + data13 + dat
8、a15 + data16 + data19,军事: data10,娱乐: data12,def classify():进行分类# 一共分成5类,并且类别的标识定为0,1,2,3,4category_ids = range(0, 5)category = category0 = 经济category1 = 社会category2 = 政法category3 = 军事category4 = 娱乐corpus = # 语料库classified_sample = get_classified_sample()for k, v in classified_sample.items():line = .
9、join(classified_samplek)corpus.append(line)data = read_data(test.xls)# 把未分类的文章追加到语料库末尾行# 21开始是因为我手动分类了前20条for lst in data21:line = .join(lst)corpus.append(line)# 计算tf-idfvectorizer = CountVectorizer()csr_mat = vectorizer.fit_transform(corpus)transformer = TfidfTransformer()tfidf = transformer.fit_tr
10、ansform(csr_mat)y = np.array(category_ids)# 用前5行已标分类的数据做模型训练model = SVC()model.fit(tfidf0:5, y)# 对5行以后未标注分类的数据做分类预测predicted = model.predict(tfidf5:)# 结果# print(len(predicted)for i in range(len(predicted) - 1):print(corpusi + 5, =, categorypredictedi)if _name_ = _main_:classify()4 实验或测试结果程序运行后出现如下界面(一部分):中巴经济走廊“围堵”印度?新华社: 印度想太多了=娱乐央行报告:上海已经基本确立国内金融中心地位=社会国网北京电力: 北京地区煤改电今年累计破100 万户=娱乐湖南沅江原市长肖胜利犯三罪判5 年: 为升迁送13 万=娱乐颜宁为何从清华跳槽去普林斯顿?她终于说出原因=娱乐国家文物局公布346 万件全国馆藏文物信息供监督=娱乐里皮首次对续约中国男足表态:我说了我愿意( 图) =经济5 结论本项目实现的是以标题分类为核心的Python程序的一个简单尝试,本项目采用爬虫获取的新浪新闻的分类,利用机器学习,深度学习的方法完成了标题分类任务,但模型还有待改
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度餐厅员工劳动合同解除与补偿
- 2025年度水土保持规划与实施监测服务合同
- 二零二五年度道路工程合同终止告知函模板
- 二零二五年度演员聘用与影视特效化妆技术合同
- 二零二五年度城市绿化项目园艺师劳务派遣合同
- 水渠改移施工方案
- 砖烟囱施工方案
- 中介招聘合同范例
- 农户养殖加工合同范例
- 肺癌患者放疗护理
- 中华英才网行测
- 《铁路轨道维护》课件-起道作业
- WS 308-2019 医疗机构消防安全管理
- (高鸿业)微观经济学习题解析+微观经济学题库解析
- 《尿11-脱氢血栓烷B2与其他危险因素的交互效应在急性冠脉综合征患者中的研究》
- 咨询公司项目风险控制方案
- 校园食品安全培训课件
- 开关柜更换改造施工方案
- 《眼科常用眼药及护》课件
- 污水处理厂防水防腐工程施工方案
- 幕墙作业安全技术交底
评论
0/150
提交评论