1603班电子商务实验报告实验三_第1页
1603班电子商务实验报告实验三_第2页
1603班电子商务实验报告实验三_第3页
1603班电子商务实验报告实验三_第4页
1603班电子商务实验报告实验三_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电子商务应用实验报告项目名称 搜索引擎及数据挖掘实验 专业班级 1603 班学号 3901160315姓名 陈至聪实验成绩: 批阅教师:年月日实验 3搜索引擎及数据挖掘实验实验学时:4每组人数:1实验类型:2(1:基础性(1:必修(1:基础2:综合性2:选修2:专业基础3:设计性 4:研究性)3:其它)实验要求:1实验类别:33:专业4:其它)一、实验目的1. 熟练运用所学 SEO 技术对网页进行优化。2. 熟悉搜索引擎中的几种现一个简单的主题爬虫。算法,包括中文分词算法、PageRank 算法等,设计并实3. 熟悉几种常用的数据挖掘算法,包括 Apriori 算法、KNN 算法和 K-mea

2、ns 算法等。4. 运用所学算法,结合选题设计并实现一个简单的商品或信息推荐模型。二、实验内容和方法1. 使用所学的 SEO 技术,对实验二所设计的采用如下技术:静态首页实施 SEO,在实施过程中需(1)(2)(3)(4)(5)(6)网页标题(title)的优化;选取合适的元的优化;并对进行优化;结构和 URL 的优化;创建 robots.txt 文件,蜘蛛抓取页面;网页内部的优化;的优化;(7) Heading(8) 图片优化;(9) 网页减肥技术。2. 学习和研究两种不同的中文分词工具,理解它们的实现原理及相关算法,并使用这两种分词工具对朱自清的荷塘月色一文进行分词,比较这两种分词工具的分

3、词结果。【可选分词工具包括 jieba、SnowNLP、THULAC、NLPIR、CoreNLP、pyLTP、pynlpir、FudanNLP、HanLP、分词、庖丁解牛等。】3. 使用任意一种编程语言实现公司的 PageRank 算法,并计算如下网页关系图中各个页面的 PageRank 值。【为了便于计算,假设每个页面的 PR 初始值为 1,阻尼因子 d 为 1,迭代次数或终止条件可以自行设定。】ABECD4. 使用 Python、Java、C+和 C#等任意一种编程语言,设计并实现一个简单的主题爬虫,要求在输入主题、设置爬行深度和初始网页 URL 之后能够实现网页搜索,输出的网页的 URL

4、 和网页标题,可以将爬取的网页 URL 和网页标题包含到文件或者数据库中。5. 使用任意一种编程语言实现 Apriori 算法,并采用所写程序提取以下购物篮数据中的频繁项集和强关联规则(参数设置:最小支持度计数= 4,最小置信度= 0.6)。6. 使用任意一种编程语言实现 KNN 算法,并采用所写程序解决如下问题【K 值可根据经验规则确定】:的品质好坏可由两个变量决定,一个是“酸腐蚀的时间”,一个是“能承受的压强”。样本数据如下:耐酸时间(秒)圧强(公斤/平方米)品质事务 ID商品001面包,黄油,尿布,啤酒002咖啡,糖,小甜饼,鲑鱼,啤酒003面包,黄油,咖啡,尿布,啤酒,鸡蛋004面包,

5、黄油,鲑鱼,鸡005鸡蛋,面包,黄油006鲑鱼,尿布,啤酒007面包,茶,糖鸡蛋008咖啡,糖,蛋009面包,尿布,啤酒,盐010茶,鸡蛋,小甜饼,尿布,啤酒某未知样本:耐酸时间 = 3 秒,压强= 7 公斤/平方米,其品质如何?7. 使用任意一种编程语言实现K-means 算法,采用随机函数随机在二维平面上生成 100 个点,然后使用所写程序对这 100 个点进行聚类【可以采用 SSE(Sum of the Squared Errors, 误差平方和)来确定最佳聚类数,即确定 K 值】。8. 运用所学算法,结合选题设计并使用任意一种编程语言实现一个简单的商品或信息推荐模型。【注意:模型不一定

6、要很复杂,关键是要能够说明其合理性,鼓励大家创新。以下两种商品推荐模型(信息推荐模型思路相似)基本思想供参考,也可在此基础上进行改进: 分析用户的,找出他经常的商品的类型,然后在该类型中找出量或者量最大但是该买家之前并未的商品,并将这些商品推荐给该用户。 找出与该用户具有相似购物习惯的其他用户,例如他们曾经过一些相同的商品,然后将其他用户购买过但是该用户未曾的商品推荐给他。】三、实验要求1. 提供实施SEO 之后的术。静态首页界面和 HTML 代码,尽量多地使用所学 SEO 技2. 请尽量采用自己的语言来介绍两种中文分词工具的实现原理及相关算法,必要时可以结合程序流程图等图形化方式来阐述算法及

7、原理;针对指定文档,对两种工具的分词结果进行客观的比较和评价。3. 需提供 PageRank 算法的完整实现代码,并准确计算指定网页PageRank 值。4. 需提供简单主题爬虫的完整实现代码及实际运行结果。关系图中各页面的5. 需提供 Apriori 算法的完整实现代码,并准确提取指定购物篮数据中的频繁项集和强关联规则。.需提供 KNN 算法的完整实现代码,并合理解决指定分类问题。需提供 K-means 算法的完整实现代码,并合理对指定问题进行聚类分析。需提供简单商品或信息推荐模型的设计思想说明和完整实现代码。在实验过程中,严禁大面积拷贝互联网上已有资料和代码。四、实验步骤1.

8、 对实验二所设计的静态首页实施 SEO。77坏74坏34好14好2. 学习和研究两种不同的中文分词工具,理解它们的实现原理及相关算法,并使用这两种分词工具对指定文档进行分词,比较这两种分词工具的分词结果。3.4.5.规则。6.7.8.编程实现 PageRank 算法,并计算指定网页关系图中各页面的 PageRank 值。使用任意一种编程语言,设计并实现一个简单的主题爬虫。编程实现 Apriori 算法,并采用所写程序提取指定购物篮数据中的频繁项集和强关联编程实现 KNN 算法,并采用所写程序解决指定分类问题。编程实现 K-means 算法,并采用所写程序对平面上随机生成点的进行聚类分析。运用所

9、学算法,结合选题设计并实现一个简单的商品或信息推荐模型。五、实验结果1. 提供通过SEO 优化之后的所采用的 SEO 技术总结:首页静态效果图和完整的 HTML 源代码。<head><meta charset="utf-8"><meta http-equiv="patible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1">

10、<!- The above 3 meta tags *must* come first in the head; any other head content must come *after* these tags -><title>博学商城</title><!-font -><linkhref="/css?family=Montserrat:400,500,700" rel="stylesheet"><!- Bootstrap -><link type="text

11、/css" rel="stylesheet" href="css/bootstrap.min.css"/><!- Slick -><link type="text/css" rel="stylesheet" href="css/slick.css"/><link type="text/css" rel="stylesheet" href="css/slick-theme.css"/>&

12、lt;!- nouislider -><link type="text/css" rel="stylesheet" href="css/nouislider.min.css"/><!- Font Awesome Icon -><link rel="stylesheet" href="css/font-awesome.min.css"><!- Custom stlylesheet -><link type="text/css&q

13、uot; rel="stylesheet" href="css/style.css"/><!- HTML5 shim and Respond.js for IE8 support of HTML5 elements and media queries -><!- WARNING: Respond.js doesn't work if you view the page via file:/ -><!-if lt IE 9><script src="http/html5shiv/3.7.3/

14、html5shiv.min.js"></script><script src="http/respond/1.4.2/respond.min.js"></script><!endif-></head><body><!- HEADER -><header><!- TOP HEADER -><div id="top-header"><div class="container"><ul c

15、lass="header-links pull-left"><li><ahref="#"><iclass="fafa-phone"></i>+021-95-51-84</a></li><li><ahref="#"><iclass="fafa-envelope-o"></i></a></li><li><a href="#&

16、quot;><i class="fa fa-map-marker"></i> 1734 StonecoalRoad</a></li></ul><ul class="header-links pull-right"><li><a href="#"><i class="fa fa-dollar"></i> USD</a></li><li><a href=

17、"#"><i class="fa fa-user-o"></i> My Account</a></li></ul></div></div><!- /TOP HEADER -><!- MAIN HEADER -><div id="header"><!- container -><div class="container"><!- row -><div

18、class="row"><!- LOGO -><div class="col-md-3"><div class="header-logo"><a href="#" class="logo"><img src="./img/logo.png" alt=""></a></div></div><!- /LOGO -><!- SEARCH BAR

19、 -><div class="col-md-6"><div class="header-search"><form><select class="input-select"><option value="0">All Categories</option><option value="1">Category 01</option><option value="1">

20、;Category 02</option></select><input class="input" placeholder="Search here"><button class="search-btn">Search</button></form></div></div><!- /SEARCH BAR -><!- ACCOUNT -><div class="col-md-3 clearfix&qu

21、ot;><div class="header-ctn"><!- Wishlist -><div><a href="#"><i class="fa fa-heart-o"></i><span>Your Wishlist</span><div class="qty">2</div></a></div><!- /Wishlist -><!- Cart -&

22、gt;<div class="dropdown"><aclass="dropdown-toggle" data-toggle="dropdown" aria-expanded="true"><i class="fa fa-shopping-cart"></i><span>Your Cart</span><div class="qty">3</div></a><di

23、v class="cart-dropdown"><div class="cart-list"><div class="product-widget"><div class="product-img"><imgsrc="./img/book1.jpg"alt=""></div><div class="product-body"><h3class="product-n

24、ame"><ahref="#">product name goes here</a></h3><h4 class="product-price"><spanclass="qty">1x</span>$980.00</h4></div><button class="delete"><i class="fafa-close"></i></butto

25、n></div><div class="product-widget"><div class="product-img"><imgsrc="./img/book2.jpg"alt=""></div><div class="product-body"><h3class="product-name"><ahref="#">product name goes h

26、ere</a></h3><h4 class="product-price"><spanclass="qty">3x</span>$980.00</h4></div><button class="delete"><i class="fafa-close"></i></button></div></div><div class="cart-summa

27、ry"><small>3 Item(s) selected</small><h5>SUBTOTAL: $2940.00</h5></div><div class="cart-btns"><a href="#">View Cart</a><ahref="#">Checkout<iclass="fafa-arrow-circle-right"></i></a>&

28、lt;/div></div></div><!- /Cart -><!-Toogle -><div class="-toggle"><a href="#"><i class="fa fa-bars"></i>1)2)3)网页 title 优化的选取元以及网页描述的优化,meta的 description 和 robots4)5)网页结构和 URL 优化,采用三层目录,合理的 html 命名规范网页优化,采用锚文字,合理的 html 命名

29、规范6)Heading的优化,合理使用 H1<span></span></a></div><!- /Toogle -></div></div><!- /ACCOUNT -></div><!- row -></div><!- container -></div><!- /MAIN HEADER -></header><!- /HEADER ->7)图片优化,设置了 alt 并且合理使用 URL 文件命名8)

30、网页减肥,js 文件封装2. 所选取两种中文分词工具的名称,它们的实现原理及相关算法说明(可采用表格形式),使用这两种分词工具对朱自清的荷塘月色一文进行分词的结果及比较分析。这 几天 心里 颇 不 宁静 。 今晚 在 院子 里 坐 着 乘凉 , 忽然 想起 日日 走过 的荷塘 , 在 这 满月 的 光里 , 总该 另 有 一番 样子 吧 。 月亮 渐渐 地 升高 了 , 墙外 马路上 孩子 们 的 欢笑 , 已经 听不见 了 ; 妻在 屋里 拍 着 闰儿 , 迷迷糊糊 地 哼 着 眠 歌 。 我 悄悄地 披 了 大衫 , 带上 门 出去 。沿着 荷塘 , 是 一条 曲折 的 小 煤屑 路 。

31、这是 一条 幽僻 的 路 ; 白天 也 少人走 , 夜晚 更加 寂寞 。 荷塘 四面 , 长着 许多 树 , 蓊蓊郁郁 的 。 路 的 一旁 , 是 些 杨柳 , 和 一些 不 知道 名字 的 树 。 没有 月光 的 晚上 , 这 路上 阴森森的 , 有些 怕人 。 今晚 却 很 好 , 虽然 月光 也 还是 淡淡的 。路上 只 我 一个 人 , 背着手 踱 着 。 这 一片 天地 好像 是; 我 也 像 超出 了 平常 的 自己 , 到 了 另 一 世界 里 。 我 爱 热闹 , 也 爱 冷静 ; 爱 群居 , 也 爱 独处 。 像 今晚 上 , 一个 人 在 这 苍茫 的 月 下 , 什么

32、 都 可以 想 , 什么 都 可以 不想 , 便觉 是 个 自由 的 人 。 白天 里 一定 要 做 的 事 , 一定 要说 的话 , 现在 都 可 不理 。 这是 独处 的 妙处 , 我且 受用 这 无边 的 荷香 月JiebaSnownlp速度快慢准确性(粗略比较)高低其他功能具有搜索引擎的分词方式情感分析(现在训练数据主要是东西时的评价,所以对其他的一些可能效果不是很好,待解决)色 好 了 。曲曲折折 的 荷塘 上面 , 弥望 的 是 田田 的 叶子 。 叶子 出水 很 高 , 像 亭亭 的的 裙 。 层层 的 叶子 中间 , 零星 地 点缀着 些 白花 , 有 袅娜 地开 着 的 ,有

33、 羞涩 地 打着 朵儿 的 ; 正如 一粒 粒 的 明珠 , 又 如碧天 里 的 星星 , 又 如刚 出浴 的 美人 。 微风 过处 , 送来 缕缕 清香 , 仿佛 远处 高 楼上 渺茫 的 歌声似的 。这时候 叶子 与 花 也 有 一丝 的 颤动 ,像 闪电般 ,霎时 传 过 荷塘 的 那边 去 了 。叶子 本是 肩并肩 密密 地 挨着 ,这 便 宛然 有 了 一道 凝碧 的 波痕 。jieba 分词:叶子 底下 是 脉脉 的 流水 , 遮住 了 , 不能 见 一些 颜色 ; 而 叶子 却 更 见 风致 了 。月光 如 流水 一般 ,静静地 泻 在 这 一片 叶子 和 花 上 。薄薄的 青雾

34、 浮起 在 荷塘 里 。叶子 和 花 仿佛 在 牛 洗 过 一样 ;又 像 笼 着 轻纱 的 梦 。虽然 是满月 ,天上 却 有 一层 淡淡的 云 ,所以 不能 朗照 ;但 我 以为 这恰 是 到 了 好处 - - 酣眠 固 不可 少 , 小睡 也 别有风味 的 。 月光 是 隔 了 树 照过来 的 , 高处 丛生 的 灌木 , 落下 参差 的 斑驳 的 黑影 , 峭 楞楞 如鬼 一般 ; 弯弯的 杨柳的 稀疏 的 倩影 , 却 又 像是 画 在 荷叶 上 。 塘 中 的 月色 并 不 均匀 ; 但 光与影 有着 和谐 的 旋律 , 如 梵婀玲 上 奏 着 的 名曲 。荷塘 的 四面 , 远远

35、近近 , 高高低低 都 是 树 , 而 杨柳 最 多 。 这些 树 将 一片 荷塘 重重围住 ; 只 在 小路 一旁 , 漏着 几段 空隙 , 像是 特为 月光 留下 的 。树色 一例 是 阴阴的 ,乍看 像 一团 烟雾 ;但 杨柳 的 丰姿 ,便 在 烟雾 里 也 辨得出 。 树梢 上 隐隐约约 的 是 一带 远山 , 只 有些 大意 罢了 。 树 缝里 也 漏 着一两点 路 灯光 , 没精打采 的 , 是 渴睡 人 的 眼 。 这时候 最 热闹 的 , 要数 树上 的 蝉声 与 水里 的 蛙声 ; 但 热闹 是 它们 的 , 我 什么 也 没有 。忽然 想起 采莲 的 事情 来 了 。 采

36、莲 是 江南 的 旧俗 , 似乎 很 早就 有 , 而 六朝 时为 盛 ; 从 诗歌 里 可以 约略 知道 。 采莲 的 是 少年 的 女子 , 她们 是 荡着 小船 , 唱 着 艳歌 去 的 。 采莲人 不用说 很多 , 还有 看 采莲 的 人 。 那 是一个 热闹 的 季节 , 也 是 一个的 季节 。 梁元帝 采莲赋 里 说得好 : 于是 妖童媛 女 , 荡舟 心许 ; 鷁 首 徐回 , 兼 传羽杯 ; 欋 将 移而藻 挂 , 船欲动 而萍 开 。 尔 其 纤腰 束素 , 迁延 顾步 ; 夏始 春余 , 叶嫩 花初 , 恐沾裳而 浅笑 , 畏 倾船 而敛 裾 。可见 当时 嬉游 的 光景

37、 了 。 这 真是 有趣 的 事 , 可惜 我们 现在 早已 无福消受了 。于是 又 记起 西洲 曲 里 的 句子 :采莲 南塘 秋 , 莲花 过 人头 ; 低头 弄 莲子 , 莲子 清如水 。 今晚 若有 采莲人 , 这儿 的 莲花 也 算 得 ' 过 人头 ' 了 ; 只 不见 一些 流水 的, 是 不行 的 。这令 我 到底 惦着 江南 了 。 - - 这样 想着 , 猛一 抬头 , 不觉 已 是 自己 的 门前 ; 轻轻地 推 门 进去 , 什么 声息 也 没有 , 妻已 睡熟 好久 了 。Snownlp 分词这 几 天 心里 颇 不 宁静 。 今晚 在 院子 里 坐

38、着乘凉 , 忽然 想起 日日 走过 的荷塘 , 在 这 满月 的光 里 , 总 该 另 有 一番 样子 吧 。 月亮 渐渐 地 升高 了 , 墙 外 马路 上 孩子 们 的 欢笑 , 已经 听 不 见 了 ; 妻 在 屋里 拍 着闰 儿 , 迷迷糊 糊 地 哼 着眠 歌 。 我 悄悄 地 披 了 大衫 , 带 上门 出去 。沿着 荷塘 ,是 一 条 曲折 的 小 煤屑 路 。这 是 一 条 幽僻 的 路 ;白天 也少 人走 , 夜晚 更加 寂寞 。 荷塘 四面 , 长 着 许多 树 , 蓊蓊郁郁 的 。 路 的 一旁 , 是 些 杨 柳 , 和 一些 不 知道 名字 的 树 。 没有 月光 的

39、 晚上 , 这路 上 阴森森的 , 有些 怕 人 。 今晚 却 很 好 , 虽然 月光 也 还是 淡淡 的 。路上 只 我 一个 人 ,背 着 手 踱 着 。这 一 片 天地 好像 是;我 也 像 超出 了 平常 的 自己 , 到 了 另 一 世界 里 。 我 爱 热闹 , 也 爱 冷静 ; 爱 群居 , 也 爱 独处 。 像 今晚 上 , 一个 人 在 这 苍茫 的月 下 , 什么 都 可以 想 , 什么 都 可以 不 想 , 便觉 是 个 自由 的 人 。 白天 里 一定 要 做 的 事 , 一定 要说 的 话 , 现在 都 可不 理 。 这 是 独处 的 妙处 , 我且 受 用 这 无边

40、 的 荷 香月 色 好 了 。曲 曲折 折 的 荷塘 上面 , 弥望 的 是 田田 的 叶子 。 叶子 出 水 很 高 , 像 亭亭 的的裙 。层层 的 叶子 中间 ,零星 地 点缀 着些 白花 ,有 袅娜 地 开 着的 , 有 羞涩 地 打 着朵 儿 的 ; 正 如 一粒粒 的 明珠 , 又 如 碧天 里 的 星星 , 又 如 刚 出浴 的 美人 。 微 风过 处 , 送 来 缕缕 清香 , 仿佛 远处 高楼 上 渺茫的 歌声 似 的 。 这时候 叶子 与 花 也 有 一 丝 的 颤动 , 像 闪电 般 , 霎时 传过 荷塘 的 那 边 去 了 。 叶子 本 是 肩 并肩 密密地 挨着 ,

41、这 便 宛然 有 了 一道 凝 碧 的 波痕 。 叶子 底下 是 脉脉 的 流水 , 遮住 了 , 不 能 见 一些 颜色 ; 而 叶子 却 更 见 风 致 了 。月光 如 流水 一般 , 静静 地泻 在 这 一 片 叶子 和 花 上 。 薄薄的 青雾 浮 起 在荷塘 里 。叶子 和 花 仿佛 在 牛洗 过 一样 ;又 像 笼 着 轻 纱 的 梦 。虽然 是 满月 , 天上 却 有 一 层 淡淡 的 云 , 所以 不 能朗 照 ; 但 我 以为 这 恰是 到 了 好处 - 酣眠 固 不可少 , 小 睡 也 别 有 风味 的 。 月光 是 隔 了 树照过来 的 , 高处 丛生 的 灌木 , 落

42、下 参差 的 斑驳 的 黑 影 , 峭楞 楞 如 鬼 一般 ;弯弯 的 杨 柳 的 稀疏 的 倩影 ,却 又 像 是 画 在 荷 叶 上 。塘 中 的月 色并 不 均 匀 ; 但 光 与 影 有着 和谐 的 旋律 , 如 梵婀 玲 上 奏 着 的 名曲 。荷塘 的 四面 , 远远 近 近 , 高高 低 低 都 是 树 , 而 杨 柳 最 多 。 这些 树 将一 片 荷塘 重重 围住 ; 只 在 小路 一旁 , 漏 着 几段 空隙 , 像 是 特为 月光 留下 的 。 树 色 一 例 是 阴阴 的 , 乍 看 像 一 团 烟雾 ; 但 杨 柳 的 丰姿 , 便在 烟雾 里 也 辨 得出 。 树梢

43、 上 隐隐约约 的 是 一带 远 山 , 只 有 些大 意 罢了 。 树缝 里 也 漏 着 一两点路 灯光 , 没 精打 采 的 , 是 渴 睡人 的 眼 。 这时候 最 热闹 的 , 要 数 树上 的蝉 声 与水 里 的 蛙声 ; 但 热闹 是 它们 的 , 我什么 也 没有 。忽然 想起 采莲 的 事情 来 了 。 采莲 是 江南 的 旧俗 , 似乎 很 早 就 有 , 而 六朝 时 为 盛 ; 从 诗歌 里 可以 约 略 知道 。 采莲 的 是 少年 的 女子 , 她们 是荡 着 小船 , 唱 着艳 歌去 的 。 采莲人 不用 说 很多 , 还有 看 采莲 的 人 。 那是 一个 热闹

44、的 季节 , 也 是 一个 的 季节 。 梁 元帝 采莲 赋 里 说 得好 :于是 妖童 媛 女 , 荡 舟 心 许 ; 鷁 首 徐 回 , 兼 传 羽杯 ; 欋 将 移 而藻 挂 , 船欲动 而萍 开 。 尔 其纤 腰束 素 , 迁 延顾 步 ; 夏始 春 余 , 叶嫩 花 初 , 恐沾裳 而 浅笑 , 畏 倾 船 而敛 裾 。可见 当时 嬉游 的 光景 了 。 这 真是 有趣 的 事 , 可惜 我们 现在 早已 无 福 消受 了 。于是 又 记 起 西洲 曲 里 的 句子 :采莲 南塘 秋 , 莲花 过 人头 ; 低头 弄 莲子 , 莲子 清 如 水 。 今晚 若 有 采莲人 , 这儿 的

45、 莲花 也 算 得 ' 过 人头 ' 了 ; 只不见 一些 流水 的 , 是 不行的 。 这 令 我 到底 惦 着 江南 了 。- 这样 想 着 , 猛 一 抬头 , 不觉 已 是 自己 的 门前 ; 轻轻 地 推门 进去 , 什么 声息 也 没有 , 妻已 睡熟 好久 了 。import jiebafrom snownlp import SnowNLPdef loadFile(fileName):file = open(fileName,encoding="utf-8") text = for line in file.readlines(): text.

46、append(line.replace("n","")file.close() return textdef dealWithJieba(text): newText = for line in text:line = jieba._lcut(line) newText.append(line)3. PageRank 算法的完整实现代码,指定网页结果。1)PR(A)=0.048166 PR(B)=0.064118 PR(C)=0.043647PR(D)=0.119851关系图中各页面的 PageRank 值的计算return newText;def de

47、alWithSnowlp(text): newText = for line in text:s = SnowNLP(line) newText.append(s.words)return newText;if name= ' main ': fileName = "text.txt"text = loadFile(fileName) jiebaWords = dealWithJieba(text) print(jiebaWords)snownlpWords = dealWithSnowlp(text) print(snownlpWords)file1 =

48、open("jiebaText.txt","a+",encoding="utf-8") for line in jiebaWords:for words in line: file1.write(words+" ")file1.write("n") file1.close()file2 = open("snownlpTest.txt","a+",encoding="utf-8") for line in snownlpWords:for

49、 words in line: file2.write(words + " ")file2.write("n")file2.close()package .csu;public class PageRank public static void main(String args) / 定义阻尼系数double damp = 0.85;/linkij表示j节点指向i节点int link = 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0;dou

50、ble init_pr =1,1,1,1;double pr=pagerank(link, init_pr, damp);System.out.println("第一次迭代");for (double d : pr) System.out.println(d);boolean flag = false; int max_iteration = 100; double pr0 = null;while(!flag | max_iteration>0) pr0=pagerank(link, pr, damp);for(int i=0;i<pr.length;i+)i

51、f(pri!=pr0i) break;if(i=pr.length-1) flag=true;for(int i=0;i<pr.length;i+) pri=pr0i;System.out.println("第"+(102-max_iteration)+"迭代");for (double d : pr) System.out.println(d);max_iteration-;/* 计算pagerank的函数* param link 页面的图* param damp 设置的阻尼系数* param linkout 每个页面的总数*/public st

52、atic double pagerank(int link, doubleinit_pr,double damp) / 各点的总链出数量int linkOut = new intlink.length; for (int i = 0; i < link.length; i+) for (int j = 0; j < link.length; j+) linkOuti += linkji;/ 定义一个初始数组并初始化,设所有的页面初始PR值都为1;double pr = new doublelink.length;/for(int i=0;i<link.length;i+)/p

53、ri=1.0;/计算PR(pj)/L(pj)矩阵4. 简单主题爬虫的完整实现代码及实际爬取结果(需提供至少 10 个所抓取网页的 URL和标题)。double m = new doublelink.length; for(int i=0;i<link.length;i+)for(int j=0;j<link.length;j+) mi=new doublelink.length;for(int i = 0;i<link.length;i+)for(int j=0;j<link.length;j+)if(linkij=1)mij=init_prj/linkOutj*dam

54、p;/计算pr值for(int i=0;i<m.length;i+)for(int j=0;j<m.length;j+) pri+=mij;pri+=(1-damp)/link.length;boolean flag = false;for(int i =0;i<link.length;i+)if(pri!=init_pri) flag = true; break;return pr;import requestsfrom bs4 import BeautifulSoup import re#爬取豆瓣所有的分类页面,并且提供每一个页面的 URLdef getTitle(url

55、):responds =requests.get(url) responds.encoding = 'utf-8'# html 为获得响应的页面内容html = responds.text #页面soup = BeautifulSoup(html, "lxml")# 选取页面中的需要的 a,从而提取出其中的所有if soup.title is not None: title = soup.title.stringelse:title="" return titledef provide_url():# 以http 的get 方式请求豆瓣页

56、面(豆瓣的分类页面)responds = requests.get("http/") # html 为获得响应的页面内容5. Apriori 算法的完整实现代码,指定购物篮数据中的频繁项集和强关联规则(按照置信度由高到低排序)。html = responds.text #页面soup = BeautifulSoup(html, "lxml")result = count = 15for div in soup.find_all('div',id='main'): for a in div.find_all('a&#

57、39;):url = a.get("href")if url is None or len(url) < 4 or url0:4 != "http": continueprint(url) title=""title=getTitle(url)if title is None or title = "": continueprint(title)s = "标题:" + title + " " + url result.append(s)count=count -1 if

58、 count = 0:breakreturn resultif name= ' main ': result = provide_url()file = open("url",'a+',encoding="utf-8") for line in result:file.writelines(line)file.close()package .csu;import java.awt.List; import java.util.ArrayList; import java.util.HashMap; impor

59、t java.util.Map; import java.util.Set;public class Apriori private String ITEM_SPLIT = ""private int SUPPORT = 4;/ 支持度阈值private double CONFIDENCE = 0.6; / 置信度阈值private String CON = "->" / 项之间的分隔符public String getITEM_SPLIT() return ITEM_SPLIT;public void setITEM_SPLIT(String i

60、TEM_SPLIT) ITEM_SPLIT = iTEM_SPLIT;public int getSUPPORT() return SUPPORT;public void setSUPPORT(int sUPPORT) SUPPORT = sUPPORT;public double getCONFIDENCE() return CONFIDENCE;public void setCONFIDENCE(double cONFIDENCE) CONFIDENCE = cONFIDENCE;public String getCON() return CON;public void setCON(St

61、ring cON) CON = cON;public Apriori() / TODO Auto-generated constructor stub/* * 算法主程序 * param dataList * return */public Map<String, Integer> apriori(ArrayList<String> dataList) Map<String, Integer> stepFrequentSetMap = new HashMap<>();/获得频繁1项集stepFrequentSetMap.putAll(findFr

62、equentOneSets(dataList);Map<String, Integer> frequentSetMap = new HashMap<String, Integer>();/ 频繁项集frequentSetMap.putAll(stepFrequentSetMap);while (stepFrequentSetMap != null && stepFrequentSetMap.size() > 0) /根据上一项集找出候选集Map<String, Integer> candidateSetMap = aprioriGen(stepFrequentSetMap);/获取项集Set&

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论