下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 题目1.(数据结构与算法)列举至少 2 种排序算法(如快排),并写出实现代码。2.(数据结构与算法)已知一随机发生器,产生 0 的概率是 P,产生 1 的概率是 1-P。现在需要构造一个发生器,使得它构造 0 和 1 的概率均为 1/2,请写出思路或伪代码 。 3.(机器学习理论)请列举生成模型与判别模型的区别。4.(机器学习理论)请列举分类模型和回归模型的区别。5.(机器学习理论)请描述决策树的原理、过程、终止条件,以及如何防止过拟合。6.(机器学习理论)请描述 K-means 的原理,说明选择聚类中心的方法。7.(机器学习理论)请描述推荐系统中协同过滤算法的原理。参考答案1. 冒泡排序这
2、里需要注意的是,aj和 aj+1互换时,要考虑 j+1 的下标溢出,所以最终 j 只能小 于 n+1。 快速排序刺猬实习1. /一趟快速排序 1. /冒泡排序 2. public void bubbleSort(int a) 3.4. int n = a.length;5. for (int i = 0; i n; i+) 6.for (int j = 0; j aj + 1) 8.int t = aj;9.aj = aj + 1;10.aj + 1 = t;4. 刺猬实习2.public int PartSort(int i, int j ,int a) 3.4. int
3、 r = ai;5. while (i = r &ij)7.j-;8. /加了 if 其实是 降低了效率的,这里加 if 其实是为了 i+这个语句 9. /可做如下优化 10./*11. * 因为 aj=r 是,也会-,避免了 if 的判断。 12. if (ij)13.14.ai=aj;15.i+;16.17.*/18.ai=aj;19. System.out.println(hi:+i+,j:+j);20. /这里不用判断的原因是因为就算 ai=r 了,i 也会+.21. while(ai = r &ij)22.i+;23./*24. * 优化同上 25. if(i=j)44. retur
4、n; 2. 这道题想等概率产生 0、1,就需要找到两个独立,这个两个独立发生的概率相同,已知随机数生成器可以以 p 产生 0,以 1-p 产生 1,所以有下面 4 个独立,用随机数生成器产生 00,01,10,11,各自的概率分别为 p*p,p*(1-p),(1-p)*p,(1-p)*(1-p) 可以发现生成 01,10 的概率相同,因此只保留这两种情况敏感词舍弃,然后将 01 映射为 0,10 映射为 1,则等概率 0,1 随机数生成器可得到。 3.生成模型是通过数据学习联合概率分布 P(x,y),然后求出条件概率分布 P(Y|X),作为预测的模型,即生成模型为:P(Y|X)=P(X,Y)/
5、P(X)生成模型的特点:生成模型可以还原联合概率分布,而判别模型不行;生成模型的收敛速度更快,即当样本容量增大时,生成模型能更快的收敛到真实模型;当存在隐变量时,只能用生成模型。 常见的生成模型有朴素贝叶斯,隐马尔科夫链。 判别模型是通过数据直接学习判别函数 Y=f(X)或者条件概率作为预测模型。判别模型的特点:判别模型直接学习的还是判别函数或者条件概率分布,直接面对预测, 往往学习的准确率要高;判别模型由于直接学习条件概率或决策函数,可以对数据进行各种程度上的抽象/定义特征并使用特征,因此可以简化学习问题。 常见的判别模型有 SVM,逻辑回归等。 4.分类和回归的区别在于输出变量的类型。定量
6、输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。5.决策树原理:刺猬实习45. System.out.println(qi:+i+,j:+j);46. int r = PartSort(i,j,a);47. System.out.println(r:+r);48. for(int k=0;ka.length;k+)49. System.out.print(ak);50. System.out.println();51. quickSort(i,r-1,a);52. quickSort(r+1,j,a);53. 从根节点开始,对实例的某一特征进行测试,根据测试结果,将
7、实例分配其子节点;每个子节点对应着特征的一个取值,如此递归的对实例进行测试并分配,直到达到叶节点,最后将实例分到叶节点的类中。 过程:特征选择、树的生成和树的剪枝终止条件:节点中的样本个数小于预定阈值,或样本集的基尼指数小于(信息增益或信息增益比大于)预定值,或者没有更多特征 如何防止过拟合:剪枝6. K-Means 算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为 K 个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大 输入:样本集 D=x1, x2, x3,xm,聚类簇数 k输出:簇划分 C=C1,C2,Ck从 D 中随机选取 k 个样本作为初始向量;repeat:初始化所有 Ci 为空集;对于样本集里每个样本 x:计算 x 与 k 个初始向量的距离,选择距离最小的初始向量的簇标记 j 作为 x 的簇标记,将x 加入 Cj 中; 对于每个簇:计算新的均值向量,如果新的均值向量与上一步的不同,则更新;否则保持当前均值向量不变; until 当前均值向量均未更新 7. 刺猬实习 协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-bas
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北师大版七年级生物上册重点图解专项训练课件
- 真菌性角膜溃疡病因介绍
- 甲状腺瘤病因介绍
- 牙齿外伤病因介绍
- 深海恐惧症病因介绍
- 泌尿生殖系棘球蚴病病因介绍
- (高考英语作文炼句)第10篇译文老师笔记
- (高考英语作文炼句)第45篇译文老师笔记
- 开题报告:智能技术赋能职业教育增值评价研究
- 开题报告:长聘制度对大学教师高水平科研创新的影响及完善对策研究
- 基坑支护方案带计算书
- 福建省福州市各县区乡镇行政村村庄村名明细及行政区划代码
- 六年级上册美术课件 -第13课 传统杂技|广西版 (共13张PPT)
- 污水处理厂设备清单
- 蓄水池单元工程质量评定表
- 建筑公司组织架构(中小型)
- 担保公司固定资产管理制度
- SCS2D软件中文使用说明
- 三菱变频器e700中文手册
- 设备维护保养年度计划表汇编
- 功能说明书-sap与立体仓库接口开发-出入库单据
评论
0/150
提交评论