LIBSVM程序学习笔记_第1页
LIBSVM程序学习笔记_第2页
LIBSVM程序学习笔记_第3页
LIBSVM程序学习笔记_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LIBSVM程序学习笔记关键词:LIBSVM SVM 回归 python在用林智仁老师的LIBSVM-2.82做SVM回归的过程中,深深得益于 网上共享的学习笔记以及一些热心网友的帮助 (哪怕只是一句提醒), 前面想着一定要写个学习笔记。自己会用了之后,突然发现原来值得 讲出来的实在很少,甚至不想再写什么。想到自己花大概两个月才把 一个程序跑明白,觉得还是因为其中有些让自己头疼的问题的,想必其他学习者未尝不需要多花功夫琢磨这些,未免浪费时间(技术问题嘛),还是写一个简单的学习笔记,把自己觉得最要弄明白的难点记 下来吧。装microsoft Visualstudio 6.0 (是装python需

2、要的,可能是需要 c语言的环境吧)装 gnuplot :gp400win32装 python试运行程序中遇到的问题读PYTHON写的GRID.PY程序问题1:程序的路径指定问题 在程序的相关语句中指出调用的程序 的路径 注意类似:D:programm filesgnuplot.exe 这样的路径会报错,因为程序在读语 句时在programm后面断句,而不是把programm files整体当作一 个路径问题2 :命令行运行PYTHON以及输入参数E:libsvm-2.82toolspythongridregcopy.py,首先进入到 PYTHON程序的上一级路径 然后用python接程序名称以

3、及参数当时的问题是怎么也弄不明白 PYTHON程序自带的几个操作窗口都 不能进行程序的运行。呵呵,好像都只是脚本编辑器(反正我能用命 令行运行就可以了 一一何况加一个!就可以在MATLAB中执行)。 另外关于参数,读原程序怎么也不懂,看了魏忠的学习笔记才明白的: OS.ARGV可以在命令行输入,作为 OS.ARGV列表的值。但是注意OS.ARGV 0默认的就是所执行的程序本身,也就是除了输入的N个参数,OS. ARGV列表实际上有N+1个值,其中输入的第一个参数就是 OS.AR GV1,也就是它的第二个参数。问题3:参数选择程序跑不动提示:worker local quit晕了几天后面终于明白

4、不是程序有问题,是因为数据量太大,程序直接溢出的缘故:注意有一个参数-M用来选择缓存的大小subset这个程序仍然运行不了 一一不知道自己的数据和程序包里给 出的例子有什么区别。不过我的s数据量小,这个不能用不碍事。注意:testing data/training data(不同文件) 需要一起 scale。也就是要把测试集和训练集在一个框架下进行归一化处理,很容易想见的道理(可是容易忽略)。n-fold cross validationn就是要拆成几组,像 n=3就会拆成三組,然后先拿1和2来trai n model并predict 3以得到正确率; 再来拿2和3 train并predi c

5、t 1,最后用1和3 train并predict 2。其它以此类推。一般数据选5-或 10 fold cross validation 就可以。不过n越大,数据浪费的就越少(用于训练集的信息就多),但是运 算量增加,极端的就是n等于数据的个数(叫做LEAVE-ONE OUT)。回归的参数选择程序:paiup的笔记里面说GRID程序只能用于分类 的参数选择,不过还好林智仁老师开发了专门用于回归的参数选择程 序。GRID程序的原理很简单:就是把要选择的参数当作一个坐标格子上的点,选择的过程就是遍历空间(当然可以有一定的范围)中的各个方向的参数组合的空间点。 如果 是两个参数,就是在二维的平面中找到

6、一个合适的点 (这种离散的选 择参数的方法,应该只是找到一个比较好的收敛的参数吧)。至于GRID选择参数,在我做的回归里头还是相当要紧的。选好了参数R2会是0.99,但是参数(C,g,p)参数稍微变动一下,可能使 R2 降低到0.2。而参数v,即用来做cross validation的数据组数对参数 的选择影响并不太大一一就是说v选为5和10并不会导致最后选到 的参数大相径庭。关于训练集合测试集合的进一步讨论:N-CROSS VALIADATION 方法:找到使平均预测误差最小的模型参数。是基于训练集合数据之间是独立,没有关联性的当数据有冗余时(数据之间有关联),N-CROSS VALIADA TION的处理方法会让某些关系被放大 ,导 致偏差较大的结论所以,在基于数据之间有关联的情况下,应该找到用尽量少的数据作为训练集合,得到不损失信息的模型(可惜偶们的生物学数据已经够少,偶担心信息量不够)N-CROSS VALIAD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论