版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、广西民族师范学院数学与计算机科学系(部、中心)数据分析课程教案 课程代码:0410422501_ 总学时周学时: 51/3 开课时间:2015年8月31日第1周至第 17周 授课年级、专业、班级:信息本131 使用教材: MATLAB数据分析方法李柏年著 教研室: 基础数学教研室 授课教师:黄恒秋 一、课程教学计划表(宋体小四)章 次内 容讲 授实 践绪论数据分析概述00一MATLAB基础(四个综合案例)54二描述性分析51三回归分析54四判别分析54五主成分分析24六聚类分析(K-均值聚类)24七神经网络24总学时2625 二、教案正文(标题宋体小四)绪论(一) 教学目的:使学生对数据分析有
2、初步的认识、了解数据分析的市场需求与发展形势、了解数据分析所需掌握的技能以及职业发展规划与学习途径。(二)教学重、难点:1重点;2难点;(三)教学方法、手段:(供参考)教师讲授( ),课堂讨论( ),多媒体教学( ü ),当堂测验( ),提问式教学( ),实验( )。 内容见数据分析概述PPT第一章 MATLAB基础复习(一)教学目的:通过4个案例,复习MATLAB的基础知识及编程技能。(二)教学重、难点:1重点;MATLAB基本数据结构与编程技能。2难点;MATLAB编程技能。(三)教学方法、手段:(供参考)教师讲授( ),课堂讨论( ),多媒体教学( ü ),当堂测验(
3、 ),提问式教学( ),实验( )。第1节 基础案例一、 矩阵的应用已知矩阵A=1 2 3 4;5 6 7 8;9 10 11 12;13 14 15 16;编写一个程序脚本或函数,命名为test1,其任务包括:1)定义矩阵A2)分别求矩阵A第1列和第4列元素值之和。3)分别求矩阵A第2行和第3行元素值之和。% 1) 定义矩阵A A=1 2 3 4;5 6 7 8;9 10 11 12;13 14 15 16; % 2)分别求矩阵A第1列和第4列元素之和 sum_c2=sum(A(:,1); sum_c4=sum(A(:,4); % 3)分别求矩阵A第2行和第3行元素之和 sum_r1=sum
4、(A(2,:); sum_r2=sum(A(3,:);二、 元胞数组的应用 以下为一个元胞数组矩阵的输出结果:B = '考勤日期' '实到人数' '班级人数' '2013-01-01' 39 40 '2013-01-02' 38 40 '2013-01-03' 37 40编写一个程序脚本或函数,命名为test2,其任务如下:1)定义矩阵B2)根据矩阵B,计算出勤率(实到人数/班级人数),并获得出勤率矩阵C,其输出结果参考如下所示:C = '考勤日期' '出勤率'
5、39;2013-01-01' 0.9750 '2013-01-02' 0.9500 '2013-01-03' 0.9250 % 定义矩阵BB='考勤日期','实到人数','班级人数''2013-01-01',39,40;'2013-01-02',38,40;'2013-01-03',37,40;% 定义矩阵C及计算出勤率C=cell(4,2);C1,1='考勤日期'C1,2='出勤率'for i=2:4 Ci,1=Bi,1; C
6、i,2=Bi,2/Bi,3;end三、 图像绘制以下2008年1月份前半个月的牛肉价格和猪肉价格数据的Excel文件截图编写一个函数,命名为test3,输入参数为文件名称变量filename,输出结果为对应文件中价格的平均值mean_price,同时绘制一个按日期从小到大排序的价格走势图。比如,分别输入“2008年1月前半个月的牛肉价格数据.xlsx”和“2008年1月前半个月的猪肉价格数据.xlsx”这两个文件,则输出对应的结果如下所示。function mean_price=test3(filename)% 输入:Excel文件名称% 输出:平均价格% 加载原始数据,并去掉首行后按日期排序
7、,rawdata=xlsread(filename);rawdata=sortrows(rawdata(2:end,:),1);% 获取价格序列,并计算平均值Y=cell2mat(rawdata(:,2);mean_price=mean(Y);% 绘图X=1:length(Y);plot(X',Y);end 第2节 提高案例一、 试卷难度指数的计算今有一个班级某科目考试成绩的记录,试卷分5道大题:选择(满10分)、填空(满15分)、判断(满5分)、计算(满49分)、应用(满21分)。电子表格中记录了该班级所有同学每道大题的得分,如下:任务为计算每道大题的难度指数(平均得分/总分)和试卷
8、的平均难度指数(每道大题的难度指数的平均值)。function avg,C=cofin(name)% 预定义数组,用于存放各题难度指数和平均难度指数C=0 0 0 0 0 0;% 各题总分B=10,15,5,49,21;% 提取数据data=xlsread(name);A=data(:,4:8);% 计算各题得分均值avg=sum(A,1)/length(A(:,1);% 计算各题难度指数for i=1:5C(i)=avg(i)/B(i);end% 计算平均难度指数C(6)=mean(C(1,1:5);end调用函数计算>>avg,C=cofin('难度指数计算.xls
9、39;)二、 销售数据统计三个产品(产品ID分别用1、2、3来表示)2008年四个季度的销售量和销售金额数据,存放在文件名为salesdata的Excel文件中,数据截图如下编写一个无返回值的函数,命名为test4,任务如下:分别统计计算每个产品2008年的销售量总和及销售金额总和,并将统计结果整理,输出到Excel文件中,命名为test4_result.xlsx,其输出结果如下。function test4()% 评分说明:程序实现方法多种多样,以下程序仅供参考% 加载数据及处理data=xlsread('salesdata.xlsx');data=data(:,1),dat
10、a(:,3),data(:,4);% 定义统计数据矩阵及进行统计stat_data=zeros(3,4);for i=1:3 stat_data(i,1)=i; stat_data(i,2)=2008; stat_data(i,3)=sum(data(data(:,1)=i,2); stat_data(i,4)=sum(data(data(:,1)=i,3);end% 结果整理及输出field='产品ID','统计区间','销售量总和','销售金额总和'stat_data=vertcat(field,num2cell(stat_d
11、ata);xlswrite('test4_result.xlsx',stat_data)end调用函数计算>> test4() 实验案例今有某班级的学生考勤登记表(1表示到勤、0表示缺勤)、课堂表现登记表(百分制)、平时作业登记表(A:100;A-:90;B+:80;B:70;B-:65;C:60,空缺记0分)、期末考试成绩表。规则如下:1) 考勤5次,满分100分,缺勤一次扣20分。2) 平时作业3次,作业成绩3次取平均值3) 平时成绩=0.5*作业成绩+0.3*考勤成绩+0.2*课堂表现成绩4) 期评成绩=0.7*期末考试成绩+0.3*平时成绩。5) 如果期末成
12、绩小于50分,平时成绩等于期末考试成绩,直接进入补考行列。请根据记录的数据,给出该班级每位同学的平时成绩和期评成绩。function test(name,num,c)% name-Excel文件名称% num-班级人数% c-作业次数% 作业处理,rawdata=xlsread(name,'平时作业记分表');zuoye=rawdata(5:5+(num-1),4 5 6 7 8);A=zeros(length(zuoye(:,1),5);for i=1:length(zuoye(:,1) for j=1:5 if strcmp(zuoyei,j,'A') A(
13、i,j)=100; elseif strcmp(zuoyei,j,'A-') A(i,j)=90; elseif strcmp(zuoyei,j,'B+') A(i,j)=80; elseif strcmp(zuoyei,j,'B') A(i,j)=70; elseif strcmp(zuoyei,j,'B-') A(i,j)=65; elseif strcmp(zuoyei,j,'C') A(i,j)=60; else A(i,j)=0; end endenddat=xlsread(name,'学生考勤登
14、记表');kaoqin=dat(1:num,6 10 15 18 21);kaoqin=sum(kaoqin,2);dat=xlsread(name,'课堂表现记分表');ketang=dat(1:num,4);C1=sum(A(1:num,:),2)/c;%作业C2=100*(kaoqin/5);%考勤C3=ketang;%课堂表现F1=0.5*C1+0.3*C2+0.2*C3;%平时成绩dat=xlsread(name,'期末考试成绩');F2=dat(1:num,4);%考试成绩F=0.3*F1+0.7*F2;%期评总成绩total=F1,F2,F
15、;total=roundn(total,-1);for i=1:length(total(:,1) if total(i,2)<50 total(i,1)=total(i,2); total(i,3)=total(i,2); endendind=length(F);range=horzcat('D',num2str(2),':F',num2str(ind+1);xlswrite('期评成绩汇总.xls',total,1,range);end调用函数计算>> test('期评成绩计算数据.xls',34,3);第二
16、章 描述性分析(一)教学目的:要求学生掌握基本统计量分析的概念,包括均值、中位数、分位数、三均值、方差、标准差与变异系数、样本极差与四分位数极差、偏度与峰度;要求学生掌握基本的可视化图形实现,包括散点图、柱状图、饼图、直方图、子图;要求学生掌握总体分布的正态性检验方法,包括样本QQ图、Lilliefors检验;要求学生掌握基本的多维数据数字特征,包括样本均值向量、样本协方差矩阵、样本相关系数矩阵。要求学生掌握基本的数据变换方法,包括极差变换与标准化变换。(二)教学重、难点:1重点;基本统计量中的均值、中位数、分位数、方差、标准差与变异系数、偏度与峰度;可视化图形中的散点图、柱状图、饼图、直方图
17、、子图;正态性检验方法中的样本QQ图、Lilliefors检验;多维数据数字特征的样本均值向量、样本协方差矩阵、样本相关系数矩阵。数据变换方法中的极差变换与标准化变换。2难点;偏度与峰度的理解。(三)教学方法、手段:(供参考)教师讲授( ),课堂讨论( ),多媒体教学( ü ),当堂测验( ),提问式教学( ),实验( )。第1节 基本统计量与数据可视化一、 样本数据的基本统计量(一) 均值、中位数、分位数、三均值 1. 理论介绍(1) 均值公式: (2) 中位数公式:(3) p分位数公式:(4) 三均值公式 2.程序例子:例2.1.1(二)方差、标准差与变异系数 1.理论介绍(1)
18、方差公式(2)标准差公式(3)变异系数公式 2. 程序例子:例2.1.1 (三)极差、四分位数极差与异常点判别 1.理论介绍 (1)极差计算公式,(已大小排序)(2)四分位数极差R1=Q3-Q1。 (3)上截断点:Q1+1.5*R1 (4)下截断点:Q3-1.5*R1 2.程序例子:例2.1.3(四)偏度与峰度 1. 理论介绍(1)偏度公式 (2)峰度公式 2. 程序例子:例2.1.4二、样本数据可视化(一)理论介绍1.散点图plot2.柱状图bar3.饼图pie34.直方图hist5.子图subplot(二)程序实现 补充程序例子第2节 数据分布及检验(正态分布)一、 样本QQ图 设总体服从
19、正态分布,来自总体的样本为x1,x2,xn,其次序统计量,则平面上n个点的散点图称为样本QQ图 二、Lillifors正态分布检验lillietest 三、程序例子 补充程序例子 第3节 多维数据特征与数据变换一、 多维数据特征(一)理论介绍1.样本均值向量公式2.样本协方差矩阵3.样本相关系数矩阵 (二)程序实现function S,R,Z=SRZ()X=xlsread('data.xls'); %获取Excel中的数值数据S=cov(X); % 计算样本协方差矩阵R=corrcoef(X); % 计算样本相关系数矩阵Z=zscore(X); % 计算样本标准化矩阵end二、
20、数据变换(一)理论介绍(板书)1.极差变换2.标准化变换 (二)、程序实现(补充例子)function Y,Z,Z1,Data=change()Data,=xlsread('data.xls');% 读取数值数据Y=zeros(size(Data); % 预定义极差变换矩阵Z=zeros(size(Data);% 预定义标准化变换矩阵for j=1:length(Data(1,:);% 循环对每列进行计算 Y(:,j)=(Data(:,j)-min(Data(:,j)/range(Data(:,j);% 极差 Z(:,j)=(Data(:,j)-mean(Data(:,j)/s
21、td(Data(:,j);% 标准化endZ1=zscore(Data);% 标准化变换命令,等价于Zend第三章 回归分析(一)教学目的:要求学生掌握一元线性回归模型、多元线性回归模型的基本概念及程序实现。(二)教学重、难点:1重点;一元线性回归模型、多元线性回归模型的基本概念及程序实现。2难点;理解回归模型的显著性检验相关概念及原理。(三)教学方法、手段:(供参考)教师讲授( ),课堂讨论( ),多媒体教学( ü ),当堂测验( ),提问式教学( ),实验( )。第1节 一元回归模型一、 一元线性回归模型引例:1)一则新闻中,国家旅游局长表示,到2020年中国旅游业总收入将超过3
22、000亿美元。他是如何做出这样的预测的呢? 旅游总收入(Y) 居民平均收入(X1) 2)子女的身高(Y) 父母的身高(X)变量之间的相互关系,主要有三种:1)确定的函数关系 Y=f(X)2)不确定的统计相关关系 3)没有关系 不用分析以上两种例子都属于第2种情况。(一) 一元线性回归模型的基本概念1.回归模型Y因变量(随机变量),x为自变量(确定的变量),为模型系数,。每给定一个x,得到Y的一个分布。2.回归方程(两边取数学期望) 每给定一个x,便有Y的一个数学期望值与之对应,他们是一个函数关系。 一般地,通过样本观测数据,可以估计出以上回归方程的参数,其一般形式为: 其中为对期望值及两个参数
23、的估计。 3.回归方程的参数估计对总体(x,Y)进行n次独立观测,获得n组数据(称为样本观测值) (x1,y1),(x2,y2),(xn,yn) (画出一个散点图和一条拟合直线进行解释) 如何对这些观测值给出最合适的拟合直线呢?最小二乘法,其基本思想是真实观测值与预测值(均值)总的偏差平方和最小,即 求解以上最优化问题,即得到: 其中于是建立经验公式模型 例3.1.1 除此之外,我们还可以使用多项式拟合的方式进行估计 x=23.80,27.60,31.60,32.40,33.70,34.90,43.20,52.80,63.80,73.40;y=41.4,51.8,61.70,67.90,68.
24、70,77.50,95.90,137.40,155.0,175.0;% 作散点图figure('name','散点图')plot(x,y,'*') xlabel('x(职工工资总额)') ylabel('y(商品零售总额)') % 计算最佳参数Lxx=sum(x-mean(x).2);Lxy=sum(x-mean(x).* (y-mean(y);b1=Lxy/Lxx;b0=mean(y)-b1*mean(x);disp('回归方程y=b1*x+b0的参数估计')disp('b1=')
25、disp(b1)disp('b0=')disp(b0)%多项式回归拟合命令应用于求解线性回归拟合。p,s=polyfit(x,y,1); %注意取n=1y1=polyval(p,x);x0=75;y0=polyval(p,x0);Y,delta=polyconf(p,x0,s,0.05);I=Y-delta,Y+delta;figure('name','拟合图')plot(x,y,'k*',x,y1,'r-');disp('对x0=75进行预测')disp('y0=')disp(y0
26、)disp('对x0=75的预测的置信区间')disp('I=')disp(I) 4. 回归直线的拟合优度 总离差平方和 回归平方和 残差平方和 可以证明: 取不同的值,必然不同,故RSS是由于Y与X有显著线性关系时,x取值不同而引起Y的变化。ESS是由于Y与X可能不是具有明显的线性关系及其他方面的因素产生的误差。 如果RSS远远大于ESS,说明是什么?说明是回归的线性关系显著,可以用一个指标公式来计算 判决系数(可决系数),值越大,直线拟合越好 5. 显著性检验 (1)线性关系的检验 第1步:提出假设 两个变量之间的线性关系不显著 1为模型的自由度(模型的自变
27、量个数) 误差的自由度(为样本个数) 两个变量之间的线性关系显著 第2步:计算检验统计量 第3步:作出决策 如果,拒绝原假设,表明两个变量之间线性关系是显著的。 如果,不拒绝原假设,没有证据表明两个变量之间线性关系是显著的。 (2)回归系数的检验 第1步:提出假设 第2步:计算检验统计量 第3步:作出决策 如果,拒绝原假设,表明两个变量之间存在显著的线性关系。 如果,不拒绝原假设,表明两个变量之间不存在显著的线性关系。 6.残差正态性检验 QQ图及lillietest检验 7.预测 (1)点估计 (2)区间估计(二)、一元线性回归建模实例通过例3.1.7讲解完整的一元回归建模流程。最后总结一般
28、的建模流程如下:1. 作散点图(plot命令)初步观察,散点图存在大致的线性关系2. 建立线性回归方程(ployfit命令计算回归系数和ployval命令计算函数值)3. 误差估计与可决系数分析4. 回归方程关系显著性F检验5. 回归关系显著性t检验6. 残差分析7. 预测% 1.绘制散点图,观察数据分布x=80 86 98 90 120 102 95 83 113 105 110 100' y=2350 2400 2720 2500 31502680 2630 2400 3080 2920 2960 2860'figure('name','散点图及拟合
29、图')plot(x,y,'*') xlabel('x(雏鹅重)') ylabel('y(70日龄重)') % 2.建立直线回归方程n= size(x,1); p,s=polyfit(x,y,1); y1=polyval(p,x); hold onplot(x,y1,'r-') disp('-')disp('回归系数为:')disp(p) % 3.计算拟合优度TSS=sum(y-mean(y).2); %总离差平方和RSS=sum(y1-mean(y).2);%回归平方和ESS=sum(y-y
30、1).2) ; %残差平方和R2=RSS/TSS; %决定系数R2.disp('-')disp('决定系数为:')disp('R2=')disp(R2)% 4.线性关系显著性检验F=(n-2)*RSS/ESS; %计算的F统计量F1=finv(0.95,1,n-2); %查F统计量0.05的分位数F2=finv(0.99,1,n-2); %查F统计量0.01的分位数disp('-')disp('统计量F=')disp(F)disp('0.05分位数F1=')disp(F1)disp('0.0
31、1分位数F2=')disp(F2)% 5.回归系数显著性的检验T=p(2)/sqrt(ESS/(n-2)*sqrt(sum(x-mean(x).2) ;%计算T统计量T1=tinv(0.95,n-2); %t统计量0.05的分位数T2=tinv(0.99,n-2); %t统计量0.01的分位数disp('-')disp('统计量T=')disp(T)disp('0.05分位数T1=')disp(T1)disp('0.01分位数T2=')disp(T2)% 6.残差检验figure('name','残
32、差分析图')bar(x,y-y1); legend('残差');figure('name','正态分布样本QQ图')normplot(y-y1);h=lillietest(y-y1);disp('-')disp('残差正态性检验值h=')disp(h)% 7.预测x1=85,95,115' yc=polyval(p,x1);disp('-')disp('预测值')disp(yc)Y,Delta=polyconf(p,x1,s); I1=Y-Delta,Y+Delta;
33、disp('预测置信区间')disp(I1)二、一元非线性回归实例(一)非线性回归命令 1.函数定义fun=inline(f(x),参变量,x) 2.拟合命令nlinfit 3.预测命令nlpredci 4.回归置信区间命令nlparci(二)实例分析例.% 1.数据散点图及拟合图x=2:16;y=6.42,8.2,9.58,9.5,9.7,10,9.93,9.99,10.49,10.59,10.6,10.8,10.6,10.9,10.76;figure('name','散点图及拟合图');plot(x,y,'k*');% 2.曲
34、线拟合% 2.1 函数定义 fun=inline('x./(b(1)*x+b(2)','b','x'); % 2.2 求解方程获得初始值%a,b=solve('6.42*(2*a+b)=2','10.76*(16*a+b)=16');b0=0.084,0.1436;% 2.3 拟合及预测beta,r,J=nlinfit(x,y,fun,b0); y1=x./(beta(1)*x+beta(2); hold onplot(x,y1,'r-')legend('原始数据','拟合曲
35、线')% 3.预测x=17ypred=nlpredci(fun,17,beta,r,J);% 4.回归模型参数的95%的置信区间ci = nlparci(beta,r,J);% 5.结果输出disp('回归系数')disp(beta)disp('预测x=17')disp(ypred)disp('回归系数的置信区间')disp(ci)例.% 1.散点图及拟合图t=1:15;y=352 211 197 160 142 106 104 60 56 38 36 32 21 19 15;figure('name','散点图及
36、拟合图');plot(t,y,'k*');% 2.曲线拟合% 2.1 函数定义fun=inline('b(1)*exp(b(2)*t)','b','t'); % 2.2 求解方程获得初始值%a,b=solve('a*exp(b)=352','a*exp(2*b)=211');beta0=587.22,-0.5118; % 2.3 拟合及预测beta,r,J=nlinfit(t,y,fun,beta0); y1=nlpredci(fun,t,beta,r,J); hold onplot(t,y
37、1,'r-'),legend('原始数据','非线性回归')xlabel('t(照射次数)') ylabel('y(残留细菌数)')% 3.预测x=16ypred = nlpredci(fun,16,beta,r,J);% 4.回归模型系数的95%置信区间ci = nlparci(beta,r,J);% 5.输出结果disp('回归系数')disp(beta)disp('预测x=16')disp(ypred)disp('回归模型系数的置信区间')disp(ci)第2节
38、 多元线性回归模型一、多元线性回归模型(一) 多元线性回归模型的基本概念 1回归模型对于总体的n组观测值它应满足式其中相互独立,且设,记,则其矩阵形式可以表为:,其中即为待估计的向量 2. 回归方程两边取期望值,即得到其回归方程如下 其一般的形式如下: 其中分布为期望值及回归系数的估计。 3. 参数估计 (1)的参数估计(最小二乘法,过程略) ,则(2)的参数估计(推导过程略) ,其中 H称为对称幂等矩阵4. 拟合优度判定系数 总离差平方和 回归平方和 残差平方和 可以证明: 拟合优度判定系数: 5. 显著性检验 (1)线性关系的检验 第1步:提出假设 线性关系不显著 p为模型的自由度(模型的
39、自变量个数) n-p-1误差的自由度(为样本个数) 线性关系显著 第2步:计算检验统计量 第3步:作出决策 如果,拒绝原假设,表明线性关系是显著的。 如果,不拒绝原假设,没有证据表明线性关系是显著的。 或者通过计算p值 如果 其中为给定的显著水平 (2)回归系数的检验 第1步:提出假设 其中,而是主对角线上第k个元素的平方根。 第2步:计算检验统计量 第3步:作出决策 如果,拒绝原假设,表明两个变量之间存在显著的线性关系。 如果,不拒绝原假设,表明两个变量之间不存在显著的线性关系。 或者通过计算p值 如果 其中为给定的显著水平 6.残差正态性检验 QQ图及lillietest检验 7.预测(1
40、)点估计 (x0直接代入回归方程即可)(2)预测值的置信区间 其中,其的置信区间为 % 1.获取数据及处理data=xlsread('data.xls');x0=data(:,1:4);y=data(:,5);n,p=size(x0); x=ones(n,1),x0; % 2.调用多元线性回归命令% 返回值一次为回归系数、回归系数置信区间、残差、残差置信区间、统计量(% 判定系数、F统计量、F统计量对应的p值、方差的无偏估计)db,dbint,dr,drint,dstats=regress(y,x); disp('回归系数')disp(db)disp('
41、回归系数置信区间')disp(dbint)disp('拟合优度判定系数')disp(dstats(1)disp('线性关系显著性检验p值')disp(dstats(3)% 3.t检验H=x*inv(x'*x)*x' % 计算对称幂等矩阵ESS=y'*(eye(n)-H)*y; % 计算ESSMSE=ESS/(n-p-1); %计算MSES=MSE*inv(x'*x); % 计算回归参数的协方差矩阵T0=db./sqrt(diag(S); % 每个回归参数的T统计量 Ta=tinv(n-p-1,0.975); % t分布的分
42、位数pp=tpdf(T0,n-p-1); % 每个回归参数的T统计量对应的概率disp('回归系数的t检验p值')disp(pp)% 4.残差的正态性检验figure('name','残差QQ图')normplot(dr);h=lillietest(dr);disp('残差正态性检验')disp(h)x0=1 38820 2500.6 2000 6000.8;y1=x0*db;s=MSE*(1+x0*inv(x'*x)*x0');s1=sqrt(s);t1=tinv(0.975,n-p-1);yint=y1-s1*
43、t1,y1+s1*t1;disp('x0预测值')disp(y1)disp('x0预测值的置信区间')disp(yint)注:以上程序具有一定的通用性,适合一元线性回归与多元线性回归模型的使用,为了提高程序的可重用性及实用性,进一步修改成函数的形式如下: -function B=regressmodel(X,Y,X0)% 输入:% X-自变量,一元或者多元,每行代表一个观测值% Y-因变量,一元,每行代表一个观测值% X0-待预测的自变量,一元或多元,每行代表一个观测值,可以为空% 输出:% B-回归系数,包括常数项% 例子1:% >>x=80 86
44、 98 90 120 102 95 83 113 105 110 100'% >>y=2350 2400 2720 2500 3150 2680 2630 2400 3080 2920 2960 2860'% >>x1=85,95,115'% >>B=regressmodel(x,y,);% >>B=regressmodel(x,y,x1);% 例子2(本教案中的数据,即书本上的例3.2.3):% >>data=xlsread('data.xls');% >>x=data(:,1:4
45、);% >>y=data(:,5);% >>x1=38820 2500.6 2000 6000.8;% >>B=regressmodel(x,y,);% >>B=regressmodel(x,y,x1);% 1.获取数据及处理x0=X;y=Y;n,p=size(x0); x=ones(n,1),x0; % 2.调用多元线性回归命令% 返回值一次为回归系数、回归系数置信区间、残差、残差置信区间、统计量(% 判定系数、F统计量、F统计量对应的p值、方差的无偏估计)db,dbint,dr,drint,dstats=regress(y,x); B=db;
46、disp('回归系数')disp(db)disp('回归系数置信区间')disp(dbint)disp('拟合优度判定系数')disp(dstats(1)disp('线性关系显著性检验p值')disp(dstats(3)% 3.t检验H=x*inv(x'*x)*x' % 计算对称幂等矩阵ESS=y'*(eye(n)-H)*y; % 计算ESSMSE=ESS/(n-p-1); %计算MSES=MSE*inv(x'*x); % 计算回归参数的协方差矩阵T0=db./sqrt(diag(S); % 每个回
47、归参数的T统计量 Ta=tinv(n-p-1,0.975); % t分布的分位数pp=tpdf(T0,n-p-1); % 每个回归参数的T统计量对应的概率disp('回归系数的t检验p值')disp(pp)% 4.残差的正态性检验figure('name','残差QQ图')normplot(dr);h=lillietest(dr);disp('残差正态性检验')disp(h)% 5.曲线拟合图(一元线性回归)if size(x0,2)=1 figure('name','拟合图') Y1=x*db;
48、plot(x0,y,'k*',x0,Y1,'r-');end% 6.预测if isempty(X0) r,c=size(X0); x0=ones(r,1),X0; y1=x0*db; s=zeros(r,1); for i=1:r x1=x0(i,:); s(i)=MSE*(1+x1*inv(x'*x)*x1'); end s1=sqrt(s); t1=tinv(0.975,n-p-1); yint=y1-s1*t1,y1+s1*t1; disp('X0预测值') disp(y1) disp('X0预测值的置信区间'
49、;) disp(yint)endend 实验 衡量个股系统性风险的模型,我们称为贝塔系数(Beta Coefficient),其模型可以表达为:个股的收益率=无风险收益率+Beta*市场收益率+随机误差。Beta系数的市场模型公式如下:其中表示第i只股票的收益率,表示第i只股票的无风险收益,为常数,为第i只股票相对市场的风险系数,为随机误差。 刨去该模型所表示的金融意义,单从公式来讲,他就是一个线性回归数学模型。只要获得yi和X数据序列,通过回归计算,就能估计出ai和bi这两个回归系数。如果yi表示的是某个服从正态分布的个股收益率序列,x为市场收益率,我们用沪深300指数收益率来代替,那么回归系数bi就有了经济意义,称为beta系数。 贝塔系数是统计学上的概念,它所反映的是某一投资对象相对于大盘的表现情况。这里投资对象指的是个股,大盘的表现,我们用沪深300指数收益率来代替。其绝对值越大,显示其收益变化幅度相对于大盘的变化幅度越大;绝对值越小,显示其变化幅度相对于大盘越小。如果是负值,则显示其变化的方向与大盘的变化方向相反;大盘涨的时候它跌,大盘跌的时候它涨。实验要求如下:1.获取相应的数据,包括股票收益率数据和沪深300指数收益率数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度医疗器械生产采购合同3篇
- 二零二五年影像作品版权登记及维权合同3篇
- 2024版多功能商业住宅买卖协议
- 西安音乐学院《税务会计学》2023-2024学年第一学期期末试卷
- 2024年运输代理业务协议3篇
- 武汉工商学院《化工设备设计》2023-2024学年第一学期期末试卷
- 新疆科技学院《小学科学教学法》2023-2024学年第一学期期末试卷
- 2024设备采购与安装调试合同详细条款
- 二零二五版深海探测包车租赁协议3篇
- 二零二五年珠宝首饰分店承包经营与市场拓展合同3篇
- 2024年日语培训机构市场供需现状及投资战略研究报告
- 2024年公安机关理论考试题库附参考答案(基础题)
- 历史-广东省大湾区2025届高三第一次模拟试卷和答案
- 2024年安全生产法律、法规、标准及其他要求清单
- 2023年高考文言文阅读设题特点及备考策略
- 抗心律失常药物临床应用中国专家共识
- 考级代理合同范文大全
- 2024解析:第三章物态变化-讲核心(原卷版)
- DB32T 1590-2010 钢管塑料大棚(单体)通 用技术要求
- 安全行车知识培训
- 2024年安徽省高校分类对口招生考试数学试卷真题
评论
0/150
提交评论