




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、探讨数理统计论文多元线性回归在网站评价中的应用 探讨数理统计论文多元线性回归在X站评价中的应用 导读: 应用数理统计课程小论文多元线性回归在X站评价中的应用摘要:在信息海洋中,发现并查找出有重要利用价值的信息并不是一件十分容易的事情。 因此对X络信息资源进行切实有效的信息检索,并且对其做出实事求 是和恰如其分的评价是X络信息资源管理所面临的挑战之一。本文以 sohu X站 为例,首先根据调查数据建立统计模型,然后进一步对数据进行分析求解,最后 得出X站的总评分。 根据这一方法可以得出X站之间的排名,让用户清晰地看到 X站的使用率。关键字:信息检索,sohu,统计模型,分析求解一、 问题的引入
2、在许多实际问题中,还会遇到一个随机变量 y 与多个普通变量 x1,x2, xp (p>=2)的相关关系问题。在做回归分析时,人们根据问题本身的专业理论及有 关经验,常常需要把各种与因变量有关或可能有关的自变量考虑并引进回归模 型。例如,一种农作物的亩产量可能与播种量、施肥量、浇水量、管理工时数等 有关; 一个X站的好坏主要由X站的总体得分决定的,而X站的总体得分可能与 内容涉及主题深度和广度得分、准确性得分、客观性得分等因素有关。这种情况 下,仅仅考虑单个变量作自变量是不够的,它不能对因变量以恰当的描述,其他 多个关键自变量也以不通的方式影响着因变量。 如果根据只含有一个自变量的
3、回 归模型来对因变量进行预测的话,就会发现所做预测粗糙得简直毫无用处,采用 包含其他自变量的更复杂的模型则可以提供足够精确地因变量的预测。 在某一研 究中, 与因变量 y 有关的因素看起来很多,而在回国方程中却只宜选取部分与因 变量关系最密切的因素,选多了貌似很全面,实则效果很差。 因特X是世界上最为庞大的信息资源系统, 它已成为全球范围内传播和交流 科研信息、教育信息、商业信息和社会信息的重要渠道。人们要在这变化无穷而 又鱼龙混杂的信息海洋中, 发现并查找出有重要利用价值的信息并不是一件十分 容易的事情。 因此对X络信息资源进行切实有效的信息检索,并且对其做出实事 求是和恰如其分的评价是X络
4、信息资源管理所面临的挑战之一。 X络信息资源是 由具体的X站构成的。对X络信息资源评价除宏观把握外就是对具体X站的评 价。但是各机构会因其特质与评价目的的差异,对评价项目有轻重之别。因而仅 靠有限的评价服务机构是不能全面、 准确和及时地反映因特X信息资源的变化情 况的。 二、 统计模型及分析 为了建立一个量化的评价模型,用评价指标作为回归变量,为了尽量减少信 息的损失,评价指标的个数取得不能太少,我们取 24 个指标。我们把各个评价 指标用一个给定的变量来代替。 令: y 表示X站的总体得分;x1 表示内容涉及主题的深度和广度得分; x2 表示准确性得分;x3 表示客观性得分; x4 表示适用
5、性得分;x5 表示权威性得分; x6 表示独特性得分;x7 表示时效性 3 4 探讨数理统计论文多元线性回归在X站评价中的应用 导读:理的数据。为此我们不能把原始数据直接用于模型的参数估计,必须剔除那些明显不合理的数据,例如,若总体得分比任何一个因素的得分都高,这种情况说明被调查者没有客观地去打分,所以此种调查结果是不可信的,另外,如果每一项的得分都是一样的,此时这个调查结果没有给我们提供任何信息,所有类似的不合理数据必须剔除,以保 得分; x8 表示信息得分; x9 表示创建者得分; x10 表示稳定性得分; x11 表示安全性得分; x12 表示交互性得分; x13 表示可靠性得分; x1
6、4 表示导航系统得分;x15 表示创办目的得分;x16 表示目的 及用户得分;x17 表示写作质量得分;x18 表示用户界面友好性得分; x19 表示外 观设计得分; x20 表示多媒体设计得分;x21 表示检索功能得分;x22 表示响应速 度得分;x23 表示链接质量得分;x24 表示组织结构得分。根据线性回归的概念、 原理,则我们可以建立下列线性模型:yi B0 Bi xii 4其中 Bi (i=0,1,2,24)是待定的常数, Bi 的大小反映了因素 xi 对整 体得分贡献的大小, Bi 的正负反映了因素 xi 整体得分是积极的影响或消极的影 响。 根据模型的要求必须得到每一个X站所有
7、24 个指标的得分(满分 100)和每个 X站的综合评价得分(满分 100)。 ,由统计的知识可知,任何调查数据中都有不合 理的数据。 为此我们不能把原始数据直接用于模型的参数估计,必须剔除那些明 显不合理的数据,例如,若总体得分比任何一个因素的得分都高,这种情况说明 被调查者没有客观地去打分,所以此种调查结果是不可信的,另外,如果每一项 的得分都是一样的, 此时这个调查结果没有给我们提供任何信息,所有类似的不 合理数据必须剔除, 以保证最终用于估计模型参数的数据都是合理的。为此我们 对原始数据进行了初步的统计分析,找出异常(不合理)的数据把它删除。以 sohu X站为评价对象,根据查找到的数
8、据可得下表 1。表 1 sohu X评价调查表三、 模型求解 在所得的数据的基础上,利用合理的方法估计上述模型中的模型系数 Bi ( i=0,1,2,24)。为此,先把所有的 xi(i=1,2,24)作为自变量,总体 得分 y 作为回归变量, 以每个调查结果所反映的信息的大小(结果的方差)为权重, 对模型进行了加权回归分析。可得线性模型中的系数 Bi 。具体结果见下表 2。表 2 模型系数 Bi这样我们就得到了X站的评价公式: y=85.768+2.32395x1-0.882819x2+0.846553x3+0.596732x4-1.19172x5+1.05937 x6+0.150462x7+
9、1.44957x8-0.274842x9+1.182x10+1.37353x11+1.21397x12+0.641875x13-0.314992x14-0.73023x15+1.07551x16+0.686684x17-0.187509x18-0.702599x19+0.873304x20-0.02746x21+1.77023x22+0.648203x23+0.124356x 3 4 探讨数理统计论文多元线性回归在X站评价中的应用 导读: 24。 要利用此公式,只要把X站的 24 项的得分进行标准化后代入评价公式,就 可以得到该X站的一个综合得分,使得可以对X站进行比较。 为了叙述方便, 用
10、m 表示合理数据记录的个数(行), xij(i=1, 2, , m , j=1, 2,24)表示第 i 个记录(行) 第 j 个因素(列)的值。原始数据的标准化: 记xi xij 2 i 44 , ( xij xi )2 (i=1,2,m) 24 i 1则标准化的数据为:xij * xij xii(i=1,2,m ,j=1,2,12)为了尽可能消除个人的影响、减小评价的误差,定义:m 1 x xij2 (j=1,2,24) j m i 1 (j=1,2,24)就可以消除、减少不通被调查之间的差异,并减 这样 x j小评价的误差,所得结果见下表 3。 (j=1,2,24)的计算值 表3 x j
11、(j=1,2,24)代入综合评价函数中得到综合评价得分 y为 把表 3 中的 x jy =85.8 对X站进行评价。 85.8,然后利用 四、 结果分析y 的区间估计我们必须得到估计的残差平方和的平均值,为此,我 为了得到 们把调查的第 i 组标准化的数据代入综合评价函数,得到每个记录的综合得分估y 计值 (i)(i=1,2,m)然后利用公式 2 1 m (i ) ( y y ) 2 估计误差的方差, m i 1这里 m 是有效的调查记录的个数。经过计算得到 =3.87,所以估计的X站评价y 的一 综合得分 Y 服从正态分布 N(85.8,3.872),由此分布我们可以得到估计值 个置信度为
12、95%的置信区间(85.8-2×3.87,85.8+2×3.87)=(78.06,93.54),这表y 在区间(78.06,93.54)中。类似地,可以得到估计值 y 的一 明我们有 95%的把握 个置信度为 68%的置信区间(85.8-3.87,85.8+3.87)=(81.93,89.67),这表明我们y 在区间(81.93,89.67)中。利用 y 的 68%、95%置信区间(81.93, 有 68%的把握 y 的可信程度,从而使得我们对被评 89.67)、(78.06,93.54),考察综合评价得分 估的 Sohu X站有一个综合的评价。一般来说,若评价的置信区间越小,说明评y 的可信程度越高,若评价的置信区间越大,说明被调查对象对评价对象 价得分 y 的可信程度越小。在评价得分相同的条件下, 的评价不太一致,从而评价得分 置信区间小的评价对象更加优秀因为此时的得分更可信。 在实际工作中如何提高 结果的可信度-减小置信区间的长度呢那就是增加被调查者的数目,从而使得 估计的标准差 3 4 探讨数理统计论文多元线性回归在X站评价中的应用 导读:不能以这组数据的结果对这些X站进行实际的评价,如果想得到准确的评价,就要进行大量数据的调查。同时利用这种统计方法可以评价出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东二月联考试卷及答案
- 2025年居间合同的样本
- 空调器故障案例分析与解决方案考核试卷
- 胶合板行业发展趋势与市场规模预测考核试卷
- 组织管理服务拓展课程列表考核试卷
- 煤炭制品在生产生活中的应用拓展考核试卷
- 硅冶炼过程中的生产安全应急预案演练考核试卷
- 二厂员工考试试题及答案
- 职业中介服务的行业品牌推广与宣传考核试卷
- 残疾人生活品质提升服务创新考核试卷
- 蓄水池可行性方案
- 政务服务中心物业服务投标方案
- 小儿循环系统解剖生理特点
- 青岛海尔纳税筹划课程设计
- 小学动词三单练习
- 【葛根素的药理作用及临床应用调研报告3000字】
- 居民自建桩安装告知书回执
- 教师情绪和压力疏导
- 血管活性药物静脉输注护理团体解读
- 首件检查记录表
- 控制计划(中英文标准模板)
评论
0/150
提交评论