数学建模期末考试_第1页
数学建模期末考试_第2页
数学建模期末考试_第3页
数学建模期末考试_第4页
数学建模期末考试_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、互联网论坛用户识别摘要随着互联网十年来的飞速发展,网络论坛的兴起给网民营造了一个群体交往的新空间,我们可以通过论坛随时取得国际最新的软件及信息,大型公司或中小型企业可把论坛开放给客户交流的平台,个人可以多方面与其他人讨论各种话题并准确的获取信息达到资源的共享等。在这样的互动氛围中衍生出了很多商业机会和运营难题,如何解决这些难题并充分挖掘其商业价值,就需要对论坛内的用户进行有效识别。本文是根据中烧友会攒机区中故障有问必答专区提供的部分坛友数据为数据源,通过合理的假设并采用层次分析法、动态规划方法、集合分析方法建立识别论坛用户的模型;运用数据挖掘技术、excel电子表格处理技术以及matlab软件

2、实现了数据的处理与模型的求解。从而定位出言论领袖、话题用户、活跃用户、关系圈及其他类型用户。目录一 问题的背景及分析1二 模型一22.1 模型的假设22.2 符号说明22.3 模型的建立与求解3建立问题的层次结构图3确定准则层B对准则层A的权重3确定方案C层对准则B层的权重3确定方案C层对目标A层的组合权重42.4 模型的实例求解4问题(1):判别用户为言论领袖4问题2:判别话题用户6问题3:判别活跃人物83 模型二93.0 问题4:关系圈的确立93.1 模型的假设与符号说明93.2 模型的建立与求解93.3 模型的实例求解:10一 问题的背景及分析 在飞速发展的信息时代,网络技术已经对整个世

3、界和人们的生活产生了极大的影响,我们可以通过论坛随时取得国际最新的软件及信息,论坛有很大的包容量,兼收并蓄广纳不同的意见,可供人们辩论和交流话题等等。根据联合国发布的资料,目前全世界共有12亿互联网用户,相当于全球人口的1/6,在这庞大的市场体系中会衍生出很多的运营难题同时也蕴涵着巨大的商业价值。比如一些聪明的企业家善于从市场论坛中客户的投诉中挖掘商机。如何通过用户的资料信息来有效识别论坛用户,是我们解决怎样扩大论坛市场、维持论坛热度并充分挖掘这些价值的关键。本文是通过采用数据挖掘技术,从一个完整数据库做部份取样,然后根据历史经验研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预

4、测。然后通过层次分析法建立数学模型,提炼出更有效的市场信息。登陆一论坛,我们可以获取每个用户的信息资料,帖子总数、精华帖数、参与话题数、活跃积分、在线时间、注册与最后登陆时间等。根据统计分析,可以得出登陆频率、跟帖数目、用户常登陆系数等。登陆频率=在线时间/(最后登陆时间-注册时间)跟帖数目=sqrt(max(t)+min(t)/2),其中t为某一话题的跟帖数。用户常登陆系数=1/((现在时间-最后登陆时间))+1),其中的时间按天数算。本模型比较完满地解决了用户识别问题,通用性较强,基本适应能与各种论坛。二 模型一2.1 模型的假设(1)、假设题中变量相关性相等(2)、假设在一段时间内各变量

5、的值不会发生很大的改变(3)、假设所选的论坛具有代表性(4)、假设选择的用户能够基本反映整个论坛2.2 符号说明设x1个人为发贴的总数目。 x2精华的贴数。x3登录频率。(登陆的总时间除以最后登陆时间减去注册时间)除以24X4 置顶时间X5跟帖数目X6参与话题的数目。X7用户最后登陆时间参数。(x6为距离现在多少天的倒数)X8帖子关联关系参数。A1表示登陆频率 既在线总时间/(最后登陆时间-注册时间)*24) 其中(最后登陆时间-注册时间)可通过EXCEL中的DAYS360函数求得。A2表示参与话题数量比A3活跃积分比A4用户常登陆系数(为距离现在多少天的倒数)2.3 模型的建立与求解2.3.

6、1 建立问题的层次结构图层次结构图分为3层最高层为目标A层:选择目标用户。中间层为准则B 层:所选n名论员的各项指标参数。最底层为准则C层:所选择的n名论员。 确定准则层B对准则层A的权重由题目信息和查资料可知,已假定论员主要依据的m项条件是依次排列的m项条件是依次排列的,m项条件对目标的决策影响程度也是依次排列的,且认为任意两项的影响度相等或任意两项没有影响,因此确定比较矩阵。是m阶的正反矩阵。求出矩证N的最大特征值为Rmax以及相应的特征向量为W0即为准则层B对准则层A的权重(把权数放到0,1的区间。 确定方案C层对准则B层的权重根据问题的定义和实际情况(户联网提供)和假设中的条件论员的各

7、项条件的比构造相应的比较矩阵.设Nk=(a1k,a2k,ank)T为准则 Bk(k项条件的相关数据)记 dijk =(aik/ajk)(i,j=1,2n),则Bk C的比较矩证Dk=(dijk)n*n且Dk均为一致阵 (k=1,2,3n).易有Dk的非零特值为 r=100相应的特征向量取第一列向量即(d11k,d21kdn1k)=(a1k/a1k,a2K/a1kank/a1k)T=(a1k,a2kank)T/a1k=Nk/a1k此时向量 Nk仅差一个比例常数 1/a1k 显然Nk也是的特向量aij代表第i号论员在xj下的具体值编号X1X2X3X4X5X6Xi-1Xi01a11a12a13a14

8、a15a16a1i-1a1i02a21a22a23a24a25a26a2i-1a2i03a31a32a33a34a35a36a3i-1a3inan1An2an3An4An5An6ani-1Ani将 Dk的特征向量Nk 归一化得到方案C层对准则B层的权重如图: C 层对标准B层的权重QN1N2N3N4N5N6N7NiP1b11b12b13b14b15b16b17b1iP2b21b22b23b24b25b26b27b2iP3b31b32b33b34b35b36b37b3i.PnBn1Bn2bn3Bn4bn5Bn6Bn7Bni利用每个队员(方案)的各项条件的比构造相应的比较矩阵,把里面的条件形成条件

9、比全放到(0,1)中(假设取论坛中的n名论员)。 确定方案C层对目标A层的组合权重准则B层对目标A层的权重层对C层的权重:W=N1,N2,N3,N4,N5,N6,N7,N8,N9,N10*P0;经计算得:W=(w1,w2,w3,w4,w5,w6,w7,w8,w9,w10w100)选出Max(wi),此时对应的论员为目标用户。2.4 模型的实例求解 问题(1):判别用户为言论领袖A、建立问题的层次结构图层次结构图分为3层最高层为目标A层:选择言论领袖中间层为准则B 层:所选18名论员的各项指标参数。最底层为准则C层:所选择的18名论员。由题目信息和查资料可知,已假定论员主要依据的8项条件是依次排

10、列的8项条件是依次排列的,8项条件对目标的决策影响程度也是依次排列的,且认为任意两项的影响度相等或任意两项没有影响,因此确定比较矩阵。是8阶的正反矩证。求出矩证M的最大特征值为:Rmax=8.2883,相应的特征向量为:p0=0.7267;0.5059;0.3449;0.2323;0.1556;0.1046;0.0717;0.0517即为准则层B对A层准权重(把权数放到0,1的区间。B、确定方案C层对准则B层的权重aij代表第i号论员在xj下的具体值(见Sheet1)根据问题的假设可知,论友的各项指标数据的转换如下:登录比率=在线时间/(最后登录时间注册时间),跟帖数目=sqrt(max(t)

11、+min(t))/2)其中t为某一话题的跟帖数。用户常登录系数=1/(现在时间-最后登录时间)+1),其中的时间按天数算。运用软件Excel和Matlab处理数据,将Sheet6的看作是利用每个论友的各项参数构成的相应的矩阵。 根据问题的定义和实际情况(户联网提供)和假设中的条件论员的各项条件的比构造相应的比较矩阵.利用每个队员(方案)的各项条件的比构造相应的比较矩阵把里面的条件形成条件比全放到(0,1)中,归一化得到结果处理如sheet1(假设取论坛中的18论员)C、确定方案C层对目标A层的组合权重由Excel处理数据,并对上面特征向量归一化:P0= 0.7267;0.5059;0.3449

12、;0.2323;0.1556;0.1046;0.0717;0.0517 为准则层对目标层的权重 Q=x11 x12 x13 x14 x15 x16 x17 x18* P0其中P0=0.7267,0.5059,0.3449,0.2323,0.1556,0.1046,0.0717,0.0517 采用matlab编程计算得:姓名编号18名论友的排序结果在此模型中的名次随风的尘218298750.57881kk2200586693650.36732dudezhen126033850.34283a7lun84656600.23414小莒78482050.215幽然菲雪228965030.2076weng

13、huai101217000.11777wjs163wps23167720.10838jms0610128320710.10699zjjlyj109263790.08810jerry_july75396920.069411hlzdd94722470.06512mayor79923640.063713王树勋23692350.046114aes001135429450.042915jie_ren520100274470.030416jxyc200676536020.02517ganshuhan71844440.013418由以上结果分析可得在所选的18名论友中,名为“随风的尘” 编号21829875

14、为论坛领袖。 问题2:判别话题用户问题(1) 判别用户为话题用户Sheet6(原始数据)A、建立问题的层次结构图层次结构图分为3层最高层为目标A层:选择话题用户中间层为准则B 层:所选18名论员的各项指标参数。最底层为准则C层:所选择的18名论员。由题目信息和查资料可知,已假定论员主要依据的8项条件是依次排列的8项条件是依次排列的,8项条件对目标的决策影响程度也是依次排列的,且认为任意两项的影响度相等或任意两项没有影响,因此确定比较矩阵。是8阶的正反矩阵。求出矩证M的最大特征值为:Rmax=8.2883,相应的特征向量为:p0=0.7267;0.5059;0.3449;0.2323;0.155

15、6;0.1046;0.0717;0.0517即为准则层B对A层准权重(把权数放到0,1的区间。B、确定方案C层对准则B层的权重aij代表第i号论员在xj下的具体值(见Sheet1)根据问题的假设可知,论友的各项指标数据的转换如下:登录比率=在线时间/(最后登录时间注册时间),跟帖数目=sqrt(max(t)+min(t))/2)其中t为某一话题的跟帖数。用户常登录系数=1/(现在时间-最后登录时间)+1),其中的时间按天数算。运用软件Excel和Matlab处理数据,将Sheet6的看作是利用每个论友的各项参数构成的相应的矩阵。 根据问题的定义和实际情况(户联网提供)和假设中的条件论员的各项条

16、件的比构造相应的比较矩阵.利用每个队员(方案)的各项条件的比构造相应的比较矩阵把里面的条件形成条件比全放到(0,1)中,归一化得到结果处理如sheet1(假设取论坛中的18论员)C、确定方案C层对目标A层的组合权重由Excel处理数据,并对上面特征向量归一化:P0= 0.7267;0.5059;0.3449;0.2323;0.1556;0.1046;0.0717;0.0517 为准则层对目标层的权重 Q=x16 x18 x15 x12 x11 x13 x14 x17* P0其中P0=0.7267,0.5059,0.3449,0.2323,0.1556,0.1046,0.0717,0.0517经

17、计算得:姓名结果名次随风的尘0.51641kk220050.4882幽然菲雪0.3143小莒0.27684dudezhen0.22415a7lun0.17356wenghuai0.16567jms06100.16058wjs163wps0.15569jerry_july0.111510mayor0.109511王树勋0.094512jxyc20060.084213hlzdd0.067814aes0010.034115ganshuhan0.020116jie_ren5200.019717zjjlyj0.011818由以上结果分析可得在所选的18名论友中,名为“随风的尘” 编号21829875为话

18、题用户。 问题3:判别活跃用户A、建立问题的层次结构图原始数据见附表Sheet4层次结构图分为3层最高层为目标A层:选择活跃用户 中间层为准则B 层:所选48名论员的各项指标参数。最底层为准则C层:所选择的48名论员。由题目信息和查资料可知,已假定论员主要依据的4项条件是依次排列的4项条件是依次排列的,4项条件对目标的决策影响程度也是依次排列的,且认为任意两项的影响度相等或任意两项没有影响,因此确定比较矩阵。 M=1 2 3 4;1/2 1 2 3;1/3 1/2 1 2;1/4 1/3 1/2 1求出矩证M的最大特征值为Rmax= 4.0310,对应的特征向量归一化为:m= 0.8135;

19、0.4826; 0.2787; 0.1661即为准则层B对准则层A的权重(把权数放到0,1的区间. B、确定方案C层对准则B层的权重 根据问题的定义和实际情况(户联网提供)和假设中的条件论员的各项条件的比构造相应的比较矩阵.利用每个队员(方案)的各项条件的比构造相应的比较矩阵把里面的条件形成条件比全放到(0,1)中(假设取论坛中的48论员)aij代表第i号论员在xj下的具体值 根据问题的假设可知,论友的各项指标数据是论坛中烧友会攒机区中有问必答专区提供的部分坛友数据为数据源b、数据的转换登录时间=在线时间/(最后登录时间注册时间)跟帖数目=sqrt(max(t)+min(t))/2)其中t为某

20、一话题的跟帖数。用户常登录系数=1/(现在时间-最后登录时间)+1),其中的时间按天数算。用软件Excel和Matlab处理数据获得。将sheet4看作是利用每个论友的各项参数构成的相应的矩阵 (附表sheet3, 按原始数据的姓名排序,方案C层对准则层的权重)c确定方案C层对目标A层的组合权重:即用准则B层对目标A层的权重层对C层的权重Q=A1 A2 A3 A4* m其中m= 0.8135; 0.4826; 0.2787; 0.1661经计算得到结果见附表sheet5由结果显示 名为“kk22005”的论友被判定为活跃人物。3 模型二3.0 问题4:关系圈的确立3.1 模型的假设与符号说明(1)、假设所考虑的帖子是具有代表的(2)、假设各论员之间相对独立(3)、符号说明主题帖集合: A1:260+常见问题,A2:ITB硬盘常见问题,A3:AMD245常见问题,A4:报表785G常见问题,A5:13常见问题,A6:X3425常见问题,A7:戴尔2209常见问题,A8微星785GME45常见问题,A9:电脑常见软件 A10:DIY常见软件合集。为有限个集合的并。为有限个集合的交。为集合中元素的个数。3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论