版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、福州大学第八届数学建模竞赛A 题 职场新人手机用户精准识别参赛组号: 4参赛人员:何立鹰1 (组长)陈丽珠8陈赛英0福州大学第八届数学建模竞赛A 题 职场新人手机用户精准识别摘 要本文基于统计的思想, 并利用数据挖掘技术, 对职场新人手机用户识别的方法进行了研究, 并设计出一套用户识别的模型体系, 该体系能够对职场新人手机用户进行有效识别。这个模型体系主要包括六个步骤:数据预处理、数据分析、模型建立、结果输出、模型验证、用户识别。将已知数据导入 SPSS统计软件中,并在 SPSS软件环境下对数据进行预处理、相关性分析, 得出各个特征的相关性系数, 从而进行特征降维, 并从中获取决策特征:用户级
2、别、套餐档次、消费金额、是否 3G用户、资费变更次数、手机操作系统类型。根据分析结果建立模型,采用比例标度法对上述六个决策特征进行权重计算,并对用户的特征数据进行数据标准化处理。 最后使用特征指数计算模型进行得分计算,根据输出结果和参考信息进行用户识别。本建模对于问题一,利用 SPSS对影响本网用户是否为职场新人手机用户的最重要的六个特征等进行了统计分析, 对相关量的平均值、 最大最小值以及方差进行了计算,并进行相关性分析,得出了判断是否为职场新人手机用户的准则。关键词: 职场新人、用户识别、 SPSS、层次分析法、比例标度法一、问题重述随着移动通信、 互联网业务的迅速发展, 手机已经从生活奢
3、侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们随时随地使用手机打电话、发短信、上网,而用户的这些行为以及其个人基本信息均在运营商中有所记录。职场新人,通常指处于毕业前的实习阶段或刚毕业离开校园 (专科或专科以上学历)工作不到一年的年轻群体。 他们虽然收入不高, 但暂时也没有太多压力,经常追求新鲜事物、 乐于且敢于消费。 他们有着各自的职业追求, 是社会的潜在精英,将成为运营商未来的高端用户。下面给出某城市某运营商的手机公众用户数据,其中:用户资料表:本城市本运营商 2012 年 2 月时在网的所有手机公众用户的个人基本信息、终端信息、套餐情况、费用情况等数据;通话清单表:记录了上
4、述手机号码在 2012 年 2 月份每天的通话情况,包括主叫、被叫以及市话、长途和漫游通话;- 2 -短信清单表:记录了上述手机号码在 2012 年 2 月份每天的短信发送和接收情况。为了便于针对不同用户推出合适的产品和服务,需要精准地识别用户类型。请结合以上三张表,识别该城市的职场新人。二、基本假设1)假设本网手机用户的行为特征在相当长的一段时间内没有太大的变化。2)本网手机用户的等级是相对固定的。3)手机用户定时缴纳话费及相关费用。4)假设获取的用户信息都是真实的、准确的。5)假设用户信息可以准确量化。6)假设身份证归属地、性别、号码办理日期对分析是否是职场新人没有影响。三、符号说明G目标
5、层PROB_LEVEL套餐档次C准则层CUST_LEVEL用户级别P方案层OS_TYPE操作系统类型A判定矩阵IS_3G是否 3G 用户W权重向量CONSUME_AMT消费金额SCORE加权得分OFR_CHANGE_CNT资费变更次数四、问题分析根据搜到的相关资料以及对数据的分析,我们给出职场新人的相关定义:1) 年龄基本上在 20 岁以上, 28 岁以下。2) 经常追求新鲜事物、乐于且敢于消费,具有较高的消费倾向。3) 需求多样化,个性化和高档化,喜欢高质量高价值的品牌商品。1由于数据量大, 因此小组决定采用 SPSS 数据统计软件进行数据处理。 经过初步数据分析后,发现数据中 99.9%的
6、用户停机次数为零,因此该特征对决策的贡献不大,将不作为决策特征。 用户信息中的身份证、 性别特征与用户是否为职场新人关系粘滞度较弱,因此 SPSS统计时不对这两个特征进行分析。经过对问题分析后,小组制定出本次建模的基本处理流程,如下图1 所示:- 3 -图 1五、模型建立及求解5.1数据分析及特征降维针对所给数据中的用户特征字段,包括本网手机号码、城乡标识、身份归属地、是否 3G等 25 个用户特征字段, 进行数据分析前先进行数据预处理, 如将操纵系统类别映射为 0-2 区间值,用户年龄为空或者值非法将其置为 0 等。手机操作系统类型预处理,如图 2 所示:图 2首先,将数据导入 SPSS软件
7、后,使用分析 - 描述统计 - 描述,功能统计字段的均值、方差、最大和最小值等,分析样本数据数据分布情况,统计结果如图3 所示(图中特征字段代表意义见附录一):- 4 -图 3其次,使用 SPSS软件的分析 - 相关 - 距离,计算变量间的距离,对结果进行标准化 2 到 0-1 区间,使用 Pearson 方法进行相关性检验 3 。从中计算各个变量间的相关性系数,统计结果如图 4 所示:- 5 -图 4根据上面表格提供的信息,我们无法从中获取相关的信息,因为数据变化比较大,变量之间的相关性较均匀, 根据在问题分析中, 给出的职场新人的年龄区间在 20 到 28 岁,使用 SPSS软件的数据 -
8、 选择个案功能,对数据进行筛选,分析统计 20-28 岁区间的用户的相同变量的均值、 方差、最大和最小值, 以及相关性统计,结果如图 5 和图 6 所示:- 6 -图 5图 6- 7 -最后,通过对比均值、最值和方差,并进行相关性系数分析,以及结合问题分析中职场新人的相关定义,可观测到:1)消费金额与流量费、市话费、长途费、漫游费、通话费、增值费和短信费密切相关;2)流量费与上网流量和上网时长密切相关;3)用户等级和是否VIP 密切相关。根据上述数据分析结果,把相关性大的那些特征用具有表征意义的特征表示,这样避免用户特征权重计算时重复计算,而影响用户识别, 因此进行用户特征降维,最后得出六个具
9、有代表意义的特征:用户级别、套餐档次、消费金额、是否 3G用户、资费变更次数、手机操作系统类型。5.2模型建立5.2.1模型层次根据 5.1 降维所得的特征,采用层次分析法 4 建立模型,如图 6 所示。层次分析法,简称 AHP法( Analytical Hierarchy Process )是一种综合定性和定量的分析方法,可以将人的主观判断标准,用来处理一些多因素、多目标、多层次复杂问题。图 75.2.2模型分析- 8 -层次性是系统结构的一般形式, 它普遍存在于自然界、 生物界、人类社会乃至人们的思维方式。 一个复杂的系统, 通过层次分解, 可以化成若干个简单的系统,因此这对简化问题具有普
10、适性,这是层次结构模型的优势。针对上一层某个准则, 把下一层与之相关的各个不可公度的因素通过两两对比,按重要性等级赋值, 从而完成从定性分析到定量分析的过渡, 这是层次分析法的又一个优势。但是模型求解中的合成权重向量之和为 1,方案越多,方案权重差距会越小,虽然可以比较,但是差距越小,比较结果的信服度越低。方案越多时,方案层对准则层每个因素的判断矩阵越大, 导致确定判断矩阵的工作量和求解模型的工作量都增大,层次分析法虽可理论上解决本文问题, 但在实际应用中并不值得推广。因此我们对此层次模型进行改进, 对准则层仍然采用层次分析法, 而对方案层采用特征加权法进行问题的处理。具体处理过程见 5.3
11、模型求解说明。5.3模型求解1. 比例标度法 5基于 5.2 层次结构模型,采用常用,对指标的重要性进行量化。比例标度法主要是基于人们在估计事物的质的区别时, 一般可以用 5 种判别很好地表示出来, 当需要更高的精度时, 还可以在相临判别之间做出比较, 从而形成 9 种判别,用数量表示就是 9 个标度 ( 参见下表 )标度及其含义如表1 所示:表 1标度含义1表示两个元素相比,具有同样重要性3表示两个元素相比,前者比后者稍重要5表示两个元素相比,前者比后者明显重要7表示两个元素相比,前者比后者强烈重要9表示两个元素相比,前者比后者极端重要2,4,6,8表示上述相邻判断的中间值倒数若元素 i 与
12、 j 的重要性之比为 ai j ,那么元素j 与元素 i 重要性之比为 aji1 aij2. 权重计算5.2 中准则层元素为【用户级别、套餐档次、消费金额、是否 3G用户、资费变更次数、手机操作系统类型】 ,准则层对目标层的判定矩阵为:- 9 -上述矩阵中数字 4/3 表示指标 CUST_LEVEL与指标 CONSUME_AMT相比CUST_LEVEL重要。一般比值大于 1 表示前者重要 , 比值越大越重要 ; 比值小于 1 表示前者不重要, 比值越小重要性越低。又如: 表中数字 3/4 表示指标CONSUME_AMT比指标 CUST_LEVEL不重要。根据上述矩阵,在Matlab中计算判定矩
13、阵A 的特征向量,得出权重向量。3. 一致性检验判定矩阵 A 对应于最大特征值max 的特征向量 W ,经归一化后即为同一层次相应因素对于上一层次某因素相对重要性的排序权值,这一过程称为层次单排序。即:若 A 的最大特征值max 对应的特征向量为w1w2w3 w4w5 w6Twi ,i , j 1,2,3,4,5,6W,则 aijwjw1w 1w1w1w1w1w1w 2w3w4w 5w 6w 2w 2w 2w2w 2w 2w1w 2w3w4w5w 6w3w 3w3w3w3w 3即 Aw1w 2w3w4w5w 6。w 4w 4w 4w4w 4w 4w1w 2w3w4w5w6w5w 5w5w5w5
14、w5Ww1w 2w3w4w5w 6w 6w 6w 6w6w 6w6w1w 2w3w4w5w6对判定矩阵的一致性检验的步骤如下:( i )计算一致性指标 CI : CImaxnn。1-10-( ii )查找相应的平均随机一致性指标RI ( random index )。下表给出了 110阶正互反矩阵计算 1000次得到的平均随机一致性指标。表2 平均随机一致性指标RI矩阵12345678910阶数RI000.520.891.121.261.361.411.461.49计算一致性比例 CR : CRCI 。RI( iii)当 CR0.1时,认为判断矩阵的一致性是可以接受的;当CR0.1 时,应该对
15、判断矩阵做适当修正。本次建模中计算得出max =6,计算过程和结果见附录二,将结果计算可得CR0 0.1,判定矩阵 A 的一致性是可接受的, 计算出的特征向量也是可接受的。5.3.2数据标准化 6数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,如一个百分制的变量与一个 5 分值的变量只有通过数据标准化, 都把它们标准到同一个标准时才具有可比性, 本次建模对 5.1 得出的特征数据进行 Z 标准化,即均值为 0,方差为 1。Z 标准化方法基于原始数据的均值和标准差进行数据的标准化。将用户数据的原始值 X 标准化到 X 。Z 标准化方法适用于属性值超出取值范围的离群数据的情况,由
16、于原始值存在离群数据情况,因此这种方法刚好适合。Z 标准化可表述为:X ( X) /(:算术平均值,:标准差)公式一标准化后的变量值围绕 0 上下波动,大于 0 说明高于平均水平, 小于 0 说明低于平均水平。5.3.3特征加权进行完上述数据标准化步骤后,对处理后的数据进行特征加权计算,其中用户数据记为 X ( x1 , x2 , x3 , x4 , x5 , x6) ,权重向量为 W(w1,w2,w3,w4,w5,w6)T ,使用公式二计算用户加权得分记为S 。Sw1 x1 w2 x2 w3 x3 w4 x4 w5 x5 w6 x6公式二其中, w1 为用户级别, w2 为套餐档次, w3
17、为消费金额, w4 为是否 3G用户, w5 为资费变更次数, w6 手机操作系统类型。5.3.4结果输出-11-特征加权所得得分结果降序排列结果,如图8 所示:图 8根据,得分结果分布情况和统计量如图 9、图 10 所示:图 9-12-图 10阈值 7 选择:由图 9 的得分分布情况、 图 10 的得分统计量以及输出结果的数据分析,我们选择得分在 -0.65 以上的用户为职场新人,这些用户占年龄 20-28 以及未标记年龄的用户的 85%左右,表明 20-28 年龄段的群体中 85%的用户属于职场新人,符合现实世界中的概率分布。六、模型检验本模块检验计算得到的得分比较高的用户的六个特征是否与
18、我们分析的职场新人定义相同。观察图 8,我们可以看出,得分较高的用户,使用的手机操作系统基本上是android 以及 windows mobile 操作系统,且大部分是 3G用户,由于 android 手机操作系统以及 3G技术的普及, 目前较多年轻人都使用该系统的手机并成为 3G的用户,职场新人处于这一年轻群体中,必然会追求新鲜事物,购买android手机,并体验 3G服务。观察下表 3 和表 4 的统计结果,可以看出,在得分较高的前1000 名用户中,套餐档次以及消费金额均比年龄处于20-28 岁以及年龄未知用户的平均水平高出很多,可见我们所选择出的职场新人具有较高的消费水平, 符合我们定
19、义的职场新人的准则。表 3表 4统计量PROB_LEVELCONSUME_AMTN有效122654128844缺失61900均值107.5939.7989标准差53.16246.73937方差2826.1592184.568-13-统计量PROB_LEVELCONSUME_AMTN有效999999缺失00均值170.90180.2693标准差55.754153.68509通过图 8,我们还可观察到,得分较高的用3108.52423619.108方差户均更改过 1 次资费,验证了职场新人乐于尝试新鲜事物,享受改变带来的乐趣。得分较高的用户等级基本上是3,属于中等用户,其中有小群体属于高级用户,因
20、此职场新人有倾向成为高级用户。综上所述,通过建立的模型,我们找到符合本文定义的职场新人。通过得分较高用户的数据观察,我们还得出以下结论:1、职场新人较多居住在市区,这可能与市区具有较多工作岗位有关;2、得分较高的职场新人通常会购买价位较高的手机,这也符合职场新人虽工资不高,但勇于消费的特征。3、职场新人较多是VIP,可成为运营商的潜在高端用户。4、职场新人的上网流量以及上网时长都很高,这符合追求新鲜事物的年轻群体的特征。七、模型优缺点(一)模型优点1本文考虑了特征之间的相关性,进行了特征降维处理,有效地消除无关和冗余特征,提高挖掘任务的效率,改善识别的精确性。2模型能够适应于不同类型的用户识别
21、,适用范围广。对于具体的情况,可以对模型进行适当的调整与修改。3本文在数据的处理分析过程中运用了SPSS软件,通过这个软件处理并分析数据,准确而效率高。(二)模型改进1. 本文使用特征选择方法进行特征降维,即从特征集T t1 ,t 2 ,., ts 中选择一个真子集 T t1 ,t2 ,., ts ,满足( ss )。其中:s 为原始特征集的大小; s 是选择后的特征集大小。 该方法具有一定的经验风险, 特征子集的大小确定也将影响识别效果。本问题中用户具有手机号码、城乡标识、身份证归属地、年龄、用户等级、用户行业、手机价格、是否 3G用户等 25 个特征,可以考虑采用主成分分析法降低特征的维度
22、。主成分分析将具有一定相关性的众多变量重新组合成新的无相互关系的综合变量来代替, 通常数学上的处理就是将原始特征进行线性组合作为新的综合指标。设原始变量指标为x1, x2 ,., xp ,它们的综合指标主成分为Z1 , Z2 ,., Zm (m p) ,则-14-z1l11x1l12 x2l1 p xpzml m1 x1l m2 x2lmp xpZ1, Z2 ,., Zm 分别称为原变量指标x1, x2 ,., xp 的第一,第二, ,第 m主成分。这些综合变量集中了原始变量的大部分信息;通过计算综合主成分函数得分,对客观现象进行科学的评价;它在应用上也更侧重于信息贡献影响力的综合评价。但由于
23、时间和精力限制,我们未进行主成分分析方法的应用。2. 本文未考虑职业对职场新人的影响, 因此可以将职业类型纳入职场新人的特征之一。3. 由于本文考虑的特征比较少,所以在模型改进方面还有很大的空间。八、参考文献1 谭荣波等 SPSS统计分析实用教程科学出版社 2007.52 /945094.htm3 /5996049.htm4刘晓波 . 基于网络层次分析法的图书馆评估模型J.现代情报 .2011,115吴定祥 . 比例标度法在评价雷达网探测效能方面的应用J. 雷达与对抗 ,2003,36 /blog/item/66a35499c346aabfc8eaf446.html7 秦锋,黄傻,程泽鼠 .
24、用于多标记学习的阈值确定算法 J. 计算机工程 ,2010,11-15-附录一字段名字段含义ACC_NBR本网手机号码URBAN_RURAL_ID 城乡标识CERTI_LATN身份证归属地GENDER性别AGE年龄CUST_LEVEL用户等级用户的行业(银行、医CUST_WORK_TYPE疗等)OS_TYPE手机操作系统类型TERMINAL_PRICE手机价格INNET_DATE号码办理日期IS_3G是否 3G用户IS_VIP是否 VIP 用户PROB_LEVEL套餐档次(元)CONSUME_AMT消费金额WEB_FEE流量费LOCAL_CALL_FEE市话费LONG_CALL_FEE长途费ROAM_CALL_FEE漫游费CALL_FEE通话费VALUE_ADDED_FEE增值费SMS_FEE短信费STOP_CNT停机次数OFR_CHANGE_CNT 资费变更次数INNET_FLOAT_AMT上网流量INNET_DUR上网时长附录二A=1 1 4/3 2/3 4 4/51 1 4/3 2/3 4 4/53/4 3/4 1 1/2 3 3/53/2 3/2 2 1 6 6/51/4 1/4 1/3 1/6 1 1/5备注该号码已做加密处理,转换为ID 形式表示。作为分群的基础号码表0: 市区1:县城2:农村区号1: 最高; 2: 高; 3: 中; 4: 低; -1: 未知;具体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业办公墙纸装饰协议
- 商场摊位租赁合同:鲜花绿植租赁
- 市场营销总监聘用协议律师
- 假山医院景观施工合同
- 酒店清水池防水施工合同
- 海南省博物馆聘用合同指南
- 皮革行业合同管理样本
- 智能医疗弱电综合布线施工合同
- 眼镜专柜租赁合同模板
- 商务中心会议厅翻新合同
- 维修方案模板
- 冶金行业特殊工种有哪些岗位
- 初中部综合素质评价实施方案范本(三篇)
- 2023湖南省永州市七年级上学期语文期末试卷及答案
- 昌建明源销售系统上线培训
- 仲夏夜之梦-中英对照
- 广州市本级政府投资项目估算编制指引
- 课堂观察量表
- (现行版)江苏省建筑与装饰工程计价定额说明及计算规则
- 音乐鉴赏智慧树知到答案章节测试2023年山东科技大学
- SWOT分析图表完整版
评论
0/150
提交评论