下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
软件众包任务的认知度研究
1非软件众包任务的参与度2006年,杰夫首次提出“公共包”一词。这意味着公司或机构以自由和自发的方式将员工的过去执行的任务拆下,并将其分发给非特定的公众。“众包”可以使发包方以更短的时间、更低的成本获得更高质量的产出“如何吸引用户参与”是“众包”模式面临的一个重大挑战目前,关于软件众包参与度的研究比较匮乏,但是存在一些非软件众包任务用户参与动机、参与行为的研究我们结合全球最大软件众包平台TopCoder的任务数据,对软件众包任务的参与度进行研究,回答以下三个问题:1.哪些因素会对软件众包任务的参与度产生影响,如何影响?2.软件任务发布前,怎样提前预估任务的参与度?3.发包方或众包平台应采取怎样的措施,降低软件众包任务的低参与风险?本文组织结构如下:第二部分介绍TopCoder平台和实验数据集.第三部分提出软件众包参与度影响因素的分析方法及实验结果.第四部分给出建立软件众包参与度预测模型的方法及实验结果.第五部分总结研究得出结论.2经验数据集2.1包流程及内容TopCoder社区成立于2001年,注册用户超过730,000人,定期举行算法竞赛的同时,以“众包”形式为Google、Facebook、Amazon、IBM、Microsoft等客户发布软件任务,获取盈利.TopCoder软件众包流程如图1.首先,TopCoder根据客户需求发布软件众包任务;接着,社区用户选择感兴趣的任务注册参与,本研究将软件众包任务的参与度定义为此阶段的注册人数;然后,注册用户依据任务要求在规定的时间内提交软件作品;任务提交截止后,TopCoder会安排2–3名有经验的专家,对所有作品进行评审,接包方如果对评审结果有异议,可在评审结果发布的24小时内上诉;评审结束后,优胜的接包方将获得任务奖金.TopCoder上软件众包任务的组织架构如图2.软件应用的研发过程分为需求分析、体系结构、组件设计、组件开发、组件集成、应用测试等阶段,前阶段的最优产出作为后阶段输入.每个阶段不同类型的任务被发布,如需求分析阶段,主要发布Specification和Conceptualization类型的软件众包任务.2.2面向终身教育的任务参与度2003年9月至今,TopCoder共发布了3061个组件设计任务和3172个组件开发任务.其中1336个可重用组件,包括836个Java组件,500个.Net组件,设计和开发阶段的产出大部分被TopCoder公开.由于不同阶段软件任务参与度影响因素的度量方法不同,同时,TopCoder公开组件数据的开放性最高,故以TopCoder公开组件的开发任务为经验数据集,研究软件众包任务的参与度.基于scrapy框架,我们编写爬虫程序爬取了所有公开组件的信息,包括各个组件对应的设计任务、设计产出、开发任务、开发产出数据.因为一些组件设计阶段或者开发阶段数据缺失,共爬取到932个组件为了计算这些组件对应的平台、竞争等维度数据,使用爬虫爬取了TopCoder上所有组件开发任务的数据,一些组件开发任务参数的缺失,导致共爬取到3122个组件开发任务.3该软包项目的影响因素分析3.1影响因素识别软件众包参与度影响因素分析方法的框架如图3.首先,分析经验数据集并结合一般众包任务用户参与影响因素的研究,从任务参数、任务复杂度、前阶段产出、平台活跃度、同期竞争五个维度提出可能对软件众包任务参与度产生影响的潜在因素.接着,计算各潜在因素与参与度间的相关系数,识别与软件众包任务参与度显著相关的因素.描述两个变量间相关关系的统计量主要包括Pearson相关系数和Spearman相关系数其中,d最后,使用多元回归方法建立各影响因素与参与度之间的分析模型.以前一阶段得到的与软件众包参与度显著相关的因素为自变量,参与度为因变量,建立如下多元回归模型:考虑到与软件众包参与度显著相关的因素间有可能出现彼此相关,即因素间不独立的情况,如果直接使用这些因素建立多元回归模型,模型中将出现多重共线性,造成回归结果混乱.为了消除多重共线性对分析结果的干扰,我们采用具有最优变量筛选效果的逐步回归方法3.2结果3.2.1潜在影响因素我们对TopCoder软件任务进行分析,从任务参数、任务复杂度、前阶段产出、平台活跃度、同期竞争五个维度提出31个可能影响软件众包任务参与度的潜在因素.各因素的度量方法及统计描述属性如表1所示,第4列有效N表示对应因素上具有有效值的数据量.3.2.2显著性水平软件众包任务参与度与各潜在影响因素之间的Spearman相关系数计算结果如表1.在0.05的显著性水平下,与软件众包任务参与度显著相关的因素包括:类型(如果任务类型为Java,值为1;任务类型为.Net,值为0)、名称长度、描述长度、技术要求数、前阶段参与度、前阶段提交人数、前阶段通过人数、前阶段获胜者排名、活跃提交用户数、近期任务平均参与度、同期同类任务数.3.2.3多元线性回归分析经分析,11个与软件众包参与度显著相关的因素中,存在2个或2个以上因素彼此不独立.例如,前阶段提交人数与前阶段通过人数两个因素就高度相关,二者之间的Spearman相关系数为0.959,显著性水平小于0.001.结合逐步回归方法建立软件众包参与度的分析模型,共进行了9次变量筛选.前8次变量筛选时,模型中依次引入了前阶段参与度、技术要求数、类型、名称长度、近期任务平均参与度、活跃提交用户数、同期同类任务数、描述长度等8个因素,且没有变量被剔除.第9次变量筛选时,尝试引入前阶段提交人数、前阶段通过人数、前阶段获胜者排名3个因素中的任何一个时,该因素对参与度均无统计显著性,即变量的t检验不通过,因此模型建立过程终止,结果如表2.回归模型的总体P值小于0.001,说明可用多元线性回归分析各因素对参与度的影响;8个自变量的P值均小于0.05,认为这8个因素对软件任务参与度的影响是显著的;各因素的方差膨胀因子(VIF)均小于1.5,故模型中不存在多重共线性.由多元回归结果可知:影响软件众包任务参与度的因素包括类型、名称长度、描述长度、技术要数、前阶段参与度、活跃提交用户数、近期任务平均参与度、同期同类任务数.其中,Java任务比.Net任务更受欢迎,如果软件类型是Java,参与度将提高3.886;任务名称每增加1个英文单词,参与度降低1.491;任务描述每增加1个英文单词,参与度降低0.017;技术要求数目每增加1,参与度降低1.533;前阶段参与度每增加1,参与度将提高0.884;活跃提交用户数增加1时,参与度提高0.008;近期任务平均参与度增加1时,参与度提高0.281;同期同类任务数增加1时,参与度降低0.197.研究发现,软件众包参与度的影响因素并未包括一般众包任务用户参与行为的相关文献4关于软件包参与预测模型的研究4.1多源异构模型预测技术软件众包参与度预测模型的建立过程如图4:首先,标记软件众包任务参与度所属类别.注册参与软件众包任务的用户不一定能够在规定的时间内提交软件作品.众包模式下,软件作品的提交类似于商品交易中的投标,中华人民共和国招投标法规定投标人数不应少于三个然后,划分经验数据集,将数据集划分为训练集和检验集,以便对模型的预测效果进行评估.我们使用十折交叉验证接着,结合数据挖掘领域的分类预测模型对软件众包任务的参与度进行预测,对比预测效果.数据分类的基本技术有决策树、贝叶斯网络、神经网络、支持向量机、逻辑斯蒂回归等.决策树是一种类似于流程图的树结构,每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,每个树叶节点存放一个类标号最后,以具有最优预测效果的模型为基础建立软件众包任务参与度的预测模型.如果依据基本数据挖掘算法得到的预测模型较为复杂,考虑模型简化的方法,使模型具有更高的实用价值.4.2结果4.2.1不同参与度条件下软件众包投标人数的变化TopCoder公开组件开发任务参与度的分布如图5.从图中可以看出,软件任务的注册参与人数从0到93不等,主要集中在0到32之间,参与度大于32的软件众包任务较少.对不同参与度条件下软件众包的平均投标人数进行分析,结果如图6:当软件众包任务的参与度在0到32之间变化时,随着参与度的增加,投标人数也有不断增加的趋势;当软件众包任务的参与度大于32时,投标人数的变化趋势波动较大,这是因为参与度大于32的软件众包任务较少,导致平均投标人数的估计存在偏差.由于参与度小于等于11的软件众包任务平均投标人数均在三个以下,而参与度大于11的软件众包任务的平均投标人数也都大于三个,因此,将参与度大于11的任务标记为“高”参与度,记为C4.2.2国外组件划分剔除在8个参与度影响因素上存在缺失值的软件任务,共得到912个组件数据,随机将其划分成十个互不相交的子集或“折”,如表3.从表中可以看出,各折数据量分配均匀,C4.2.3模型预测正确率评估结合多种分类模型对众包模式下软件任务的参与度进行预测,使用十折交叉验证法评估各模型的预测正确率,结果如下:从图7所有预测模型效果的对比可以看出,C5.0决策树具有最优预测效果,支持向量机、神经网络、逻辑斯蒂回归模型次之,CART决策树、QUEST决策树、CHAID决策树模型的预测效果最差.4.2.4软件众包任务参与度预测模型及对发包方的启示鉴于C5.0决策树在软件众包任务参与度预测效果上表现最优,在其基础上建立软件众包任务参与度的预测模型.C5.0算法在默认条件下构建的决策树复杂度较高、模型难于理解,因此,需要对决策树剪枝.通过提高C5.0决策树的修剪纯度,可获得更小更简洁的决策树由图8可知,随着剪枝纯度的不断增加直至95,预测正确率、C为了得到尽可能简单、易于理解的参与度预测模型,将C5.0决策树的修剪纯度设定为95,得到如图9所示决策树预测模型:从软件众包任务参与度的预测模型可以看出,各因素对软件众包任务参与度的影响与使用多元回归所得结果基本一致:(1)Java任务比.Net更受欢迎;(2)名称长度、描述长度、技术要求数、同期同类任务数对参与度产生负面影响;(3)前阶段参与度、活跃提交用户数、近期任务平均参与度对参与度产生正面影响.软件众包任务参与度的预测模型使发包方或众包平台可以在软件任务发布前预估参与度,减小低参与度风险.结合软件众包任务参与度的预测模型,给发包方或众包平台提出如下建议:(1)软件应用如果没有平台要求的话,相比于C#语言开发,优先选择发布Java任务;(2)减少任务名称的长度,尽量使其小于等于4个英文单词;(3)尽量用精简的语言把任务描述清楚,描述单词数控制在128个以内;(4)尽量降低任务的技术要求数目,控制在5个技术以内,可通过任务拆分等方式实现;(5)提高前阶段任务的参与度;(6)在活跃提交用户数大于507时发布任务;(7)选择在任务平均参与度大于10时发布任务;(8)为了降低
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省文山壮族苗族自治州(2024年-2025年小学五年级语文)人教版期末考试(下学期)试卷及答案
- 工程制图教案创新:2024年的机遇与挑战
- 教育技术驱动:2024年《登上企鹅岛》课件的革新
- 《曾子杀猪》课件
- 新版2024年安全教育培训记录表设计与应用
- 2024年企业ERP采购流程重构培训
- 第47届世界技能大赛江苏省选拔赛网络系统管理项目技术文件V1.1
- 2024年XX企业社会责任与企业文化
- 2020盲盒经济洞察报告
- 《高科技智能住宅》课件
- 乐理知识考试题库130题(含答案)
- 人教版(2024)七年级地理上册2.2《地形图的判读》精美课件
- 2024年共青团入团积极分子团校结业考试试题库及答案
- 2024年辽宁高考历史试题(含答案和解析)
- 黄河商品交易市场介绍稿
- Unit 3 My friends Part C Story time(教学设计)-2024-2025学年人教PEP版英语四年级上册
- 2024中国海油校园招聘2024人(高频重点提升专题训练)共500题附带答案详解
- 孙中山诞辰纪念日主题班会主题班会
- 2024年安徽省合肥市中考语文题卷(含答案)
- G -B- 43630-2023 塔式和机架式服务器能效限定值及能效等级(正式版)
- 24春国开电大《工具书与文献检索》平时作业1-4答案
评论
0/150
提交评论