




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、课 程 论 文( 2015/ 2016 学年 第一学期)课程名称数据挖掘论文名称写作时间年 月 日指导单位计算机学院、软件学院指导教师 学生姓名班级学号学院(系)管理学院专 业信息管理与信息系统基于大众数据的商业选址摘要在经济快速发展和市场竞争愈演愈烈的同时,不知不觉我们也已进入和生活在数据时代,我国各种产业都进入了一个更为激烈的竞争环境,尤以商业和房地产业为主。而目前我国许多商业机构普遍存在着各种问题,比如效益低下,地理位置不佳、规划性不够等问题。为了解决企业所面临的一些问题,本文主要研究了基于大众数据的商业选址问题以及选址问题背后所隐藏的发现,同时以国内非常普及和使用的网站“大众点评网”作
2、为研究问题的主要数据来源,虽然数据挖掘方法众多,但是主要用了关联规则和分类的方法来进行深入剖析,并利用非常流行小巧且开源的数据挖掘软件Weka做以辅助分析,主要分析地理位置对公司企业的是否会影响,地理位置对商业机构具有怎样的重要性,如何正确选择地址对商业机构的效益是否有增加,同时展示图表以增加计算结果的可视化,在将显示结果和生活常识的结合下,预测商业选址对房地产产业开发是否具有一定的意义和参考价值。关键词:选址 关联规则 决策树The commercial location based on mass dataAbstractIn the rapid development of econom
3、y and the growing competition in the market at the same time, we also have entered imperceptibly and living in the age of data, a variety of industry of our country has entered a more fierce competitive environment, especially in the commercial and real estate. While many of the current commercial i
4、nstitutions in China generally exist various problems, such as low efficiency, poor location, planning is not enough etc. In order to solve some of the problems faced by the enterprises, this paper mainly studies the mass data of commercial location problem and the location problem of hidden behind
5、the discovery based on, at the same time to home is very popular and the use of the site "the masses comments on a net" as the main data source of research problems, although the number of data mining methods, but the main use of the method of correlation analysis and the classification an
6、d prediction of statistical method, to carries on the thorough analysis, and using the very popular small and open source data mining software Weka to do to assist the analysis, the main analysis of the geographic location of the company would affect, geographic location is how important to business
7、es, how to choose the correct address to the commercial institutions benefit if there is an increase in at the same time chart, to increase the visualization of calculation results, combined with the results in displays and common sense of life under the commercial location prediction of whether it
8、has a certain significance and reference value for the development of real estate industry.Key words:Location Statistics Correlation rules Decision tree一、研究问题及背景商业设施选址不仅是城市规划建设中不可或缺的一部分,而且对企业经营与商业战略的实现有着举足轻重的地位,商业地址选择正确与否在很大程度上影响着企业未来的发展与预定商业目标的实现,同时对商业地区周边的房地产开发也具有决策性的意义和指导。因为商业及房地产产业甚至第三产业给全国经济带来的
9、影响日益增大,如何利用社会中现存的各种大量显见的或是隐藏的知识为整个企业增加经济效益从而推动经济发展成为企业的工作和发展核心,乃至成为企业的核心竞争力,而大量有用的知识存在于大量的原始数据中,得通过一定技术和分析发现和挖掘其中的技术,然后应用于企业发展。目前的各种数据库系统可以高效的实现大数据的录入、统计、查询等功能,但无法根据现有的数据发现其中存在的关系和规则,无法对未来的发展趋势进行预测,缺乏挖掘数据背后隐藏的知识的方法,存在着“数据爆炸但知识贫乏”的现象。因此,这就急需某种方法来完成这个知识发现的过程,数据挖掘是从大量的,不完全的,有噪声的,模糊的,随即的数据中,提取隐含在其中的,人们事
10、先不知道的,但有潜在的有用信息和知识的过程。 在商业、房地产、通信等行业中,集中了大量的数据,但这些数据被分散的储存于各个业务部门的数据库中,而数据挖掘需要将这些数据以一种有效的集中和统一机制集中起来并统一整理后才能获取知识。为了研究上述问题,决定采用数据挖掘中的关联规则挖掘技术。就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则对
11、规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,也能发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则的挖掘技术在我国的研究与应用很广泛深入。因此,使用关联规则的挖掘技术来研究这个问题是非常合适的。2、 数据介绍1、数据对
12、象1 数据标题:超900万大众点评网2014年4月份数据更新(样例)。2 数据来源:数据堂是国内首家专业的科研数据共享服务平台,致力于为国内外高等院校、科研机构、研发企业及相关科研人员提供科研数据支持。 3 数据大小:样例大小734KB。(具体数据可见附件)。4 数据产品概况:本数据为大众点评网在2014年4月份更新后的商家数据,超过900万条商家数据(因为价格原因无法得到全部数据,所以只能获取其中部分数据),包括商户ID、商户名称、所处地市区、具体地址、商户分类、联系电话、营业时间、平均消费费用、会员卡服务等数据项。5 数据背景介绍:随着互联网的出现与飞速发展,人们的生活方式一直在发生着巨大
13、的变化。特别是交通、购物、饮食、住宿、教育等各方面均受到来自互联网的极大的影响。6 大众点评便是一个影响人们日常生活,方便人们娱乐、饮食的点评网站。大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站。大众点评不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购、电子会员卡及餐厅预订等O2O(Online To Offline)交易服务。大众点评是国内最早开发本地生活移动应用的企业,已经成长为一家移动互联网公司,大众点评移动客户端已成为本地生活必备工具。7 数据应用方向:1)基于大众消费数据的商业选址 2)基于大众消费与商家位置分布的交通规划 3
14、)一种构建电子商务评论网的交易模式 4)基于大众消费数据与商家位置分布的房地产开发 5)大众消费心理分析与研究。8 数据应用机构:该数据可应用于点评网站、电子商务网站、房地产开发商、政府规划单位以及进行大众消费相关研究的高校和研究机构等。2、数据预处理9 数据预处理的原因:现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。也就是说,数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转
15、换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等,早实际的数据预处理过程中,这4种功能不一定都用得到,而且,他们的使用也没有先后顺序,某种预处理可能先后要多次进行。 这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。10 数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据,空缺值,识别删除孤立点等。第一,噪声:噪声是一个测量变量中的随即错误和偏差,包括错误的值或偏离期望的孤立点值,对于
16、噪声数据有如下几种处理方法:分箱法,聚类法识别孤立点,回归。第二,空缺值的处理:目前最常用的方法是使用最肯定的值填充空缺值,如用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按照某些 属性分类,然后用同一类中属性的平均值填充空缺值。第三,清洗脏数据:异构数据源数据库中的数据并不都是正确的,常常不可避免的存在着不完整,不一致,不精确和重复的数据,这些数据统称为“脏数据”,脏数据能使挖掘过程陷入混乱,导致不可靠的输出。清洗脏数据可采用下面的方式:1手工实现方式,2用专门编写的应用程序,3采用概率统计学远离查找数值异常的记录,4对重复记录的检测和删除.本文例子,由于从网上下载的数据形
17、式是excel形式文件,所以结构方面没有问题。对于缺省值,因为已经无法获取真实的数据,所以或将所有元组按照某些属性分类,然后用同一类中属性的平均值填充空缺值。对软件提示错误的值为了避免挖掘过程陷入混乱,导致不可靠的输出,则用手动删除方式删除了几条数据。三、研究方法及原理1、数据挖掘的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数
18、据挖掘也叫知识发现的过程。2、 J48决策树J48 即决策树 C4.5 算法。C4.5 算法一种分类决策树算法 , 其核心算法是 ID3 算法。C4.5 算法继承了 ID3 算法的优点,并在以下几方面对 ID3 算法进行了改进:用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对连续属性的离散化处理;能够对不完整数据进行处理。C4.5 算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。3、关联规则提出背景:1993年,Agrawal等人在首先提出关
19、联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现
20、顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。简要介绍:关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。基本概念:关联
21、规则定义为:假设是项的集合,给定一个交易数据库, 其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如的蕴涵式, 其中且, 和分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)。关联规则在D中的支持度(support)是D中事务包含的百分比,即概率;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则称关联规则是有趣的。这些阈
22、值由用户或者专家设定。4、关联规则算法:Apriori算法Apriori算法的预备知识关联规则的挖掘分为两步:(1)找出所有频繁项集;(2)由频繁项集产生强关联规则。而其总体性能由第一步决定。在搜索频繁项集的时候,最简单、基本的算法就是Apriori算法。它是R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性算法。算法的名字基于这样一个事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1。然后
23、,L1用于找频繁2项集的集合L2,L2用于找L3,如此下去,直到不能再找到频繁k项集。找每个Lk需要一次数据库全扫描。为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质用于压缩搜索空间。Apriori性质:频繁项集的所有非空子集也必须是频繁的。Apriori性质基于如下观察。根据定义,如果项集I不满足最小支持度阈值min_sup,则I不是频繁的,即P(I)<min_sup。如果项A添加到项集I,则结果项集(即IA)不可能比I 更频繁出现。因此,IA也不是频繁的,即P(IA)<min_sup。Apriori算法的核心思想该算法中有两个关键步骤连接步和剪枝步。(1) 连
24、接步:为找出Lk(频繁k项集),通过Lk-1与自身连接,产生候选k项集,该候选项集记作Ck;其中Lk-1的元素是可连接的。(2) 剪枝步:Ck是Lk的超集,即它的成员可以是也可以不是频繁的,但所有的频繁项集都包含在Ck中。扫描数据库,确定Ck中每一个候选的计数,从而确定Lk(计数值不小于最小支持度计数的所有候选是频繁的,从而属于Lk)。然而,Ck可能很大,这样所涉及的计算量就很大。为压缩Ck,使用Apriori性质:任何非频繁的(k-1)项集都不可能是频繁k项集的子集。因此,如果一个候选k项集的(k-1)项集不在Lk中,则该候选项也不可能是频繁的,从而可以由Ck中删除。这种子集测试可以使用所有
25、频繁项集的散列树快速完成。Apriori算法描述 Apriori算法,使用逐层迭代找出频繁项集。 输入:事务数据库D;最小支持度阈值min_sup。 输出:D 中的频繁项集L。 1)L1 = find_frequent_1_itemsets(D); 2)for (k = 2; Lk-1 ; k+) 3)Ck = aproiri_gen(Lk-1,min_sup);
26、60; 4)for each transaction t D /扫描 D 用于计数 5)Ct = subset(Ck,t); /得到 t 的子集,它们是候选 6)for each candidate c Ct 7)c.count+; 8) 9)Lk=c Ck | c.count min_sup 10) 11)return L = kLk; Procedure a
27、priori_gen (Lk-1:frequent(k-1)-itemsets) 1) for each itemsets l1Lk-1 2) for each itemsets l2Lk-1 3) if (l11=l21) (l12=l22)(l1k-2=l2k-2) (l1k-1<l2k-1) then 4) c=l1l2; / 连接步:产生候选 5) if has_infrequent_subset(c,Lk-1) then 6) delete c; / 剪枝步:删除非频繁的候选 7) else add c to Ck; 8) 9) return Ck; Procedure has
28、_infrequent_subset (c:candidate k-itemset;Lk-1:frequent(k-1)-itemsets) /使用先验知识Apriori算法评价 基于频繁项集的Apriori算法采用了逐层搜索的迭代的方法,算法简单明了,没有复杂的理论推导,也易于实现。但其有一些难以克服的缺点:(1)对数据库的扫描次数过多。在Apriori算法的描述中,我们知道,每生成一个候选项集,都要对数据库进行一次全面的搜索。如果要生成最大长度为N的频繁项集,那么就要对数据库进行N次扫描。当数据库中存放大量的事务数据时,在有限的内存容量下,系统I/O负载相当大,每次扫描数据库的时间就会很长
29、,这样其效率就非常低。(2)Apriori算法会产生大量的中间项集。Apriori_gen函数是用Lk-1产生候选Ck,所产生Ck由个k项集组成。显然,k越大所产生的候选k项集的数量呈几何级数增加。如频繁1项集的数量为104个,长度为2的候选项集的数量将达到5*107个,如果要生成一个更长规则,其需要产生的候选项集的数量将是难以想象的,如同天文数字。(3)采用唯一支持度,没有将各个属性重要程度的不同考虑进去。在现实生活中,一些事务的发生非常频繁,而有些事务则很稀疏,这样对挖掘来说就存在一个问题:如果最小支持度阈值定得较高,虽然加快了速度,但是覆盖的数据较少,有意义的规则可能不被发现;如果最小支
30、持度阈定得过低,那么大量的无实际意义的规则将充斥在整个挖掘过程中,大大降低了挖掘效率和规则的可用性。这都将影响甚至误导决策的制定。Apriori算法改进鉴于Apriori算法本身存在一些缺陷,在实际应用中往往不能令人感到满意。为了提高Apriori算法的性能,已经有许多变种对Apriori进一步改进和扩展。可以通过以下几个方面对Apriori算法进行改进:通过减少扫描数据库的次数改进I/O的性能。改进产生频繁项集的计算性能。寻找有效的并行关联规则算法。引入抽样技术改进生成频繁项集的I/O和计算性能。扩展应用领域。如:定量关联规则、泛化关联规则及周期性的关联规则的研究。频繁树(FP-Tree)算
31、法在上面介绍的Apriori算法中,由于Apriori方法的固有的缺陷还是无法克服,即使进行了优化,其效率也仍然不能令人满意。Han Jiawei等人提出了基于频繁模式树(Frequent Pattern Tree,简称为FP-Tree)的发现频繁项目集的算法FP-growth。这种方法在经过第一遍扫描之后,把数据库中的频繁项目集压缩成一棵频繁模式树,同时依然保留其中的管理信息。随后再将FP-Tree分化成一些条件库,每个库和一个长度为L的频繁项目集相关,然后再对这些条件库分别进行挖掘。当原始数据库很大时,也可以结合划分的方法使得一个FP-Tree可以放入主存中。实验证明,FP-growth对
32、不同长度的规则都有很好的适应性,同时在效率上较Apriori算法有巨大的提高。这个算法只进行两次数据库扫描,它不使用候选项目集,直接压缩数据库成一个频繁模式树,最后通过这棵树生成关联规则。4、 计算结果1、 实验图表J48决策树关联规则Apriori算法五、结论和建议1、结论1 J48决策树如图中,Correctly Classified Inatances 为48%,Incorrectly Classified Instances为51%,足以说明J48决策树对本文所研究的问题来说是一个很不好的模型。2 关联规则如图中Apriori / Apriori算法运行结果Minimum suppor
33、t: 0.25 (249 instances) /最小支持度0.25,即最少需要249个实例Minimum metric <confidence>: 0.9 /最小度量<置信度>: 0.9Number of cycles performed: 15 /进行了15轮搜索Generated sets of large itemsets: /生成的频繁项集 Size of set of large itemsets L(1): 3 /频繁1项集:7个Size of set of large itemsets L(2): 3 /频繁2项集:3个Size of set
34、of large itemsets L(3): 1 /频繁3项集:1个2、建议1) 选址分析可以帮助你选择消费频繁的地区。想法是:消费的地方离的近一些,组成购物区,以便进一步刺激客户在这些商业机构的消费状况。例如,人们在选择的吃饭或者消费的地方时,肯定希望周边有多家商店可以同时选择,所以如果附近有多家商店的话,可能有助于增加消费状况。这是在选择同类商品的情况下。2) 如果周边有多家饭店有不同的美食,可能诱发来消费的顾客一路挑选其实东西。例如,在吃过主食之后,回去的途中,看到了奶茶或者饭后甜点,可能会决定再买点饭后甜点好了。3) 选址分析也可以帮助不同类的商店具体分布情况,如果奶茶店离主食店很近
35、,那么会同时刺激消费,也会形成地区影响。如果人们普遍认为这个地区附近的东西比较好,会比较趋向与经常来这边消费。4) 同时,这也是房地产商非常关心的问题。如果房地产选择的开发区附近有购物广场或者购物区,那么这也会为他们的房子增值不少。六、评价1、遇到的问题及解决方案1 数据采集问题:由于挖掘结果、数据量大和数据权威性的要求,对我在数据采集上造成了困难。解决办法是:在数据堂网站上搜集到了相对完整和准确的大量数据。2 Weka中文乱码的问题:由于Weka的默认字符集编码是CP1252,所以如果导入的数据文件中包含中文字符,就会出现乱码的情况。解决办法是:在Weka的安装目录下找到RunWeka.in
36、i文件,找到fileEncoding一行,将Cp1252修改为UTF-8,这样就能正常显示中文了。若仍有问题,则改为GB2312。3 Weka使用的问题:虽然Weka软件是非常小巧而且流行的数据挖掘软件,但是由于我之前从未接触过,因此很不熟悉软件的使用方法和不习惯使用界面,尤其是由于全英文界面,且对英文版的专业术语不懂,所以对数据挖掘造成了一定的阻碍和困难。解决办法是:熟悉软件的界面和软件的使用。4 论文写作经验缺乏的问题。2、对论文的评价首先,说明本篇论文设计的目的及意义。数据挖掘技术在时代中所起的作用都是有目共睹的,论文的主题是基于大众数据的商业选址,利用数据挖掘算法作为研究的工具符合时代的要求,如果数据量足够完整,能够为商业选址问题提供的指导性方法。因此,基于数据的商
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- SQL命令使用实践试题及答案
- 财务管理中的常见逻辑题目与试题及答案
- 解析2025年税法考试试题及答案技巧
- 计算机二级C++考试思路分享试题及答案
- 财务成本管理中逻辑思维的应用实例试题及答案
- 2025劳动合同中关于竞业限制条款的问题
- C++语言规范考题及答案简述
- 201225年计算机基础知识考试试题及答案闯关
- 财务成本管理与环境政策的试题及答案研究
- 揭秘MySQL考试高效复习方法试题及答案
- 苏州市建设工程造价计价解释
- 煤矿机电设备春季预防性检修计划
- 2017年山东、临沂爆炸事故案例分析
- 工贸企业安全管理台账资料
- 三方协议书(消防)
- S771(一) 水力循环澄清池
- 预激综合征临床心电图的当前观点
- 高密度电法探测及数据处理解释--答辩
- 阀门检修作业指导书讲解
- 毕业设计(论文)秸秆粉碎机的设计(含全套图纸)
- 体育测量与评价PPT课件-第五章身体素质的测量与评价
评论
0/150
提交评论