下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
社会调查数据建模及基于超图的数据分析方法社会调查数据建模及基于超图的数据分析办法
中图分类号:P208文献标识码:A文章编号:1672-3791〔2022〕02〔a〕-0003-04
Abstract:Inviewoftheproblemsofthesocialsurveydataprocessingandanalysis,thispaperestablishesthemathematicalmodelofthreedimensionalmatrixwhichisbasedonthethreedimensionalmatrix.Onthebasisoftheestablishedthreedimensionalmatrixmodel,wecanusethepropertiesofthreedimensionalmatrixtodealitwithavarietyofmathematicalmethods,andusethehypergraphtheoryforfurtheranalysis.Thisenrichesthemethodofthesurveydataprocessinggreatly.
KeyWords:Socialsurveydata;Three-dimensionmatrix;Hypergraph
社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的办法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析办法主要是基于题型进行处理的,对于题目和题目之间的关系很少关怀[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为办法的限制,所以现在很多社会调查只能验证事先想好的内容和若,很少可以对高维数据进行相对复杂的回归分析处理。
根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单项选择题、多项选择题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的根底。
1社会调查数据的特点
通常情况下,社会调查数据特点如下。
〔1〕相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,则该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。
〔2〕离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等办法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。
〔3〕含糊性。社会调查数据当中不可防止的会接触到各种叙述方式和概念,因此,它具有含糊性。
因为由自填式问卷或结构式访问的办法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理办法只能笼统的显示数据的局部特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。
而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个适宜的社会调查数据的数学模型来完善原先的办法并使跟多的数据挖掘办法可以运用到其中,使得结果更准确。
2社会调查数据的建模
研究中我们发现,三维矩阵可适用于社会调查数据的建模。
2.1三维矩阵的定义
三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。
2.2三维矩阵模型的建立
调查问卷的题目一般有三种类型:单项选择题、多项选择题和排序题。这三类题目都可以表示成向量的形式,其中每一道单项选择题、多项选择题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单项选择题和多项选择题,可以按选项的顺序可以表示成一个向量,其当选中的项用“1〞表示,未选中的项用“0〞表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示〔M为题目的最大选项数〕,其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单项选择题选择“B〞,用向量表示为一个元素,第2题为多项选择题选择“ACE〞,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。
则,若有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷当选项最多的题目的选项个数。
在此根底之上,这样的三维矩阵具有下列性质。
〔1〕在题目轴当选取对应的题目,将三维矩阵面向竖切得到截面1〔如图2中01所示〕,截面2表示每一道题所有人选择的信息。
〔2〕在人数轴当选取对应的人,将三维矩阵横切得到横截面1〔如图2中02所示〕,横截面1表示对应的人选择所有题目的信息。
在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的那么空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此根底上进行后续算法处理。
上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的根底上,采用超图理论可以大大丰盛了调查问卷的处理办法。
3基于超图算法的调查问卷分析技术
超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限汇合的子系统,它是一个由顶点的汇合V和超边汇合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。
大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的假设干个选项同时被一个人选择,就用一条超边包围这些节点,则选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。
利用有向超图,可以将关联规那么表示成有向超图的形式,在得到了关联规那么后,设实际中得到的关联规那么的形式为:,前项和后项都是由多个项组成的汇合。该文定义一条关联规那么由一条有向超边表示,有向超边的头节点表示关联规那么的前项,有向超边的尾节点表示关联规那么的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规那么,从而可以使用相关算法进行冗余规那么检测。
通过基于有向超图的冗余规那么检测就可以将关联规那么之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。
传统的聚类办法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的办法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。
首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,那么它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的办法就可以得超边和权重。
然后,在根底此上,通过超图分割实现数据的聚类。假设设将数据分成k类,那么就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。
如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图,主要包括4个主要局部,一是用向量表示调查问卷结果,二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果,三是使用超图算法进行优化,四是根据要求显示调查问卷结果。
4结语
该文针对社会调
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44821.1-2024平流层飞艇通用技术要求第1部分:环境控制系统
- 2024年度文化产业项目投资与孵化合同3篇
- 04版房地产开发合同2篇
- 2024年度网络游戏开发与运营合同:某游戏公司与某运营商之间的合同
- 班会课件主题班会做有责任心的人
- 2024年度禽畜粪便处理服务合同2篇
- 世界地理复习课件全部
- 2024年度博物馆展览设计合同
- 2024年度电子商务培训服务合同
- 2024年度技术转让合同技术转让详细描述
- 高三英语一轮复习七选五深度剖析课件
- 二次结构施工培训
- 乐器租赁市场需求与增长潜力
- 视觉传达专业大学生职业规划
- 企业环保改造升级方案
- Zippo-2022原版年册(哈雷戴森系列)
- 大学生职业生涯规划专业选择与个人发展
- 《血细胞及其功能》课件
- 220kV电缆直埋要求
- 计算机网络谢希仁第八版课后答案第七版课后答案
- 商务旅行合同
评论
0/150
提交评论