




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、持搬努挢与珊巍社会网络关系数据智能采集系统的设计与实现基于数据挖掘原理张小飞蔡亚萍刘威(南京师范大学数据挖掘实验室南京)【摘要】基于数据挖掘原理,设计并实现一个针对虚拟社区社会网络分析的关系数据智能采集系统,从系统设计与关键模块实现两个方面进行详细介绍。最后,以“苏州计算机教育论坛”为实验对象,证实本系统能够极大提高数据采集的效率,得到的数据能够满足社会网络分析软件的要求。【关键词】社会网络分析关系数据智能采集数据挖掘【分类号】(,)【】(),【】研究背景与目的社会网络分析方法的发展社会网络分析(,)方法是通过对行动者之间的关系与联系的联结情况进行研究与分析,归纳出行动者的社会网络信息,进一步
2、观察并了解行动者的社会网络特征。随着网络技术的发展,人们越来越多地通过网络进行沟通、交流以及形成人际关系。在这样的时代背景下,从人类学、心理学、社会学、传播学、数学以及统计学领域中发展起来的社会网络分析开始用于网络时代虚拟社区中人际交流的研究。虚拟社区的研究现状在虚拟社区繁荣的早期,以等人为代表的学者就开始对虚拟社区进行社会学研究。近年来,收稿日期:一收修改稿日期:圜现代图书情报技术总第期年第期国内外学者开始重视利用方法来研究虚拟社区,其中比较典型的研究案例包括:、胡勇”。、刘荣光。、王陆对中的群体互动特点及个体角色等问题的研究;“、黎加厚、叶新东旧等对博客中的对话特征、教育博客共同体的关系、
3、博客群的社群特点等问题的研究。另外,基于方法提出了一种在线协作学习环境交互分析的新方法。通过文献研究,可以看出这类型的研究大致都遵循以下技术路线:确定网络边界;采集关系数据;建立关系矩阵;使用软件进行数据分析。虚拟社区研究中关系数据采集的问题及解决方案目前,国内在方面的研究基本都集中在关系数据的分析层面,数据的采集主要通过人工统计。、调查问卷哺或直接访问数据库。得到。但是由于权限的限制,研究者大都无法获得数据库的直接访问,同时由于上海量数据的存在,人工统计或调查问卷也将是一项枯燥而耗时耗力的工作。因此国外的部分学者提出了一些基于的关系数据自动采集方法,如基于网络日志的方法”“,基于文本内容分析
4、的方法¨等。前者因为网络日志文件的可利用性因素,并不适合各类虚拟社区的关系数据采集,后者借助了一些自然语言处理的方法,如命名实体识别,在一定程度上增加了系统的复杂性。考虑到虚拟社区页面结构化的特点,以论坛为例,其一般由版块页面、主帖页面、回复页面种类型的页面构成层级的网站结构,且这些页面通常是服务器基于特定模板自动生成。因此笔者采用模式匹配的思想,设计并实现了一种针对这种半结构化文档的关系数据智能采集系统。相对于日志分析的方法,其具有更广的适用性。相对于文本内容分析,其在一定程度上降低了系统的复杂性,提高了系统的采集效率,因此更适合于海量数据的环境。需求分析及系统设计系统需求社会网络
5、分析的目的在于发现网络中行动主体之间的结构及其交互关系。笔者选取了一个典型的计算机教育虚拟社区“苏州计算机教育论坛”中的“园区教研”版块为研究对象。在该社区网络中,行动主体 表现为论坛中活动的注册用户,主体之间的结构及其关系则由用户发帖来体现。基于此目的,本系统主要采集如下信息:()谁和谁产生了交互(关系的存在性);()交互的次数(关系的强度)。为了便于量化统计,本文作如下规定:()当用户回复他人发表的主帖时,即认为该用户与主帖人产生了交互,方向为用户指向主帖人;()用户在回复他人主帖的同时引用了其他人的话语,则认为该用户同时与主帖人和被引用人产生了交互,方向为用户指向主帖人和被引用人。系统框
6、架及其功能本系统的主要功能是定点从用户指定的站点、博客群等虚拟社区网站中提取用户的交互数据,为基于网络的研究提供准确、便捷的数据来源。结合数据挖掘中搜索引擎的设计思想,笔者设计并实现了如下系统原型,主要包括页面下载、数据提取、数据存储、数据转换等几个关键模块,如图所示:一一一一一一一一一一一一一一一一一一一一一图系统框架图页面下载模块根据用户定义的规则有选择地下载目标区域中特定类型的页面,以供本系统内部数据提取模块作进一步处理。数据提取模块根据用户配置的模式,从网页文本中提取用户关注的结构化信息,如用户信息、主帖信息、用户交互信息等,为后续数据转换模块的处理提供结构化的数据源。同时,该模块还将
7、不断发现目标区域新的下载任务,从而使下载模块遍历完指定区域的所有网页。数据存储模块是系统业务逻辑和(数据库管理系统)之间的一个桥梁,它封装数据库底层操作的逻辑细节,为其他业务逻辑提困攘撼凳耩鸯耕巍供简洁一致的数据访问接口。数据转换模块对中的结构化数据作进一步的转换处理,以生成软件所支持的数据格式。本系统的主要任务在于统计中存储的用户交互记录,然后生成矩阵表示的数据文件。关键模块实现本系统以作为开发语言,作为集成开发环境,数据库采用,同时为了提高数据的访问效率,采用开源数据库连接池管理底层数据库连接。以下对本系统各关键模块作详细说明。页面下载模块页面下载模块是一个多线程的下载程序,为了防止同一任
8、务的重复处理而影响最终数据的准确性,整个模块由统一的任务管理器负责调度。各下载线程向任务管理器发出任务请求,接到请求之后,任务管理器从任务池中获取一定数量处于“等待处理”状态的任务,修改其状态为“正在处理”,然后交给相应下载线程进行下载。同样处理完成的任务也将被提交至任务管理器,其修改任务池中相应任务为“已处理”状态,处理逻辑如图所示:图下载模块处理逻辑数据提取模块数据提取模块封装了与具体业务无关的提取逻圈现代图书情报技术 辑,采用基于正则表达式的渐进式模式匹配策略实现数据的提取。为了保证数据提取的准确性,目标数据模式由人工分析目标类型的页面得到。该模块设计了“匹配结果缓存”、“待处理匹配模式
9、队列”两种数据结构来辅助提取逻辑的实现,其中前者存储针对特定页面类型的数据提取模式,后者存储已处理的匹配模式及其匹配结果,如表和表所示:表匹配结果缓存原始页面内容匹配结果缓存(注:“”存储已处理的匹配模式,“”存储该模式的匹配结果)表待处理匹配模式队列(注:“”存储匹配模式标识,“”存储待处理的匹配模式,“”存储该模式将要匹配的数据源标识,具体对应“匹配结果缓存”某缓存项的)信息提取模块按顺序依次处理“待处理匹配模式队列”中存储的模式队列,然后把匹配结果存入“匹配结果缓存”,这些缓存结果作为后续匹配任务的数据源作进一步提取,所以整个过程是一种渐进式的、逐级细化的数据提取过程,其处理逻辑如图所示
10、:图数据提取模块处理逻辑网数据流:竺总第期年第期其中数据流表示把原始页面以作为标识存人“匹配结果缓存”,表示依据当前模式值提取“匹配结果缓存”中对应的缓存项作为匹配数据源,表示以当前模式值为,把匹配结果存入“匹配结果缓存”。以园区教研版块的回复页面为例,为提取发帖用户名和用户,构造了如表所示的匹配模式队列,整个提取过程如表所示。对于一个页面,只需顺序处理该队列一次,便可抽取到页面的所有用户信息。为了保证同一页面多个用户名和用户的对应关系,匹配结果缓存中的各缓存项依据匹配区域进行分组。表用户回复页面的匹配模式队列工鼍野啤“、”、抵“”。?矗表用户回复页面用户名和用户的数据提取过程步骤描述匹配绩果
11、寰翟寞二囊嶝纛翼馨篓量翼存中标页面的整个发帖区识的缓存内容,即原始页面内容“厦用”稷虱十“俣瓦朋匹笫呆友帖雎各个早弛用尸陌应用“”模式于“”模式的匹配结果盖鍪用户帖的用户描述应用“”模式于”模式的匹配结果星嵩罂述区的忙标槲模式于模式的匹配结果然标霎嚣容中的应用”模好模式的匹配结果磊篇;錾签内容中包含应肘”模式于”模式的匹配结果磊名;警内容中包含数据转换模块用户交互信息最终被结构化地存储在数据库之中,数据转换模块负责读取其中的数据,然后输出为软件所支持的数据格式。本模块首先在发帖记录表、主帖信息表、用户信息表的基础上构建“回帖记录视图”,然后构建用于统计的哈希表结构,如图所示。数据转换模块依次遍
12、历“回帖记录视图”的各条记录,然后统计由交互施事,交互受事标识的交互交互统计哈希表交互事件交互次数交互施事交互受事次数图回帖记录视图和交互统计哈希表事件次数,存入交互统计哈希表。最后在交互统计哈希表的基础上生成以矩阵形式表示的用户交互矩阵,并输出为众多软件均支持的数据文件,其处理逻辑如表所示:遍历回望己录视图累蓑蔷。统计交互记录一交互统计哈希表:交互矩阵卜生成交互矩阵:数据叫输出交互矩阵数据一文件。同控制流数据流、,图数据转换模块处理逻辑案例结果分析笔者利用该关系数据采集系统对“苏州计算机教育论坛”的“园区教研”版块进行实验,得到个活动用户的×维加权关系矩阵,将其命名为“”。由于节点
13、数过大,笔者选取其中入度中心度最高的个成员节点,列出其×的关系矩阵,如表所示。矩阵中横向用户表示交互动作的发起者,数字代表交互的次数,例如:冬至对肖年志的主动交互次数为次,而肖年志对冬至的主动交互次数为次。本系统暂不关注用户与自身的交互,故将对角线上的数据置。目前,虚拟社区研究中的数据分析主要依靠各种计算机辅助手段实施,常用的软件包括囫蟹熙一耩攥势撩鸯研究表人度前位的成员关系矩阵肖年志冬至黄毅晟苏州布衣顾小虎蒋绘寰肖年志冬至黄毅晟苏州布衣顾小虎蒋绘寰、和等,根据和年的统计¨,大部分软件都支持矩阵的数据格式,将数据导入软件之后即可进行相关的分析和统计。笔者将导入中,对网络整体
14、特征进行分析,得到该网络密度为,中心度()为,聚类 系数()为。将其导人,绘制出如图所示的网络关系图,分析得到有位成员的入度为,占总数的,而入度前位的成员平均入度高达,由此可见该网络联系集中于少数核心成员,是一个具有较高中心性的网络。图整体网络图本系统共采集到“园区教研”版块条主帖,条跟帖,总耗时约分秒。如果采用人工方法进行统计,以记录一条跟帖信息需秒计算,总共所囚现代图书情报技术 需时间约为小时。由此可见,本系统极大提高了数据采集的效率,且得到的数据能够满足社会网络分析软件的要求。博磁铝舛¨嘲。甜鸲嘛一协一:总第期年第期 刘荣光,刘晓琴网络课程中讨论区交互特征的社会 结语 笔者在设
15、计过程中最大限度地考虑了系统功能模 网络分析以网络远程教育课程为例上海师范大 学学报:自然科学版,(): 王陆虚拟学习社区的社会网络分析中国屯化教育, (): , 块的通用性,如下载模块、数据存储模块基本上与具体 的业务逻辑相互独立。数据提取模块中与业务无关的 提取逻辑也被封装成通用模块,以供不同的数据提取 系统使用。但是该系统原型还是存在一些不足,例如 匹配模式队列的构建需要用户根据具体的数据需求手 工构建,这同时需要用户懂得正则表达式的知识。另 外数据转换模块的业务逻辑也与数据库关系模式存在 耦合。这主要因为社会网络分析本身具有极强的个案 性,即使是面对同类型的虚拟社区,不同研究对数据的
16、要求也不尽相同,这限制了其在实现上的通用性,将在 今后的研究中对系统的不足之处作进一步完善。 , , : ” ”: 啦 ,: ,: 叶新东,邱峰,沈敏勇教育技术博客的社会网络分析现 代教育技术,(): : ,:, 邱均平,于长福,马瑞敏图林博客的社会网络分析图书 情报工作,(): , , 参鸯变裁:。 刘军社会网络分析导论北京:社会科学文献出版社, : 咖 , , : : , 黎加厚,赵怡,王珏网络时代教育传播学研究的新方法:社会 网络分析以苏州教育博客学习发展共同体为例电化 教育研究,():一 : : : ,:, , 一: , , : 胡勇,王陆异步网络协作学习中知识建构的内容分析和社会 ,
17、: 网络分析电化教育研究,(): (作者:) 囫 万方数据 社会网络关系数据智能采集系统的设计与实现基于Web数 据挖掘原理 作者: 作者单位: 刊名: 英文刊名: 年,卷(期: 引用次数: 张小飞, 蔡亚萍, 刘威 南京师范大学Web数据挖掘实验室,南京,210097 现代图书情报技术 NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE 2009,(9 0次 参考文献(13条 1.刘军.社会网络分析导论M.北京:社会科学文献出版社,2004. 2.黎加厚,赵怡,王珏.网络时代教育传播学研究的新方法:社会网络分析-以苏州教育博客学习发展共同体为例
18、 J.电化教育研究,2007(8:13-17. 3.Tateo L.The Italian Extreme Right On-line Network:An Exploratory Study Using an Integrated Social Network Analysis and Content Analysis ApproachJ/OL.Journal of Computer-Mediated Communication.2009-06-03./vol10/issue2/tateo.html. 4.胡勇,王陆.异步网络协作学习中知识建构的内
19、容分析和社会网络分析J.电化教育研究,2006(11:30-35. 5.刘荣光,刘晓琴.Moodle网络课程中讨论区交互特征的社会网络分析-以网络远程教育课程为例J.上海师范 大学学报:自然科学版,2008,37(4:433-437. 6.王陆.虚拟学习社区的社会网络分析J.中国电化教育,2009(2:5-11. 7.Herring S C,Kouper I,Paolillo J C,et al.Conversations in the Blogosphere:An Analysis"From the Bottom Up"C.In:Proceedings of the 38
20、th Hawai'i International Conference on System Sciences.Los Alamitos,CA,USA:IEEE Press,2005:40-45. 8.叶新东,邱峰,沈敏勇.教育技术博客的社会网络分析J.现代教育技术,2008,18(5:48-53. 9.Repetto M.A Methodological Proposal to Analyse Interactions in Online Collaborative Learning EnvironmentsC.In:Proceedings of the 2nd PROLEARN Doctoral Consortium in Technology Enhanced Learning,Crete,Greece.Aachen:RWTH,2007. 10.邱均平,于长福,马瑞敏.图林博客的社会网络分析J.图书情报工作,2008,52(11:6-9. 11.Nurmela K,Lehtinen E,Pa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 烘焙店投资加盟合同范本
- 混凝土配料劳务合同范本
- 消防检测合同的补充协议
- 洗车店急需转让合同范本
- 漂流项目运营协议书范本
- 煤气管道转让协议书模板
- 泉州串串香加盟合同范本
- 物业顾问合同协议书范本
- 砂滤池清洗回填合同范本
- 铺面场地出租协议书模板
- 2025年广东省中考道德与法治试卷(含答案)
- 2025年度河南交通投资集团有限公司公开招聘82人(社招+校招)笔试参考题库附带答案详解版
- 2025江苏苏州昆山国创投资集团有限公司第一期招聘17人笔试参考题库附带答案详解版
- 2025至2030中国石墨制品行业市场深度调研及发展趋势与投资策略报告
- 医院选拔任用管理办法
- 钣金工知识培训课件
- 2025年安徽皖信人力招聘笔试备考题库(带答案详解)
- 四川省成都市2025年中考语文真题试卷及答案
- 燃气工程规范化管理课件
- QGDW11970.1-2023输变电工程水土保持技术规程第1部分水土保持方案
- 2025年七一党课-作风建设永远在路上学习教育党课
评论
0/150
提交评论