手机的多维数据关联分析研究_第1页
手机的多维数据关联分析研究_第2页
手机的多维数据关联分析研究_第3页
手机的多维数据关联分析研究_第4页
手机的多维数据关联分析研究_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGEII手机的多维数据关联分析研究摘要现在智能手机的普及度高,很多案件都涉及到手机,所以司法部门逐渐重视手机在司法程序当中的作用。智能手机从最开始的通信工具到现在能够进行各种生活活动的智能工具,变的越来越不可或缺。手机取证技术的发展就是智能手机强大数据功能的运用。但是现在智能手机的规格不尽相同,导致了其数据类型、数据处理方式、数据接口都不一样,所以手机取证还存在很多麻烦。基于此,本文研究了收集信息取证的概念、分析了数字证据的特点以及手机取证的原则,然后进一步探析了收集信息取证的原理,最后探究了数据挖掘对证据关联性的影响及分析,希望能对取证人员有所帮助。关键词:手机取证;数据挖掘;关联分析

目录摘要 I前言 1一、手机信息取证概述 1(一)手机信息取证的概念 1(二)数字证据的特点 1(三)手机取证原则 2二、手机信息取证原理 3(一)手机信息取证原理概述 3(二)手机信息取证对象 4(三)手机信息取证方法 5三、数据挖掘对证据关联性的影响及分析 6(一)数据挖掘的含义及方法 61.分类分析 62.聚类分析 63.关联分析 6(二)数据挖掘在手机取证领域的运用 71.异常点分析 72.关联分析 7(三)数据挖掘对证据关联性的影响 81.数据处理对证据效力的影响 82.关联规则的概率性对证据关联性的影响 8结语 9参考文献 10PAGE10前言智能手机的普及给人们的生活带来了翻天覆地的变化,在这个“机不离手”的时代,人们的一举一动都可以在手机上找到蛛丝马迹。无论置身办公场合还是娱乐场合,人们都可以使用手机进行上网、收发文件、视频对话等等交换信息的行为。一方面,这极大地扩展了信息传递的渠道;另一方面,这也使信息在更多地方留下了痕迹。因此,手机中所存储的电子数据在各类案件中的证据价值正日益凸显。相应地,电子数据的取证领域从传统的PC端又扩展到了手机端,手机取证技术在近几年也因司法实践的需求而得到了快速的发展。手机取证借鉴了很多计算机取证的思想,两者有很多相似之处,其对象都是表现形式多样、易于修改的电子数据,都适用电子数据取证的基本原则、框架和流程,在数据恢复、数据解析方面的技术都是相通的。不同的是,手机取证的可操作空间小,计算机取证可以将各个部件单独拆卸下来并重新组装回去,而手机的拆卸往往是不可恢复的。其次,手机的操作系统更新周期短,漏洞修复能力强,导致手机取证方法的适用范围小、有效期短暂。因此,手机取证技术除了存在电子数据取证过程中的共同疑难外,还有其独特的难题。一、手机信息取证概述(一)手机信息取证的概念手机信息取证(MobilePhoneForensics),本文简称手机取证,就是基于证据获取的理论原理和实践方法,在合法流程下,从犯罪现场和嫌疑人的手机设备当中获取数据,共司法程序使用的过程。手机是现在通信的主要工具,其所保存的数据具有很多现实意义,能够作为数字证据,但是和一般的计算机数据证据相比,又有很多不同之处。(二)数字证据的特点数字证据是数字信息时代的主要的信息表现方式之一,与犯罪案件相关,本质上是一些数据的集合。对数字证据进行定义,可以描述为,一些数字设备在活动或者工作的过程中,通过电磁产生的数据近路,可以用来作为客观数据证据。这些数据是电子设备当中的一连串二进制代码,按照特定的规律排列从而表达出需要表达的数据信息,当它涉及到某些犯罪案件的处理时,就成了数字证据。和传统的一般证据相比,数字证据的不同主要表现在五个方面:1,抽象性。这种用电磁方式记录下来的信息比较抽象,不是数据的直接反应。2,多样性和依赖性。这些记录的数据需要通过一些特殊的方式来进行转换变成真实具体的数据信息。一般内存当中的数据以文件为单位保存,而文件的打开方式是某些特定的软件。3,依附性和独立性。这些数据信息必须要特殊的设备作为载体,最常见的各种电子设备等,但是这些数据很容易移植,从一个载体上复制到另一个载体上,即现在所说的数据备份,在司法实践中,备份的数据和原始数据具有同等的法律效力。4,易失性和可恢复性。和一般的物证一样,这种形式的数字证据也会因为一些环境条件出现丢失的情况,一般为外界的电磁信号的干扰。很多情况下,损失的数据可以通过一些方式恢复,但不是所有损失的数据都能够恢复。5,精确性和脆弱性。一般情况下,数据的备份工作会在备份设备上完整的复制原来的数据,不会出现任何差错,有些情况下,出现了少量的差错也会有固定的纠错机制来修复这些数据。数据复制会在被分段创建新的文件,文件的一些属性就会发生变化,比如创建时间等,一些变化的属性就会让部分数据的价值发生改变甚至失去。(三)手机取证原则因为是一种完全不同的证据形式,所以在证据获取的方法和原则上和传统证据相比都有很大的不同,电子证据的取证过程有非常严格的规范和流程。(1)首先取证行为的各个方面都需要符合法律规定。取证工作是有严格流程规范的行为,包含了取证人员、取证方法、取证工具、取证流程等,这些都需要符合法律的规定。(2)取证原则是取证需要充分获取设备内部的证据,包括那些受损的数据,能够恢复的采取必要的恢复工作,保证数据的完好性。(3)所取得的证据必须是手机内部的原始数据,是没有被人为修改过得数据。很多情况下一些外部以外情况或者人为故意导致手机内部的证据信息出现偏差,这时一般会用屏蔽盒等防干扰工具来屏蔽外部的干扰信号。(4)必须尽快获取手机内部的数据证据,保证数据在被人为破坏或者修改之前获取。很多犯罪分子会采取各种手段来修改手机内部的证据信息,越早获取手机证据就能越好的避免信息被修改。二、手机信息取证原理(一)手机信息取证原理概述在不改变手机内部原始数据的情况下,按照法律规定的要求,通过必要的技术手段获取手机内部数据信息的过程就是手机信息取证。该信息包含手机内部各种形式的信息随着存储技术的发展,Flash闪存技术运用到越来越多的电子系统当中。Flash技术是一种能够随时进行数据擦除重写的存储设备,手机存储系统当中也有这种设备。以前的手机软件数据的提取都是基于协议进行,但是这些协议在数据获取工作中有很大的局限性,特别是一些已经删除的数据没有办法恢复,所以如果出现重要信息丢失,就会应先案件的正常进行。手机取证除了完成基本的信息获取任务之外,还需要对修改或者删除的数据进行修复。现在市面上出现的很多手机管理软件,比如豌豆荚、91助手等,他们都能够获取手机数据信息,但是对于一些修改或者删除的信息不能够进行修护,所以手机取证的关键在于如何恢复一些受损的数据信息。当我们输入新的数据进入系统时,系统会建立新的文件,然后给出该文件的各种参数,比如文件格式、文件大小、文件大致内容等等。在手机存储区域中,系统根据分配的存储启示地址开始存入该文件的数据,如果需要删除该文件,系统会在该文件前方标注一个已被删除的符号,表示该文件实际并不存在,存储空间内部对应的存储区域内的数据也会被擦除,这些空间可以重新写入新的数据。在重新写入被覆盖之前,数据空间还是存在的。之后本文所讨论的数据恢复工作是需要针对特定的文件类型使用的,对于手机中需要恢复的数据,找出其被删除但是并没有被重新写入的那部分数据。手机信息恢复也是对对应的文件进行恢复,但是不同的手机在硬件和软件的配置上都有很大的不同,就是说每种手机甚至每个手机他们保存信息的方式不一样,可能是存储空间的分配不同,也可能是数据读写的方式不同,要想从不同的手机中恢复需要的信息,要实现不同手机之间的接口,并且接口要和OS同步更新。(二)手机信息取证对象一般手机的数据主要会保存在SIM卡、机身内存、内存卡以及网络运营商数据库。(1)现在的手机一般都有内置的存储卡,为了保证手机在现在大量数据流动的情况下正常工作,手机的存储设备容量也在不断扩展,现在的手机内部存储都分成两个存储区域,分别是静态存储区域ROM和动态存储区域RAM。其中ROM就相当于PC系统当中的硬盘,所有用户自己安装的应用还有数据都保存在该存储区域当中,而RAM则相当于PC系统的内存条,用来暂时保存系统处理产生的中间数据,为数据存储的缓冲空间。一般手机取证的重要数据存储区域为ROM,因为ROM中一般保存的都是长期存在于手机系统中的稳定数据,比如通讯录、短信、通话记录等。图2-1手机内存结构图(2)手机外置存储卡有些型号的手机提供插入外置存储卡的接口,是为了方便用户在内存不足的情况下进行内存扩展,一般这种内存卡内保存的都是手机用户的一些常用的数据信息,比如多媒体视频信息。(3)手机SIM/UIM卡SIM(UIM)是包含用户身份信息的存储卡,其中包含了很多重要的关键信息,比如位置区域识别码、位置更新周期、临时移动用户号;电话簿、最近通话记录列表,短消息等数据;SIM密码,包括PIN码和解锁码等。(4)网络运营商网运营商也会保存用户的一些相关数据,这些数据很多情况下都有一定的价值,比如通话记录,每条通话记录都包含了通话双方的电话号码,还有通话时长和相关的基站信息。这四种数据的取证方法都不相同,下面主要给出内存和外置存储卡的数据取证方法。(三)手机信息取证方法对于手机内存中的数据,可以使用软硬件结合方式,利用手机通信协议(如AT命令集、NOKIAFBUS、红外对象交换协议OBEX等),通过家算计来获取手机中保存的信息,这种方法需要操作人员对手机的硬件结构有非常深入的了解。另外,手机生产商所提供的接口软件也能够用来获取手机的内存数据信息。手机内存卡保存文件的方式和PC硬盘保存文件的方式比较类似,所以在提取手机内存卡的数据时,可以借用PC提取数据的方法。SIM卡中也有一定的文本信息,用户接收到的短信会被系统默认保存到SIM卡中,还有本机的电话号码和最近的通话记录。GSM系统采用APDU(ApplicationProtocolDataUnite)即应用协议处理单元完成手机与PC端的交互,其中的SELECT指令可以访问文件,通过该指令能够获取到SIM卡中的部分信息,其中的一些信息因为安全性要求不能够访问。如果有必要从运营商的数据库中获取一些重要数据,那么可以通过该SIM卡对应的手机号码来进入运营商数据库系统,获得和该号码有关的所有通话记录信息。但是并不是所有的历史数据都存在,因为庞大的数据量和不断的数据更新,有些久远的数据会被新的数据覆盖,所以取证需要及时,保证能够获取有价值的数据信息。表2-1手机信息取证方法取证对象取证方法取证工具机身内存AT指令集、NOKIAFUBS及OBEX协议利用厂商提供的接口软件获取内存镜像OxygenPhoneManagerII、BitPIM、CellBox等内存卡计算机取证技术Encase、FTKSIM/UIM卡通过APDU交互指令访问手机文件Cards4Labs、SIMIS、ForensicSIM、ForensicCardReader、SIMCon、SIMCardSeizure等三、数据挖掘对证据关联性的影响及分析(一)数据挖掘的含义及方法数据挖掘是指从一对大量的,毫无规律的数据当中找出具有价值的数据信息的过程,这些数据开始是没有任何价值特征体现的,存在大量干扰的数据,被挖掘出的都是用户想要的,对用户具有价值的信息,又称为从数据库中的知识发现(KnowledgeDiscoveryinDatabase,简称KDD)。数据挖掘的方法主要有分类分析、聚类分析、关联分析等等。1.分类分析要进行分类分析,首先需要确定分类规则,一般是通过训练数据集的方法来完成,在分类规则确定之后,将数据库中的数据根据规则来进行分类。这种方法又被叫做决策树模式法,就是从数据库当中找出具有某一共同特点的数据,作为该类型的描述,然后通过这种描述来对数据进行分析。2.聚类分析聚类是无监督的学习,与分类分析不同,它没有用于事先确定规则的训练样本。聚类分析把数据按照相似性归纳成若干类别,使得同一类别的数据间的相似性尽可能大,而不同类中的数据间的相似性尽可能小。好的聚类分析算法应该确保从数据库记录里划分出来的子集是有意义的,即同一聚簇内的高相似性和不同聚簇内的低相似性。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。3.关联分析就是找出数据库中某些数据存在的联系,通过这种练习来分析数据。这种关联一般表现在不同的数据之间体现出来的某种共同特征或者在某些方面体现出来的一致性。这种关联性往往能够找出相关的隐藏数据。关联规则挖掘是由RakeshApwal等人首先提出的,目的是找出数据库中隐藏的关联网。关联可以分为简单关联、时序关联和因果关联。(二)数据挖掘在手机取证领域的运用现在有不少手机取证软件已经能够提供关联分析功能,但是这种关联分析的功能严格而言只能算是数据库技术和可视化技术的一种结合。例如联系人关联分析、联系人地理分布分析、用户轨迹分析、应用时间轴分析、日历模式分析等等。其实这些关联分析是筛选出原数据库中的有用字段并重新组合,再利用可视化组件直观呈现出来。与数据挖掘技术相比,其缺少规律发现的功能。就目前的研究现状而言,数据挖掘技术在手机取证领域可有以下运用:1.异常点分析一般很多大量数据的集合当中,总会有一些少量的数据体现出和其他数据不一样的特征,而且非常明显,这项数据就是这里说的异常点。数据挖掘当中,异常点分析是一项非常重要的工作,常用的分析方法是偏差检测,所谓偏差,就是指集合当中和一般规律不符合的现象。偏差检测的主要目标是找到有意义的观测结果与参照值之间差别,主要应用到的方法有最近邻居法、聚类、多位数据分析、序列异常等。异常点分析适合发现一些偶发性的犯罪,在这种犯罪类型中嫌疑人往往是临时起意,因此其行为必然会异于平常,而这些异常举动往往就是案件的突破口。比如,一个每天两点一线准时上下班的白领,在上班时间出现了一笔异地的刷卡消费,极有可能是银行卡被盗刷了。事实上,一些安全性高的银行或支付平台对异常监测这块已经做得非常成熟。因此,移动取证领域完全可以沿用。2.关联分析关联分析的核心在于关联规则的挖掘,由于手机存储的数据种类繁多,而一般的分析技术只是对同一应用程序中的数据进行解析,换言之,只是对来源于同一个数据库中的字段进行提取和关联,没有充分利用数据的多源性。手机的数据分析应以人为中心,因为所有事件都有一个共同点,就是与设备持有人相关。不同应用数据项之间的关联其实反映的是人的各项活动规律,因此,如果能挖掘出有效的关联规则,或许可以摸清案件的来龙去脉,从而找到更多的线索和证据支撑。(三)数据挖掘对证据关联性的影响1.数据处理对证据效力的影响数据挖掘的正确性和有效性建立在干净、准确、有针对性的数据基础之上,一堆脏数据不仅会造成挖掘效率的低下,而且会导致挖掘结果的偏差。因此,数据的预处理影响到证据的关联性强弱,正所谓差之毫厘谬以千里,基于误差数据而推导出来的挖掘结果很可能是弱关联甚至是没有关联的。数据的预处理主要是为了方便后续数据挖掘工作的,比如数据清理和集成。所谓数据集成就是在一定的规则之下,合并一些本来独立没有任何练习的数据,这些数据一般来自不同的数据集合。数据清理就是将数据当中一些无效的数据滤除,并修复一些被破坏的数据。如上所述,对数据进行处理,目的是为了挖掘出有效的高质量的关联规则。然而,有一个不得不考虑的问题是,数据处理过程中为了构造合适的数据集而刻意对数据所做的修改是否会影响其证据效力。在取证过程中,最强调的就是以原始数据为准。通过处理过的数据挖掘出来的规则可以作为线索辅助使用,要满足法庭质证的要求还需要追溯到数据的原貌,出示手机中的原始数据并解释其与案件之间的关联。2.关联规则的概率性对证据关联性的影响关联规则是形如X→Y的蕴含式,X为关联规则的先决条件,Y为关联规则的结果。上述关联规则表示当集合D的子集X中的任意子项出现时,必然导致D的另外一个子集Y的发生。在评价关联规则时,有两个指标是必不可少的,即支持度(support)和置信度(confidence)。关联规则在集合D中的支持度指的是X和Y在集合D中同时出现的概率;而置信度则指在出现X的情况下,Y出现的概率,即条件概率。一个有效实用的关联规则必须满足最小支持度和最小置信度的条件。如果支持度很小,则说明X和Y同时出现的概率很低,那么X和Y之间的联系不大。如果置信度很小,则说明在X出现的情况下,Y出现的概率很低,那么X和Y之间也没有什么关联。因此,确保关联规则有效,必须合理设置最小支持度和最小置信度这两个阈值。可以看到,关联规则与概率密不可分。根据科学实验中的统计数据而形成的概率,由于具有反复的近似性甚至反复的同一性,常常作为鉴定方法的可靠性依据或者法官的裁判标准(民事案件中的“盖然性证明标准”)。然而,概率本身不是证据,而是衡量事件发生的可能性的量度,也许接近但不能够达到百分之百的程度,而概率计算公式的人为与机械,在运用到司法实践中时,也面临个性化和复杂化的环境条件,缺乏重复的正当性。在排除合理怀疑的刑事证明标准下,支撑案件的证据应该是绝对的,而不是存在大概率的可能。概率运用在科学实验中和运用在社会现象中,其科学性是完全不同的。在科学实验中,同类实验结果可能具有反复的近似性甚至反复的同一性,因此科学实验得出的概率容易为人们所接受,而社会由个性化的人组成,没有两个完全相同的人。19世纪英国律师兼学者威廉姆·贝斯特以边沁的理论为基础,认为科学实验、历史研究、商业往来或日常生活中确定事实使用的方法,不同于法院囿于诉讼的条件和必须执行的公共政策所使用的方法,前者为自然证据,后者为审判上的证据,法院应该同时使用自然证据和审判上的证据。因为“审判上的证据,其大部分无非是经证据法规则加以限制或修改的自然证据。”因此,审判中法官使用的证据,应当不仅是自然上的关联性要求,还要服从诉讼条件以及公共政策对关联性的限制。结语现在犯罪手段越来越复杂,对手机这些智能设备的应用也越来越

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论