数据安全 课件 专题5、6 数据加密技术、数据隐私保护技术_第1页
数据安全 课件 专题5、6 数据加密技术、数据隐私保护技术_第2页
数据安全 课件 专题5、6 数据加密技术、数据隐私保护技术_第3页
数据安全 课件 专题5、6 数据加密技术、数据隐私保护技术_第4页
数据安全 课件 专题5、6 数据加密技术、数据隐私保护技术_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据安全》【第五章数据加密技术】本章要点【第五章数据加密技术】目的与要求:了解密码学的基础知识;了解常用的密码技术,包括对称密码算法和非对称密码算法等相关内容;了解数字签名的基本原理以及常用的数字签名方案等内容。重点与难点:密码学基础(重点)常用的加密技术(重难点)数字签名(重难点)本章要点

5.1案例5.2密码学基础5.3常用的加密技术5.4数字签名【第五章数据加密技术】案例【

案例1:基于多混沌系统的医学图像加密】案例:为了防止病人敏感信息的非法泄漏,特别是医学图像信息,这些图像信息作为重要的诊断依据,经常在不同医院之间进行传播。利用混沌加密后的医学图像具体做法:采用一种基于多混沌系统的医学图像加密算法,它是把待加密的图像信息看作是按照某种编码方式的二进制的数据流,利用混沌信号来对图像数据流进行加密。案例案例解析混沌序列1随机性:混沌系统产生的混沌序列表现出类随机行为,具有长期不可预测性。确定性:只要初始参数确定,产生的混沌序列即确定。遍历性:混沌系统将以一种不重复的方式遍历相空间中的所有取值。【

案例1:基于多混沌系统的医学图像加密】混沌加解密2混沌加密原理混沌加解密过程clear;clc;x=imread('long.bmp','bmp');%读取图像信息[abc]=size(x);%将图像的大小赋给abcN=a*b;%定义变量N并赋值m(1)=input('请输入密钥:');%用户输入加密密码disp('加密中...');%显示提示信息fori=1:N-1%进行N-1次循环m(i+1)=4*m(i)-4*m(i)^2;%循环产生密码endm=mod(1000*m,256);%1000*m除以256的余数m=uint8(m);%强制转换为无符号整型n=1;%定义变量n

fori=1:aforj=1:be(i,j)=bitxor(m(n),x(i,j));%将图像信息藏在e(i,j)矩阵中进行异或运算n=n+1;endendimwrite(e,'加密后的long.bmp','bmp');%显示解密成功提示信息

disp('加密成功');winopen('加密后的long.bmp');%显示加密后图片案例加解密代码实现21)加密代码【

案例1:基于多混沌系统的医学图像加密】clear;clc;x=imread('加密后的long.bmp','bmp');%读取图像信息[abc]=size(x);%将加密后图像的大小赋给abcN=a*b;m(1)=input('请输入密钥:');%用户输入预设加密密码disp('解密中');fori=1:N-1%进行N-1次循环m(i+1)=4*m(i)-4*m(i)^2;%循环产生原密码endm=mod(1000*m,256);m=uint8(m);n=1;fori=1:aforj=1:be(i,j)=bitxor(m(n),x(i,j));

%m(n)xor(m(n)xorx(i,j))==x(i,j)不带进位加法,半加运算n=n+1;endendimwrite(e,'解密后的long.bmp','bmp');%将解密的图像输出

disp('解密成功');%显示解密成功提示信息

winopen('解密后的long.bmp');%显示解密后图片案例加解密代码实现21)解密代码【

案例1:基于多混沌系统的医学图像加密】案例【案例2:医学图像中的对称密码算法应用】案例:对各大医院系统普及DICOM标准,并进行远程医疗的实施,这项举措使得医学图像互相访问变得容易了,但是发现受黑客攻击的危险性和数据被篡改的可能性也增加了。对于医院里病人的病例数据根据法律规定医疗系统必须在加密之后才能在网上传播,医院必须有效地保护患者的隐私。具体做法:经过实验发现把AES和案例1中采用的混沌序列结合起来,可以大大减少加密的轮数,缩短加密的时间。医学影像传输标准DICOM1DigitalImagingandCommunicationsinMedicine(DICOM)是医学影像传输标准,为数字医学影像在电脑网络上的传输、储存与显示,作出了标准化的规范。标识符Tag说明数据域的内容0002,0000TransferSyntaxUID传输语法0028,0008NumberofFrames图像帧数0028,0010Rows行数0028,0011Columns列数0028,0100BitsAllocated像素分配的位数7FE0,0010PixelData像素矩阵案例案例解析图像加密2把AES中的S-盒变换,行置换,列混合三个操作应用到像素矩阵上,实现图像的快速置乱,增强抗攻击的能力。【案例2:医学图像中的对称密码算法应用】数据量大攻击者可以获得足够多的密文样本进行统计分析冗余度高邻近的像素很可能具有近似的灰度值案例案例解析AES加密3它是美国国家标准与技术局(NIST)发明的一种新的加密过程,并且发现这种新的加密术可以很好地代替数据加密标准(DES)。【案例2:医学图像中的对称密码算法应用】高级加密标准(AdvancedEncryptionStandard)案例案例解析AES加密步骤4【案例2:医学图像中的对称密码算法应用】基于AES的图像加密算法流程图案例案例解析Rijndael算法4【案例2:医学图像中的对称密码算法应用】Rijndael算法加密/解密流程图Rijndael算法是一个分组迭代加密算法,分组长度可以是128位,192位或256位,由分组构成状态矩阵,再进行行和列的处理。比如128位分组就构成4×4的矩阵,矩阵的单位是字节,4×4×8=128原始图像加密图像案例【

案例3:RSA的数字签名应用】案例描述:为了保证信息传输的完整性、用户身份的正确性和不可抵赖性,X国大臣CTO,决定将基于RSA算法的数字签名技术应用于各大系统的信息交换过程中,以确保整个系统数据的完整性和保密性。具体做法:在RSA数字签名算法和MD5算法的基础上,将RSA数字签名机制应用到整个系统中。数字签名1“数字签名”就是通过某种密码运算生成的一系列符号及代码组成电子密码进行签名,用来代替书写签名或印章。案例【

案例3:RSA的数字签名应用】RSA数字签名算法和单向散列函数MD52在RSA数字签名变换前,先使用单向散列函数MD5对明文进行数字摘要操作,其在保证数字签名效果的同时更好地提高RSA数字签名操作的运行速度。MD5函数是一种单向散列函数,它将任意长度的消息压缩成128bit的消息摘要。应用MD5的单向性和抗碰撞性,可以实现信息的完整性检验。另外,该函数执行的速度快,是一种被广泛认可的单向散列算法。MD5数字摘要过程:发送者利用MD5函数对传送的信息进行数字摘要操作得到128bit的摘要值,并将此摘要值与原始信息数据一起传送给接收者,接收者用此摘要值来检验信息数据在网络传送过程中是否有改变,以此来判断信息的真实性。案例【

案例3:RSA的数字签名应用】RSA数字签名算法流程3在RSA数字签名变换前,先使用单向散列函数MD5对明文进行数字摘要操作,其在保证数字签名效果的同时更好地提高RSA数字签名操作的运行速度。数字签名算法流程数字签名过程:(a)数字摘要过程:发送者使用MD5算法对明文信息进行数字摘要变换。(b)签名过程:发送方使用自己的私钥对明文信息进行数字签名变换,将加密后的消息和签名发送给接收方。(c)验证过程:接收方使用发送方的公钥对收到的消息进行数字签名验证变换,然后再比较与发送方的公钥解密恢复消息M即可。案例【

案例3:RSA的数字签名应用】RSA数字签名算法的实现步骤4RSA数字签名算法的实现步骤如下:(a)发送方首先使用MD5算法对明文信息M进行数字摘要变换。(b)发送方使用自己的私钥Kdb对明文信息M进行数字签名变换:C=MKdb(modn)。(c)将加密后的消息M和签名发送给接收方。(d)接收方使用发送方的公钥Keb对收到的消息C进行数字签名验证变换:M*=CKeb(modn)。(e)比较M*与发送方的公钥解密恢复消息M。(f)如果M*=M则证实发送方的身份合法。知识点【密码学基础】【第五章数据加密技术】密码学基础的主要内容:加密机制伪随机序列发生器容错协议和零知识证明范例:零知识证明知识点【数据加密】1、加密机制加密机制是一种允许通信双方秘密通信的协议,典型的加密协议由一对算法组成,即加密算法和解密算法。加密算法用于发送消息,解密算法用于接收数据。【第五章数据加密技术】为了发送消息,发送者首先需要使用加密算法对消息进行加密,然后再通过通道发送加密后的消息(称为密文)。接收者收到密文后,需要使用解密算法对密文进行解密,然后才能恢复原始消息(称为明文)。知识点【密码学基础】【第五章数据加密技术】密码学基础的主要内容:加密机制伪随机序列发生器容错协议和零知识证明范例:零知识证明知识点【数据加密】2、伪随机序列发生器伪随机序列发生器就是一种确定性算法,此算法能将较短的随机种子扩展成比他长很多的比特流,这种比特流看起来是随机的(尽管实际上并不是)。【第五章数据加密技术】尽管为随机序列发生器的输出并不真的是随机的,但是分辨出两者的不同也是不可行的。由于伪随机序列发生器可以基于不同的复杂假设构造,所以伪随机序列发生器和计算复杂性有着很多根本的联系。伪随机发生器是一些有效的确定性程序,可以将较短的随机挑选的种子扩展成长的“伪随机”比特序列。知识点【密码学基础】【第五章数据加密技术】密码学基础的主要内容:加密机制伪随机序列发生器容错协议和零知识证明范例:零知识证明知识点【数据加密】3、容错协议和零知识证明零知识证明(Zero—KnowledgeProof)【第五章数据加密技术】它指的是证明者能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。零知识证明实质上是一种涉及两方或更多方的协议,即两方或更多方完成一项任务所需采取的一系列步骤。证明者向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不能向验证者泄漏任何关于被证明消息的信息。零知识证明(Zero—KnowledgeProof)起源于最小泄露证明。设P表示掌握某些信息,并希望证实这一事实的实体,设V是证明这一事实的实体。假如某个协议向V证明P的确掌握某些信息,但V无法推断出这些信息是什么,我们称P实现了最小泄露证明。不仅如此,如果V除了知道P能够证明某一事实外,不能够得到其他任何知识,我们称P实现了零知识证明,相应的协议称作零知识协议。知识点【密码学基础】【第五章数据加密技术】密码学基础的主要内容:加密机制伪随机序列发生器容错协议和零知识证明范例:零知识证明知识点【数据加密】4、范例:零知识证明【第五章数据加密技术】假设系统中名叫Alice的一方收到了来自Bob的已加密的消息,接下来她要把此消息的最低有效位(theleastsignificantbit)发送给Carol。然而,如果Alice仅发送这个最低有效位给Carol,Carol就无法判断Alice是否有欺骗行为。虽然Alice可以将这个消息及其解密的密钥展示给Carol以证明她并没有欺骗行为,但是这样做的话,Carol所收到的信息就会远远大于她应该得到的信息。所以最好的方法就是让Alice给应该发给Carol的比特增加零知识证明来证实这个比特的却是消息的最低有效位。需要强调的是,上述结论是在“NP类型”条件下成立的,因此,在NP论题下零知识证明的存在性就意味着不用展示任何多余的信息就可以证明上述结论。知识点【常用加密技术】【第五章数据加密技术】常用加密技术的主要内容:对称密码算法非对称密码算法知识点【常用加密技术】1、对称密码算法对称加密算法也称为对称密钥(Symmetric-key)、私密密钥(Secret-key)和单密钥(Single-key)算法。【第五章数据加密技术】不安全信道上的通信对称密钥知识点【常用加密技术】1、对称密码算法【第五章数据加密技术】对称密钥lx称为明文(plaintext或cleartext)ly称为密文(ciphertext)lk称为密钥(key)l所有可能密钥组成的几何称为密钥空间(keyspace)知识点【常用加密技术】1、对称密码算法【第五章数据加密技术】1.序列密码对称密码可以分为序列密码(StreamCiphers)和分组密码。在一次加密b为数据时(b指的是分组密码的宽度),序列密码和分组密码在操作上的差异序列密码分别加密每个位。通过将密钥序列中的每个位和每个明文位相加来实现。同步序列密码的密码序列仅次于密钥,而异步序列密码的密钥序列取决于密钥和密文。大部分的序列密码是同步序列密码。使用序列密码的加密与解密知识点【常用加密技术】1、对称密码算法【第五章数据加密技术】2.2.分组密码之DES对称密码可以分为序列密码(StreamCiphers)和分组密码。所有的分组密码都是乘积密码,因为它们都是由对数据重复操作的轮组成的。DES是一种用56位密钥加密64位长数据包的密码。它是一种对称密码,即加密过程和解密过程使用相同的密钥。像大部分分组加密一样,DES也是一种迭代算法。DES对明文中每个分组的加密过程都包含16轮,并且每轮的操作完全相同。每轮使用不同的子密钥,并且所有子密钥都可以从主密钥推导出来。N轮乘积密码的基本原理知识点【常用加密技术】1、对称密码算法【第五章数据加密技术】2.2.分组密码之DES对称密码可以分为序列密码(StreamCiphers)和分组密码。DES算法属于对称加密算法。明文按64位分组,密钥长度为64位。实际上,56位参与DES运算(第8、16、24、32、40、48、56和64位是校验位,因此每个密钥的奇数均为1)。有三个输入参数:key、data、mode。key是用于加密和解密的密钥,data是加密和解密的数据,mode是其工作模式。当mode为加密模式时,将根据64位将明文分组,以形成明文组。key用于加密数据。当mode为解密模式时,key用于解密数据。DES的迭代结构知识点【常用加密技术】1、对称密码算法【第五章数据加密技术】2.2.3.分组加密之AES对称密码可以分为序列密码(StreamCiphers)和分组密码。AES密码与分组密码Rijndael基本上完全一致,AES算是Rijndael算法的一种特殊实现,它通过置换和替换进行迭代加密,经过多轮操作最终形成密文。Rijndael分组大小和密钥大小都可以为128、192或256位。然而,AES标准只要求分组大小为128位。因此,只有分组长度为128位的Rijndael才称为AES算法。AES的加密框图密钥长度轮数128位10192位12256位14知识点【常用加密技术】【第五章数据加密技术】常用加密技术的主要内容:对称密码算法非对称密码算法知识点【访问控制】W.Diffie和M.Hellman1976年在IEEETrans.onInformation刊物上发表了“NewDirectioninCryptography”文章,提出了“非对称密码体制即公开密钥密码体制”的概念,开创了密码学研究的新方向。2、非对称密码算法公钥加密的基本协议使用AES非对称密码的基本密钥传输协议非对称加密算法需要两个密钥:公开密钥(publickey:简称公钥)和私有密钥(privatekey:简称私钥)。【第五章数据加密技术】知识点【访问控制】【第一章数据库安全】非对称密码体制的特点:算法强度复杂、安全性依赖于算法与密钥但是由于其算法复杂,而使得加密解密速度没有对称加密解密的速度快。【例5-1】利用非对称密钥体制实现加密通信时,若A要向B发送加密信息,则该加密信息应该使用什么进行加密?解析:正确答案为:B的公钥加密1.A要向B发送信息,A和B都要产生一对用于加密和解密的公钥和私钥。2.A的私钥保密,A的公钥告诉B;B的私钥保密,B的公钥告诉A。3.A要给B发送信息时,A用B的公钥加密信息,因为A知道B的公钥。4.A将这个消息发给B(已经用B的公钥加密消息)。5.B收到这个消息后,B用自己的私钥解密A的消息。其他所有收到这个报文的人都无法解密,因为只有B才有B的私钥。2、非对称密码算法A、A的公钥加密

B、B的公钥加密C、A的私钥加密

D、B的私钥加密知识点【数字签名】【第五章数据加密技术】数字签名的主要内容:数字签名的基本原理RSA签名方案知识点【访问控制】其基本思想为:对消息签名的一方使用私钥,接收方则使用对应的公钥。1、数字签名的基本原理包括消息签名和消息验证的数据签名的基本原理通用的数字签名协议【第五章数据加密技术】知识点【数字签名】【第五章数据加密技术】数字签名的主要内容:数字签名的基本原理RSA签名方案知识点【访问控制】RSA签名方案基于RSA加密,其安全性取决于因式分解两个大素数的乘积的难度。目前,RSA签名方案已经逐步发展成实际中最广泛的数字签名方案。2、RSA签名方案基本的RSA数字签名协议假设Bob想发送一个已签名的消息给Alice,实际的签名协议如下所述。被签名的消息在范围以内。【第五章数据加密技术】本章小结案例:首先通过三个案例,引入数据加密技术的概念,然后介绍了密码学基础知识及相关技术要点:常用的密码技术:包括对称密码算法和非对称密码算法等相关内容;数字签名的基本原理;常用的数字签名方案。【第五章数据加密技术】《数据安全》【第六章数据隐私保护技术】本章要点【第六章数据隐私保护技术】目的与要求:了解隐私保护的基础知识;了解几种常见的隐私保护技术,包括基于限制发布的技术、基于数据加密的技术、基于数据失真的技术等;了解大数据隐私保护相关的内容以及区块链技术与AI数据脱敏在隐私保护中的应用。

重点与难点:隐私保护的基础知识(重点)基于限制发布的技术(重点)基于数据加密的技术(难点)基于数据失真的技术(难点)区块链技术(难点)AI数据脱敏(难点)本章要点

6.1案例6.2隐私保护的基础知识6.3基于限制发布的技术6.4基于数据加密的技术6.5基于数据失真的技术6.6区块链技术6.7AI数据脱敏【第六章数据隐私保护技术】案例【

案例1:数据匿名化--K-anonymity】案例描述:在医疗数据发布之前,为了防止用户隐私泄露,委员会对数据进行了匿名化处理,即删除了所有的敏感信息,如姓名、身份证号和家庭住址等。然而,来自X国W大学的密码专家M成功破解了这份匿名化处理后的医疗数据,能够确定具体某一个人的医疗记录。匿名医疗数据虽然删除了所有的敏感信息,但仍然保留了三个关键字段:性别、出生日期和邮编。密码专家M同时有一份公开的X国民主投票人名单(被攻击者也在其中),包括投票人的姓名、性别、出生年月、住址和邮编等个人信息。他将两份数据进行匹配,发现匿名医疗数据中与被攻击者生日相同的人有限,而其中与被攻击者性别和邮编都相同的人更是少之又少。由此,密码专家M就能确定被攻击者的医疗记录。密码专家M进一步研究发现,80%以上的X国公民拥有唯一的性别、出生日期和邮编三元组信息,同时发布事实上几乎等同于直接公开。进行2-K匿名化处理原始医疗数据,每一条记录对应一个唯一的病人,其中{"姓名"}为标识符属性,{"肤色","年龄","性别","邮编"}为准标识符属性,{"疾病"}为敏感属性。K-匿名实现了同一等价类内记录之间无法区分(敏感属性值除外)。匿名化后的表中的每个序列值在表中至少出现k次(k>1)案例案例解析链式攻击1某些数据集存在其自身的安全性,即孤立情况下不会泄露任何隐私信息,但是当恶意攻击者利用其他存在属性重叠的数据集进行链接操作,便可能唯一识别出特定的个体,从而获取该个体的隐私信息。【

案例1:数据匿名化--K-anonymity】将医疗信息和选民信息结合在一起,能够发现两个数据集的共有属性(性别、生日、邮编等),这样恶意攻击者通过链接攻击能够轻易确定选举人的医疗信息情况,因此该类攻击手段会造成极其严重的隐私泄露。案例案例解析公共属性分类2标识符(Keyattributes)一般是个体的唯一标示,比如说姓名、地址、电话等等,这些内容需要在公开数据的时候删掉。【

案例1:数据匿名化--K-anonymity】准标识符(Quasi-identifier)敏感属性(Sensitiveattributes)类似邮编、年龄、生日、性别等不是唯一的,但是能帮助研究人员关联相关数据的标示。敏感数据,比如说疾病、购买偏好、薪水等等,这些数据是研究人员最关心的,所以一般都直接公开。案例案例解析k-匿名(k-anonymity)3k-anonymity的目的是保证公开的数据中包含的个人信息至少k-1条不能通过其他个人信息确定出来。也就是公开数据中的任意Quasi-identifier信息,相同的组合都需要出现至少k次。假设一个公开的数据进行了2-anonymity保护。如果攻击者想确认一个人(小A)的敏感信息(购买偏好),通过查询他的年龄、邮编和性别,攻击者会发现数据里至少有两个人是有相同的年龄、邮编和性别。这样攻击者就没办法区分这两条数据到底哪个是小A了,从而也就保证了小A的隐私不会被泄露。k=2k-anonymity攻击者无法知道某个人是否在公开的数据中;给定一个人,攻击者无法确认他是否有某项敏感属性;攻击者无法确认某条数据对应的是哪个。【

案例1:数据匿名化--K-anonymity】能保证以下三点案例【

案例2:数据匿名化--L-diversity】案例描述:X国研究人员在案例1的K-匿名基础上引入多样化的概念,采取L-多样性(L-diversity)原则。L-diversity保证每一个等价类的敏感属性至少有L个不同的值,L-diversity使得攻击者最多以1/L的概率确认某个体的敏感信息。简单来说,在公开的数据中,对于那些准标识符(Quasi-identifier)相同的数据中,敏感属性必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。案例案例解析同质攻击1当通过链接攻击仍然无法唯一确认个体,但是却存在个体对应的多条记录拥有同一个敏感隐私信息,从而造成隐私的泄露,称这一过程为同质攻击。【

案例2:数据匿名化--L-diversity】背景知识攻击2如果攻击者掌握了某个体的某些具体信息,通过链接攻击后即使只能得到某个体对应的多条信息记录,并且记录间的敏感属性也完全不同或不相似,但攻击者却能够根据所掌握的背景知识,从多条信息记录中找出唯一对应的信息记录,从而获取到该个体的隐私信息。案例L-diversity的定义3L-多样化主要指的是在公开的数据中,对于那些包含相同数据的准标识符的数据,敏感数据必须具有多样化。案例解析有10条相同的类型的数据,其中8条的购买偏好是电子产品,其他2条分别是图书和家用电器。那么在这个例子中,公开的数据就满足3-diversity的属性。【

案例2:数据匿名化--L-diversity】l基于概率的L-多样化(probabilisticl-diversity):在一个类型中出现频率最高的值的概率不大于1/L。l基于墒的L-多样化

(entropyl-diversity):在一个类型中敏感数据分布的墒至少是

log(l)。l递归

(c,l)-diversity(recursive(c,l)-diversity):简单来说就是保证最经常出现的值的出现频率不要太高。案例L-diversity的局限性4敏感属性的性质决定即使保证了一定概率的多样性也很容易泄露隐私。案例解析例如,医院公开的艾滋病数据中,敏感属性是“艾滋病阳性”(出现概率是1%)和“艾滋病阴性”(出现概率是99%),这两种值的敏感性不同,造成的结果也不同。(1)有些情况下L-diversity是没有意义的:比如说艾滋病数据的例子中仅含有两种不同的值,保证2-diversity也是没有意义的。(2)L-diversity很难达成:例如,想在10000条数据中保证2-diversity,那么可能最多需要10000*0.01=100个相同的类型。(3)偏斜性攻击(SkewnessAttack):假如要保证在同一类型的数据中出现“艾滋病阳性”和出现“艾滋病阴性”的概率是相同的,我们虽然保证了diversity,但是泄露隐私的可能性会变大。因为l-diversity并没有考虑敏感属性的总体的分布。【

案例2:数据匿名化--L-diversity】通过小六的信息从公开数据中关联到了两条信息,通过这两条信息能得出两个结论。第一,小六的工资相对较低;第二,小六喜欢买电子电器相关的产品。案例【

案例3:数据匿名化--T-closeness】案例解析案例2最后一个问题就引出了T-closeness的概念,T-closeness是为了保证在相同的准标识符Quasi-identifier类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近(close),不超过阈值t。如果刚才的那个数据保证了T-closeness属性,那么通过小六的信息查询出来的结果中,工资的分布就和整体的分布类似,进而很难推断出小六工资的高低。如果保证了K-anonymity,L-diversity和T-closeness,隐私就不会泄露了么?保证了2-anonymity,2-diversity,t-closeness(分布近似),工资和购买偏好是敏感属性。攻击者通过小六的个人信息找到了四条数据,同时知道小六有很多书,这样就能很容易在四条数据中找到小六的那一条,从而造成隐私泄露。

知识点【隐私保护】【第六章数据隐私保护技术】隐私保护相关的各类场景说明知识点【隐私保护】【第六章数据隐私保护技术】数据隐私保护方法分析知识点【数据脱敏技术】【第六章数据隐私保护技术】数据脱敏是通过脱敏规则对某些敏感信息进行数据的变形,实现对个人数据的隐私保护。使用标准的加密算法,使加密后得数据完全失去业务属性,这种方法属于低层次脱敏,算法开销大,适用于机密性要求高、不需要保持业务属性的场景。基于数据失真的技术加密方法最常用的是随机干扰、乱序等,是不可逆算法,通过这种算法可以生成“看起来很真实的假数据”,以此来达到对个人数据的保护,该方法适用于群体信息统计或需要保持业务属性的场景。这种方法兼具可逆和保证业务属性的特征,可以通过位置变换、表映射、算法映射等方式实现。可逆的置换算法知识点【基于限制发布的技术】【第六章数据隐私保护技术】收集和共享个人数据引发了个人隐私的担忧。针对这个问题,目前的解决方法主要采用基于限制发布的技术,包括匿名化处理和公布不完全的数据集。数据匿名化算法可以实现根据具体情况有条件地发布部分数据,或者数据的部分属性内容,包括差分隐私(Differentialprivacy)、K匿名(K-anonymity)、L多样化(L-diversity)、同态加密(Homomorphicencryption)等。k-anonymityExplicitidentifier:表示个体的唯一标示,比如姓名(如小红、小明)等具有唯一标示型的内容,在公开数据的时候需要对这些内容进行删除。Quasi-identifiers:包括邮编、年龄、性别等非唯一,但是可以帮助研究人员对相关数据进行关联的标示。Sensitiveattributes:表示敏感但并不能直接得到用户信息的数据,比如用户购买偏好(如电子产品,护肤品)等,这些数据是研究人员最关心的,但并不能通过其直接得到用户的信息,所以一般都直接公开。K匿名化方法主要有两种操作策略。第一种是将某些敏感数据对应的数据列删除,用星号(*)代替。另外一种方法是用概括的方法对信息进行整合,使之无法区分,比如把年龄修改为所在的年龄段。知识点L-diversity【例6-1】一个简单的隐私泄露案例。小王去电影院看电影,在买票前,某影片的售卖票数是100张,而小红买票后,该影片的售卖票数变成了101,那么就有很大的概率推测小王看的电影与小红是同一部。这样就会导致小王的隐私遭到了泄露。【基于限制发布的技术】【第六章数据隐私保护技术】L多样化主要指的是在公开的数据中,对于那些包含相同数据的Quasi-identifiers(非唯一性标示)数据,敏感数据必须具有多样化。需要保证相同类型数据中至少有L

种内容不同的敏感属性,这样才能保证确保用户信息不能通过背景知识或其他方法推断得出。知识点differentialprivacy差分隐私差分隐私主要用于防止差异攻击。简单来说,差分隐私是一种确保在同一组数据中查询100条信息的结果和查询99条信息结果相同的方法。因为查询得到的结果相对一致,因此攻击者无法仅仅比较差异来进行差异攻击。【基于限制发布的技术】【第六章数据隐私保护技术】假设有一个表A,在对它做一定的扰动后得到A1,而后在去掉表A中的某一行构成表B,在对表B做一个扰动得到B1,如果在数学意义上,表A1和表B1完全相同,这样就可以做到隐私保护了。知识点【基于数据加密的技术】【第六章数据隐私保护技术】(SecurityMulti-PartyComputation,SMC)众多分布环境下基于隐私保护的数据挖掘应用都可以抽象为无信任第三方(trustedthirdparty)参与的安全多方计算(SecurityMulti-PartyComputation,SMC)问题。分布式匿名化安全多方计算匿名化即是隐藏数据或数据来源。因为对大多数应用而言,首先需要对原始数据进行处理以保证敏感信息的安全;然后再在此基础上,进行数据挖掘、发布等操作。由于多数SMC基于“准诚信模型”假设之上,因此应用范围有限。SCAMD(SecureCentralizedAnalysisofMulti-partyData)协议在去除该假设基础上,引入准诚信第三方实现当站点都是恶意时进行安全多方计算即怎样使两个或多个站点通过某种协议完成计算后,每一方都只知道自己的输入数据和所有数据计算后的最终结果。两个站点S1和S2,它们拥有的数据分别为{ID,A11,A12,…,A1n1},{ID,A21,A22,…,A2n2}。其中Aij为Si拥有数据的第j个属性。利用可交换加密在通信过程中隐藏原始信息,再构建完整的匿名表判断是否满足k-匿名条件来实现。以在垂直划分的数据环境下实现两方的分布式k-匿名为例。知识点【基于数据加密的技术】【第六章数据隐私保护技术】在分布式环境下,关联规则挖掘的关键是计算项集的全局计数,加密技术能保证在计算项集计数的同时,不会泄露隐私信息。分布式聚类分布式关联规则挖掘基于隐私保护的分布式聚类的关键是安全地计算数据间的距离(1)Naïve聚类模型。各个站点将数据用加密方式安全地传递给信任第三方,由信任第三方进行聚类后返回结果。(2)多次聚类模型。首先各个站点对本地数据进行聚类并发布结果,再通过对各个站点发布的结果进行二次处理,实现分布式聚类。知识点【基于数据失真的技术】【第六章数据隐私保护技术】数据失真技术通过扰动(perturbation)原始数据来实现隐私保护。它要使扰动后的数据同时满足:(1)攻击者不能发现真实的原始数据。攻击者通过发布的失真数据不能重构出真实的原始数据。(2)失真后的数据仍然保持某些性质不变。利用失真数据得出的某些信息等同于从原始数据上得出的信息。这就保证了基于失真数据的某些应用的可行性。随机化数据随机化即是对原始数据加入随机噪声,然后发布扰动后数据的方法1.随机扰动2.随机化应答随机扰动过程重构过程数据所有者对原始数据扰动后发布,使攻击者不能以高于预定阈值的概率得出原始数据是否包含某些真实信息或伪信息。虽然发布的数据不再真实,但在数据量比较大的情况下,统计信息和汇聚(aggregate)信息仍然可以较为精确地被估算出。知识点【基于数据失真的技术】【第六章数据隐私保护技术】阻塞与凝聚它将原始数据记录分成组,每一组内存储着由k条记录产生的统计信息,包括每个属性的均值、协方差等。这样,只要是采用凝聚技术处理的数据,都可以用通用的重构算法进行处理,并且重构后的记录并不会披露原始记录的隐私,因为同一组内的k条记录是两两不可区分的。1.凝聚技术2.阻塞技术阻塞技术采用的是不发布某些特定数据的方法,因为某些应用更希望基于真实数据进行研究。阻塞技术具体反应到数据表中,即是将某些特定的值用一个不确定符号代替。例如通过引入除{0,1}外的代表不确定值的符号“?”可以实现对布尔关联规则的隐藏。由于某些值被“?”代替,那么对某些项集的计数则为一个不确定的值,位于一个最小估计值和最大估计值范围内。数据采集过程中对隐私的侵犯1用户在上网过程中的每一次点击,录入行为都会在云端服务器上留下相应的记录,特别是在现今移动互联网智能手机大发展的背景下,我们每时每刻都与网络连通,同时我们也每时每刻都在被网络所记录,这些记录被储存就形成了庞大的数据库。知识点【大数据隐私威胁】【第六章数据隐私保护技术】数据存储过程中对隐私的侵犯2互联网运营服务商往往把他们所采集的数据放到云端服务器上,并运用大量的信息技术对这些数据进行保护。账户劫持、攻击、身份伪造、认证失效、密匙丢失等都可能威胁用户数据安全。数据使用过程中对隐私的侵犯3联网运营服务商采集用户行为数据的目的是为了其自身利益,因此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论