维普资讯 http://www.cqvip.com 第3O卷第8期 计 算 机 学 报 VoI.3O No.8 Aug.2007 2007年8月 CHINESE JOURNAL OF COMPUTERS 朴素贝叶斯分类中的隐私保护方法研究 张 鹏” 唐世渭 北京 100035) (中国电信股份有限公司北京研究院(北京大学信息科学技术学院北京 100871) 摘要数据挖掘中的隐私保护方法,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则. 围绕着分类挖掘中的隐私保护问题展开研究,给出了一种基于数据处理和特征重构的朴素贝叶斯分类中的隐私保护 方法.分别提出了一种针对枚举类型的隐私数据处理与特征重构方法——扩展的部分隐藏随机化回答(Extended Randomized Response with Partial Hiding,ERRPH)方法和一种针对数值类型的隐私数据处理与特征重构方 法——转换的随机化回答(Transforming Randomized Response,TRR)方法,并在此基础上实现了一个完整的隐私 保护的朴素贝叶斯分类算法.理论分析和实验结果均表明:朴素贝叶斯分类中基于ERRPH和TRR的隐私保护方 法具有很好的隐私性、准确性、高效性和适用性. 关键词数据挖掘;隐私保护;朴素贝叶斯分类;随机处理;特征重构 TP311 中图法分类号Privacy Preserving Naive Bayes Classification ZHANG Peng”TANG Shi~Wei (Beijing Research Institute,China Telecom Corporation Limited,Beijing 100035) (School of Electronics Engineering and Computer Science,Peking University,Beijing 100871) Abstract Privacy preserving data mining is to discover accurate patterns without precise access to the original data.This paper focuses on privacy preserving classification,and presents a priva— cy preserving Naive Bayes classification approach based on data randomization and feature recon— struction.An ERRPH(Extended Randomized Response with PartiaI Hidding)method and a TRR(Transforming Randomized Response)method are respectively presented for enumerated data and numerical data.Then,a privacy preserving Naive Bayes classification algorithm is im— plemented based on those methods.Theoretical analyses show that it can provide better privacy, accuracy,efficiency,and applicability.The effectiveness is also verified by experiments. Keywords data mining;privacy preservation;Naive Bayes classification;data randomization; feature reconstruction 管理和分析变得越来越方便.包括分类挖掘在内的 引 目 随着信息技术,特别是网络技术、数据存储技术 和高性能处理器技术的飞速发展,海量数据的收集、 各种数据挖掘技术,更是在一些深层次的应用中发 挥了非常积极的作用.但与此同时,也带来了隐私保 护方面的诸多问题.例如,通过对电信客户的基本信 息和消费行为数据进行挖掘,可以预测新增客户的 收稿日期:2007—03 05;修改稿收到日期:2007—05 22.本课题得到国家自然科学基金(60403041)和北京市科学技术委员会博士论文专项 基金(ZZ6027)资助.张鹏,男,1978年生,博士,工程师,主要研究方向为数据仓库、数据挖掘、联机分析处理.E-mail:zhangpeng@et— bri.corn.cn.唐世渭,男,1939年生,教授,博士生导师,主要研究领域为数据模型、数据库系统、数据仓库、数据挖掘. 维普资讯 http://www.cqvip.com 计 算 机 学 报 服务偏好和价值走向,但在使用一般方法进行挖掘 的过程中,不可避免地会使客户数据暴露,从而造成 客户隐私的泄露.于是,如何在数据挖掘的过程中解 决好隐私信息保护的问题,成为了数据挖掘界的一 个研究热点[1].数据挖掘有一个重要特征,就是从大 量数据中挖掘出来的模式或者规则,通常是针对综 合数据而非细节数据.那么,能否基于非精确的原始 数据而抽取出准确的模式与规则呢?实现隐私数据 的合理保护和基于统计数据的模式抽取两者兼得, 正是数据挖掘中隐私保护方法研究的出发点和最终 目标. 数据挖掘中隐私保护的概念是由Agrawal等 人[z 提出的,他们专门针对决策树分类问题,采用随 机变换lL3 的数据干扰策略,实现了数值类型数据的 变换和重构以及隐私保护的决策树分类算法;在此 基础上,Agrawal等人又提出了一种基于期望最大 化的分布重构方法[4].但是,这些方法都不能处理布 尔类型和枚举类型的数据.之后,Du等人针对布尔 类型的数据,提出了一种决策树分类中基于随机化 回答的隐私保护方法[5],但该方法与此前提出的随 机处理方法[6]一样,利用的都是统计学中的沃纳模 型,不仅由于变换后的所有数据都与真实的原始数 据直接相关,而使得对隐私信息的保护程度不高,并 且随机化参数的选择也受到,必须偏离O.5.与 此同时,Johnsten等人还提出了利用数据隐藏策略, 实现隐私保护的分类方法[7],虽然一部分敏感信息 得到了保护,但由于数据所有者提供的数据全部都 是真实数据,所以此类方法对整个数据集的隐私保 护程度并不理想.Zhang等人则将数据干扰和查询 的隐私保护策略相结合,提出了一种部分隐藏 的随机化回答(Randomized Response with Partial Hiding,RRPH)方法【8],进行数据的变换和隐藏;然 后针对经过RRPH方法处理的数据,设计了一种简 单、高效的频繁项集生成算法,进而实现了关联规则 挖掘中的隐私保护.与之相比,分类算法所要处理的 数据类型更加广泛,不但包括布尔类型的数据,而且 还包括枚举类型和数值类型的数据.在分布式环境 下的隐私保护方法中,文献[9—11]分别通过安全多 方计算协议,实现了决策树构建中的隐私保护方法; Vaidya等人则相继提出了朴素贝叶斯分类中基于 水平数据划分[1 ]和垂直数据划分口。]的隐私保护方 法;Clifton等人还提供了一组分布式环境下,支持 数据挖掘中隐私保护计算的工具集 .但是,这些 方法都只能用于分布式数据库,并且所有的数据提 供者都必须参与到计算中来,单点故障就会导致错 误结果的产生,甚至造成整个挖掘的无法进行. 可以看出,分类作为数据挖掘中一种重要的方 法,目前在隐私保护方面的研究大多数都是针对决 策树的构建方法展开的,包括朴素贝叶斯在内的其 它分类方法只在分布式环境下有少量的应用.然而, 在属性相互的条件下,朴素贝叶斯分类具有实 现简单、结果准确的特点,还可以针对枚举类型的数 据实现增量挖掘.于是,本文紧紧围绕分类挖掘中的 隐私保护问题展开研究,给出了一个基于数据处理 和特征重构的朴素贝叶斯分类中的隐私保护方法, 主要研究内容和创新成果包括:(1)提出了一种扩 展的部分隐藏随机化回答(ERRPH)方法,实现了 枚举类型隐私数据的处理和特征重构;(2)提出了 一种转换的随机化回答(TRR)方法,实现了数值类 型隐私数据的处理和特征重构;(3)在ERRPH方 法和TRR方法的基础上,实现了一个完整的隐私 保护的朴素贝叶斯分类算法;(4)通过理论分析和 实验结果,说明了朴素贝叶斯分类中基于ERRPH 和TRR的隐私保护方法具有很好的隐私性、准确 性、高效性和适用性. 本文第2节首先给出分类挖掘中隐私保护问题 的描述,然后提出解决方法的总体架构;第3节提出 一种ERRPH方法,实现枚举类型数据的随机处理 和特征重构;第4节再提出一种TRR方法,实现数 值类型数据的随机处理和特征重构;第5节说明如 何使用经过ERRPH和TRR方法处理得到的发布 数据集,构造朴素贝叶斯分类器,预测未知样本的类 标号;对方法的详细分析和评价以及同原有方法的 比较在第6节中给出;第7节中展示相关的实验结 果;最后的第8节给出全文的总结. 2问题与架构 本节中,我们将首先给出分类挖掘中隐私保护 问题的描述,然后提出解决方法的总体架构. 2.1 问题描述 给定的数据集D包含1"/个属性,分别记作A , A ,…,A ,且A ( 一1,2,…, )的值域为dom(A ). D中的每个样本用一个n维特征向量X一(.z , .zz,…,.z )表示,其中.z ∈dom(A ),i一1,2,…,n, 分别表示该样本中属性A的取值.而且数据集D中 的全体样本被分成 个类,并分别用C ,C ,…, 维普资讯 http://www.cqvip.com 8期 张鹏等:朴素贝叶斯分类中的隐私保护方法研究 进行标记.那么,给定一个未知的数据样本Z(类标 号未知),分类的目的就是要根据数据集D来预测 出样本Z的类标号.而分类挖掘中的隐私保护问 题,就是要在不精确访问原始数据集D的条件下, 尽可能准确地预测出Z的类标号. 2.2总体架构 3扩展的部分隐藏随机化回答 (ERRPH)方法 本节将提出一种ERRPH方法,实现枚举类型 隐私数据的处理和特征重构. 3.1数据处理 为解决上述问题,本文提出了一种朴素贝叶斯 分类中的隐私保护方法.该方法基于KD。(Knowl— 随机化回答方法的基本思想是:数据提供者依 edge Discovery in Distorted Database)架构[1 ,分 两阶段进行:首先用随机化回答的方法对原始数据 进行处理;然后再利用特征重构的方法,借助经过处 理的数据来对未知样本进行朴素贝叶斯分类.特别 要指出的是,我们会根据不同的数据类型来选择具 体的随机处理和特征重构方法.整个方法的总体架 构如图1所示. 图l朴素贝叶斯分类中基于ERRPH和 TRR的隐私保护方法 第一个阶段针对枚举类型和数值类型的数据, 分别利用ERRPH方法和TRR方法来对原始数据 进行处理,具体的方法在第3和第4节中给出.第二 个阶段则将基于经过ERRPH方法和TRR方法处 理的发布数据,对原始数据的分布特征进行重构,以 此估算未知样本的后验概率,进而预测出分类标号, 详细的过程在第5节中介绍.整个方法中,连接两个 阶段操作的除了经过ERRPH方法和TRR方法处 理的数据以外,还有一组随机化参数,在第一个阶段 描述随机处理的规则;在第二个阶段指导分布的重 构和后验概率的计算.而且,参数值的选择对于隐私 的保护程度和挖掘结果的准确性,都具有非常重要 的影响. 照给定的随机化参数对原始数据进行变换,再提供 给数据使用者.在使用者得到的信息中,虽然详细信 息被提供者进行了处理,但在数据量比较大的情况 下,统计信息和聚集信息仍然可以被相当精确地估 算出来.由于样本分类,特别是朴素贝叶斯分类,是 基于一个数据集合的聚集信息值,而非一个个详细 的数据项,因此随机化回答方法可以很好地用于朴 素贝叶斯分类中的隐私保护问题.本节提出了一种 处理枚举类型隐私数据的ERRPH方法,其具体描 述如下: 设属性A有k个可能的取值,其值域dom(A)一 {a ,a ,…,a }.给定一组随机化参数o<-1)。,P ,…, P 1,使得P。+P +…+P 一1.对任意的32∈ dora(A),令ro一32,r,一a,( 一1,2,…,k),则随 机化函数r(.z)以P,( 一0,1,…,k)的概率返回rJ. 数据集D中的样本可以用向量X一(.z ,32 ,…,32 ) 来表示,其中32 ∈A ,且A 的值域dom(A )一 {a a …,a嚏}.于是,随机处理后的样本l,一( , Y ,…,Y )可以通过Y=R(x)计算得到,其中Y 一r (.z ).也就是说,Y 以P。的概率取值为-z ,而以P 的 概率取值为a 这样,对数据集D中的每一个样本x,经过随 机化函数R的处理得到l,,而且由于l,在形式上仍 然是一个与x相似的数据样本,所以就可以作为一 个伪造的样本,加入到伪造的数据集D 中. 需要说明的是,在ERRPH方法中,我们可以对 不同的属性分别使用不同的随机化参数进行干扰. 但为了简单起见,我们将对所有属性使用相同的随 机化参数进行数据处理. 3.2特征重构 那么,如何利用经过ERRPH方法处理得到的 发布数据集D 来重构原始数据集D中属性的分 布情况呢?设丌,表示原始数据集D中属性A的取 值为a,的样本所占的比例; ,表示发布数据集D 中 属性A的取值为a,的样本所占的比例,其中 一1, 2,…,k.D中的样本x经过ERRPH方法处理,变 维普资讯 http://www.cqvip.com 计 算 机 学 报 成D 中的样本y,而x和y对应属性A的取值分别 用(n ,n。,…,n )表示,则XA和 的取值与映射概 后的数据就可以通过Y—r(z)计算得到.设原始数 据集D中包含 条记录,这 条记录所对应的属性 率如表1所示. 表1 ERRPH方法处理数据的映射概率 由表1可得 一P。・丌+ ,.于是, 1一^ 丌丌,一, 一—丝 (1)1 P 0 也就是说,我们可以首先计算出发布数据集D 中属性A的取值为n,的样本所占的比例 ,然后再 利用式(1)估算出原始数据集D中属性A的取值为 n,的样本所占的比例丌. 为了简单起见,我们通常会假设除了P。以外的 忌个参数都相等,也就是说,P 一P。一・一P 一 1一 .这样,在原始数据集中对应属性A的不同取 值的样本就可以通过相同的式(1)计算得到. 4转换的随机化回答(TRR)方法 本节将基于统计学中的转换模型,提出一种针对 数值类型数据的TRR随机处理与特征重构方法. 4.1数据处理 转换的随机化回答(TRR)方法,首先需要随机 生成一个满足给定特征的变换函数,然后利用这个 函数对原始的数值类型数据进行变换,并将变换后 的数值作为随机化回答的结果.方法的具体描述 如下: 给定集合A一{n ,n。,…,n ),且设其中元素的 均值和方差分别为 1 l 1 l 一 ∑n , — ∑(n 一 )。; i一1 i一1 再给定集合B一{b ,b。,…,b ),且设其中元素的均 值和方差分别为 对数值类型的数据 ,随i豆一 ∑6, , 一 m--∑(bi-ml-.-J 机=化豆)。. 函数r( )一 n +b,其中n∈A,是从A中随机选取的一个元素, 而6∈B,是从B中随机选取的一个元素.这样,变换 Af的取值分别为X一{ , 。,…, ).那么,发布数 据集D 中的 条记录所对应的属性At的取值y一 {Y ,Y。,…,Y )就可以通过y—R(X)计算得到,其 中Y 一r(x ), 一1,2,…, . 4.2特征重构 按照上述的TRR方法,我们将原始数据 转 换成Y—r( ):ax-[-b.当A一=/:O时,令 估计量圣一 y--B,且圣是 的无偏估计量.原始数据集D中的 条记录所对应的属性Af的取值X一{ , z,…, z ),被转换为了发布数据集D 中的 条记录所对 应的属性Af的取值y一{ , 。,…, ). 为了进行朴素贝叶斯分类,我们假设X符合高 斯分布N( , 2).我们知道,互一 ∑ 是 的无 偏估计量.但 是未知的,故我们用圣 代替 ,得到 估计量至一 1 一 骞 一 . 通常,为了计算简便,可以设计豆一0,进而得到 z均值的估计值 至一 y一 一 一一(z) nA 2/, (2) .一 另一方面,Var( )一 r(n +6)一( +A。)・ Var( )+ ・互。+ .因此, Vat(x)- . 但互未知,故用至一 来代替.于是得到 的方差估 计值 沪 1 。一 一 一— — 雨-一 这样,就可以利用集合A中元素的均值A和方 差 i以及集合B中元素的方差 §,并通过发布数据 集D 中属性At的取值y一{ , 。,…, ),来根据 式(2)和式(3),计算出至和S。的取值.然后,以此作 为原始数据集D中属性At的取值X一{ , z,…, 37 )的分布特征N(圣,S。),进而实施分类挖掘. 维普资讯 http://www.cqvip.com 8期 张鹏等:朴素贝叶斯分类中的隐私保护方法研究 5隐私保护的朴素贝叶斯分类算法 本节将在一般的朴素贝叶斯分类算法的基础 上,利用基于ERRPH的枚举类型数据特征重构方 法和基于TRR的数值类型数据特征重构方法,给 。志蓦c i+ 一 ’ 1 于是可知 P(zk lCi)=g(zk,五 , ) 去e。 (5) 出通过发布数据集D 来对未知样本Z进行分类的 算法. 朴素贝叶斯作为一种简单实用的分类方法,将预 测未知样本Z属于具有最高后验概率(条件Z)的类. 即将未知的样本分配给类G,当且仅当P(C l Z)三三= P(C,l Z),其中1 m且J≠i.这样,我们最大化 P(Ci l Z)的值,而使得P(C l Z)最大的类C 则称 为最大后验假定.根据贝叶斯定理,有P(C l Z)一 .由于P(z)对于所有类为常数,故 只需让P(ZlC )P(C )的取值最大即可.于是,朴素 贝叶斯分类算法的核心内容就是要计算和比较 P(ZlC )P(C )的值,其中i一1,2,…,m. 在经过ERRPH方法和TRR方法随机处理所 得到的发布数据集D 中,因为类标号是没有进行处 理的,所以类的先验概率仍然可以用P(C,)===_oi计 算,其中s。是类C 中的训练样本数,而s—l D l是训 练样本总数.在属性相互的条件下,P(Zl C。)一 Il P(z l Ci).但P(z l C ),P(zz l C ),…,P(z l C ) 的值无法通过训练样本直接计算得到,而需要借助 ERRPH(对枚举类型数据)和TRR(对数值类型数 据)的特征重构方法. (1)如果A是枚举类型的属性,则设P ( l C )=== , c,其中s 是在发布数据集D 中属性A 的取值为 5i z ,且属于类C 的训练样本数,而s 是属于类C 中 的训练样本数.根据式(1)可知 P( lC )一 l)二 P 1Pl (4) (2)如果A 是数值类型的属性,则设发布数据 集D 中属于类C 的训练样本数为N ,分别记作y , y。,…,y ,它们的均值为歹 而样本y』在属性A 上的取值为y 分别根据式(2)和式(3),我们可以 计算得到 1 一而‘刍 ” 这样,P(Z}C。)P(C )就可以通过式(4)和式(5) 计算得到.对未知样本Z分类时,就可以使用经 过ERRPH方法和TRR方法随机处理过的发布数 据集D ,来对每个类C ,计算P(Zl Ci)P(Ci)的值. 并将未知样本Z分到类C。,当且仅当P(C l Z)三三= P(CJ lZ),其中1 m且J≠i. 6分析与评价 本节将从隐私性、准确性、高效性和适用性这 4个方面,对本文提出的朴素贝叶斯分类中基于 ERRPH和TRR的隐私保护方法进行详细的分析 和评价,并与原有的隐私数据决策树构建(Building Decision Tree on Private Data,DTPD)方法以及基 于随机化数据的决策树分类(Decision Tree Classi— fication over Randomized Data,DTCRD)方法进行 对比. 6.1 隐私性 数据挖掘中隐私保护方法研究的出发点和最终 目标,是在合理保护隐私数据的前提下,进行数据挖 掘和知识发现,寻找其中潜在的模式和规则.本文提 出的朴素贝叶斯分类中的隐私保护方法是基于 KD。架构设计的,分两个阶段进行.而隐私性则主要 是在第一个阶段,即利用ERRPH方法和TRR方 法进行随机处理的过程中实现的. 在处理枚举类型数据的时候,使用的是ERRPH 方法.数据使用者得到.y—r(z),而且y和z的取值 范围是相同的,都是dom(A)={a ,a。,…,a ).对于 给定的.y值来讲,z可以是dora(A)中的任意一个 取值,因而无法通过.y值来还原z的取值,也就是 说隐私信息z得到了保护.在发布数据集中,比例 为1一P。的数据被隐藏,只有比例为P。的真实数据 混杂在大量的伪造数据中被提交给了数据使用者. 并且由于每条记录所对应的随机化参数都是未知 的,因而这些真实数据是很难被识别出来的.即使是 在随机化参数被泄露的情况下,也至多暴露比例为 P。的真实数据.这样,ERRPH方法既克服了基于数 据干扰策略的处理方法中,所有变化后的数据均与 维普资讯 http://www.cqvip.com 计 算 机 学 报 真实的原始数据直接相关的不足,又消除了基于查 询策略的处理方法中,所有提供的都是真实原 间宽度与DTCRD方法中使用高斯分布进行干扰 (这也是隐私保护程度最高的一种方式)时的隐私破 坏区间宽度是一致的,而比使用其它干扰方式(包括 离散化和均值分布干扰)进行隐私信息保护时的效 果要好. 始数据的缺陷,从而实现了对隐私信息的很好保护. 为了比较不同方法对隐私信息的保护程度,我 们提出了一个隐私破坏系数Breach的指标.它是指 原始数据被重构或者预测出来的概率,其定义如下: BrP乜c 一P真实数据的比例×P真实数据被识别出的概率+ P非真实数据的比例×P非真实数据被识别出的概率× P非真实数据被还原的概率. 于是,ERRPH方法的隐私破坏系数为Breach一 P。・_半_.当除P。之外的其余k个随机化参数均 PoTp 1一^ 相等,即P1一P2一・一P 一半时,Breach— P k・P 1 r 如果k一2,则ERRPH 方法退化成RRPH方法,此时Breach一 .因 Po T 为DTPD方法使用的是基于沃纳模型的随机化回 答方法,所以根据文献[8]中的分析结果可知:当 1 0< < 时,该方法比DTPD方法具有更高的隐私 √Z 保护程度. 在处理数值类型数据的时候,使用的是TRR 方法,这是基于统计学中的转换模型构建的.数据使 用者得到的是 —r(z)一nz+6,其中a和b是分别 从集合A与集合B中随机选取的元素.由于我们只 知道集合A与集合B中的元素分别服从给定均值 和方差的高斯分布,但并不知道它们具体可能的取 值,因而无法通过Y值来还原z的取值,也就是说 隐私信息z得到了保护. 为了能够评价类似方法的隐私保护程度,我们 引入了一个隐私破坏区间宽度BreachWidth的指 标.它的定义是:如果原始数据z落到区间[z ,z。] 上的概率为C,即P(z z z。)一C,则称区间 [z ,z。]是置信度为C的隐私破坏区间,而该区间的 宽度(z。一z )就定义了置信度为C的隐私破坏区间 宽度,即 BreachWidth—z2一z1. 由于X服从高斯分布N(/1,d。),所以TRR方 法在不同置信度条件下的隐私破坏区间宽度如表2 所示.可以看出,TRR方法的隐私破坏区间宽度只 和X所服从的分布的标准差有关,并且随着置信度 的增加而不断变大.另外,TRR方法的隐私破坏区 表2不同置信度的隐私破坏区间宽度 6.2准确性 保护好数据的隐私,是数据挖掘中隐私保护方 法的最基本要求,而我们的最终目标是要通过挖掘 来获取真实、可用的知识与规则. 对于ERRPH方法,由式(1)得到的估计量 一 是 的无偏估计量;方差 r( 一去 r( . 设数据集中D中的样本总数为N,则 一 二l ±! !二 ! 二 N ‘ 所以, Vat(it )一 Pi(1一P1)+Po(1一 。一2 )Iri.巩(1一巩) Np 。 N ‘ 忽略抽样误差, Var(ir ̄)= . 当 一 z一…一户 一 时, r( )一 j1 -p庀。po Ek一1+ 。+忌(忌一2)p。 ].如果忌一2,则 )一 . 对于数值类型的数据,使用的是TRR方法.为 了进行朴素贝叶斯分类,假设X符合高斯分布 N(/1 ,d 2). 我们知道,至一吉 z 是 的无偏估计量.但 z 是未知的,因而用奎 代替z ,得到估计量至一 维普资讯 http://www.cqvip.com 8期 张鹏等:朴素贝叶斯分类中的隐私保护方法研究 骞圣 ,也是 的无偏估计量.于是, r( 骞 ) 骞 r( . + 一一 一 一— 。 因为其中的32未知,所以要计算Var(奎)的估计量 r(互)一 骞 .由E[ r(至)]一 ・ 堕÷ 一 r(互),知 r(互)是 r(互)的 无偏估计量.- ̄Nwt,由于 r(57)中不包含豆.因此 … … 著脚 一 , …一 a l +a ̄一 . ( t 一 I i 1DA , E(S )一E l— 一— 一 三+ 一E(za,-(y)- (芸) 一 §] L—— 一j —Vat(3一 Va 2)一——— _ =-F—a , ̄x ̄--aMz ̄(-一,x)一一Va r(z).. 也就是说,§z是Var(z)的无偏估计量. 我们记卢一 耋( 一 一 E( 一 蓦一( + 2)歹 .于是, 一 Var (f1)一 +(n--1)一yZ— ・ ] ( 一1 再 。 可以看出,在TRR方法中,原始数据方差估计 值的误差会随着集合A中元素均值和方差的增大 而增加.在下一节中,我们将通过实验,对于不同方 法的挖掘结果准确性进行详细的分析比较. 6.3高效性 与普通数据挖掘方法相比,隐私保护的数据挖 掘方法面对着更加复杂的要求.本文提出的朴素贝 叶斯分类中基于ERRPH和TRR的隐私保护方 法,在对隐私信息进行合理保护和对未知样本做出 较准确分类的同时,并没有带来过多的计算复杂度 增长,其时间和空间代价与一般的朴素贝叶斯分类 方法成线性关系. 原有的DTPD方法和DTCRD方法都是决策 树构建中的隐私保护方法.对于DTPD方法来讲, 其计算的复杂度与一般的决策树分类方法成线性关 系;而对于DTCRD方法来讲,会由于在分布重构过 程中所进行的大量迭代计算,而使得计算的复杂度 大幅度增加. 6.4适用性 本文提出的朴素贝叶斯分类中的隐私数据保护 方法,还具有非常好的适用性.具体体现在数据挖掘 算法的适用性、隐私数据类型的适用性和数据分布 状况的适用性这三个方面. 首先,从数据挖掘算法的角度来看,本文提出的 朴素贝叶斯分类中的隐私保护方法,是在KD。通用 架构与流程的基础上设计的,将整个方法分成了相 对的两个阶段,所以当我们希望将其扩展,用于 决策树构建等其它的分类算法、关联规则挖掘等其 它的数据挖掘算法时,第一阶段的ERRPH方法和 TRR方法可以直接使用,只需要在第二阶段的挖掘 过程中,利用相应的特征重构方法就可以了. 其次,从数据类型的角度来看,现有数据挖掘中 隐私保护方法所使用的随机处理方法,针对的都是 数值类型或者布尔类型的数据,都不适用于枚举类 型的数据.例如,DTPD方法是分类挖掘中布尔类型 隐私数据的保护方法;而DTCRD方法则是分类挖 掘中数值类型隐私数据的保护方法.而本文提出的 ERRPH数据处理和特种重构方法,能够很好地处 理枚举类型的数据.而且,通过ERRPH方法和 TRR方法的配合使用,实现了能够同时支持枚举类 型和数值类型的完整的隐私保护的朴素贝叶斯分类 算法. 另外,现有的朴素贝叶斯分类中的隐私保护方 法,只能适用在基于水平划分或者垂直划分的分布 式数据库中,而本文提出的基于ERRPH和TRR 的隐私保护方法,能够同时适用于集中式数据库和 分布式数据库.无论原始数据属于一个还是多个数 据所有者,都可以将经过ERRPH方法和TRR方 法随机处理后的发布数据集交给数据使用者,并利 于相应的特征重构方法,对未知样本实施朴素贝叶 斯分类. 综上所述,本文提出的朴素贝叶斯分类中基于 维普资讯 http://www.cqvip.com 计 算 机 学 报 ERRPH和TRR的隐私保护方法,在隐私性、准确 性、高效性和适用性等方面都取得了良好的效果.下 一用ERRPH方法对原始数据进行随机处理.对于 数值类型的属性,我们则将选取满足给定高斯分布 的随机数a和b,来对原始数据集进行随机处理. 其中,a分别服从高斯分布N(1,1)和高斯分布 N(2,10);b则分别服从标准正态分布N(O,1)和高 斯分布N(0,5). 接下来,我们就可以使用本文提出的PPNB方 法,根据经过随机处理的训练数据集,来对测试数据 集中样本的类标号进行预测,并与它们实际的类标 节将通过实验对相应的分析结果做进一步的 印证. 7 实验分析 在本节中,我们将通过一组实验,来检验本文提 出的朴素贝叶斯分类中基于ERRPH和TRR的隐 私保护(Privacy Preserving Naive Bayes,PPNB)方 号相对照,计算出分类结果的准确率.为了有所参 照,我们还将利用一般的朴素贝叶斯分类方法,来根 据原始的训练数据集对测试数据集中的样本标号进 法.一方面,我们会将PPNB方法与原始的朴素贝 叶斯(Naive Bayes,NB)分类方法,对同一批未知样 本进行分类的结果进行对照;另一方面,我们还会将 PPNB方法与DTPD方法,在进行隐私保护分类挖 掘时结果的准确性进行对比,并说明数据隐私性和 挖掘结果准确性与随机化参数之间的关系. 7.1实验方法 行预测,并计算出分类结果的准确率. 最后,为了与现有分类挖掘中的隐私保护方法 DTPD相比较,我们将针对模拟数据集,分别选取一 个分界点将所有属性都转化成了布尔属性.然后,选 取不同的随机化参数 一户一0.1,0.2,0.3,0.35, 0.4,0.45,0.49,0.51,0.55,0.6,0.65,0.7,0.8, 1一 我们在实验中将使用一组模拟的数据集和一组 真实的数据集.模拟数据集是一组银行卡客户信息, 包括客户的年龄、学历、职业、婚姻状况、收入水平、 0.9;P1一P 一半厶 ,分别利用ERRPH(此时已经 持卡数量、刷卡频率、刷卡额度、存款额度、贷款额度 等描述属性以及客户价值(高、中、低)的分类属性. 我们随机抽取了50000个样本作为训练数据集,另 取了5000个样本作为测试数据集.真实数据集来自 退化为RRPH)方法和DTPT方法先对原始数据进 行随机处理;再利用经过处理的训练数据集,对测试 集中的样本进行分类,并比较两种方法的分类结果 准确性. 7.2实验结果 某刑侦系统的犯罪嫌疑人信息,总计33389条记录, 我们选取前30000条记录作为训练数据集,其余 3389条记录作为测试数据集,并将根据犯罪嫌疑人 的属性信息,预测其参与案件的类型. 针对这两个数据集,我们将首先利用ERRPH 方法和TRR方法对它们进行随机处理.对于枚举 类型的属性,将选取不同的随机化参数P。一0.1, 0.2,0.3,0.35,0.4,0.45,0.49,0.51,0.55,0.6, 1一^ 图2中分别给出了PPNB方法在不同随机化参 数取值的情况下,针对(a)银行卡客户数据和(b)刑 侦数据的分类结果准确率.其中,横轴表示针对枚举 类型属性的ERRPH方法中P。的值,纵轴表示分类 结果准确率,两条则折线表示针对数值类型属性的 TRR方法中不同的两组参数.另外,我们还与普通 的NB方法针对原始数据集的分类结果准确率进行 了比较. 0.65,0.7,0.8,0.9;P 一夕2一・一夕^一 ,使 褂 器 姆 随机化参数 (a)银行卡系统客户数据 ,随机化参数 (b)刑侦系统犯罪嫌疑人数据 图2 PPNB方法的分类结果准确率 维普资讯 http://www.cqvip.com 8期 张鹏等:朴素贝叶斯分类中的隐私保护方法研究 1275 图3(a)中给出了PPNB方法和DTPD方法,对 银行卡客户数据的分类结果准确率随参数P变化 的情况;图3(b)中则给出了这两种方法,对犯罪嫌 疑人数据的分类结果准确率随参数P变化的情况. 随机化参数 (a)银行卡系统客户数据 随机化参数 (b)刑侦系统犯罪嫌疑人数据 图3 PPNB方法和DTPD方法的分类结果准确率比较 7.3结果分析 但真实的数据集中属性间是存在相互依赖关系的. 尽管如此,只要参数选择合理,PPNB方法仍然可以 首先,从图2的结果可以看出:PPNB方法的分 类结果准确率会随着ERRPH方法中随机化参数 P。(即真实数据所占的比例)取值的增大而不断提高; 还将随着TRR方法中参数集合方差的增大而降低. 然后,从图3的结果可以看出:DTPD方法的分 类结果准确率变化比较大,当P接近0或1时,挖掘 结果比较准确;但此时的隐私破坏系数接近1,方法 对隐私的保护程度很差.在P从0或1逐渐接近 取得较好的分类效果. 在理论分析和实验结果的基础上,权衡数据的 隐私性和挖掘结果的准确性,我们建议在区间 [0.35,0.6]上选取随机化参数P的值,在分类挖掘 中使用PPNB方法进行隐私信息的保护. 8 总 结 在本文中,我们紧紧围绕分类挖掘中的隐私保 护问题展开研究,给出了一种基于数据处理和特征 重构的朴素贝叶斯分类中的隐私保护方法.我们根 据隐私数据类型的不同,分别提出了一种针对枚举 类型的ERRPH数据处理和特征重构方法和一种针 对数值类型的TRR数据处理和特征重构方法;并 在此基础上实现了一个完整的隐私保护的朴素贝叶 斯分类算法. 我们还通过理论分析和实验,说明了在朴素贝 0.5的过程中,隐私破坏系数会逐渐减小,隐私保护 的程度不断提高,但挖掘结果的准确率将显著下降. 而本文提出的PPNB方法,分类结果的准确率变化 相对平稳,随着P值,也就是真实数据所占的比例, 从0增加到1,隐私破坏系数也从0增长到1,方法 对隐私的保护程度不断下降,而挖掘结果准确率不 断提高. 再从图3(a)的详细结果还可以看出:当P的取 值较小时,DTPD方法的准确率比PPNB方法高; 而当P的取值超过0.3以后,PPNB方法的准确率 就要高于DTPD方法了,特别是当P值接近0.5 时,准确率更是相差了很多.这些实验结果与第6节 中关于隐私性和准确性方面的论证是完全一致的. 图3(b)的结果和图3(a)的结果相比,整体效 叶斯分类中基于ERRPH和TRR的隐私保护方法 中,随机化参数的选择与数据隐私性和挖掘结果准 确性之间的关系与相互影响,并就方法的运行效率 和适用范围进行了详尽分析.分析和实验的结果均 表明,该方法具有很好的隐私性、准确性、高效性和 适用性. 果基本一致,只是两种方法的分类结果准确率都有 不同程度下降.其中,PPNB方法的分类结果正确率 下降的更加明显,在图3(a)中,当P 0.3时就比 DTPD方法具有更高的分类结果准确率,而在图3 (b)中只有P在区间[0.4,0.7]上时才具有更高的 分类结果准确率.这是因为朴素贝叶斯分类的方法 需要类条件的假定,模拟数据集是这样构造的, 参 考 文 献 Eli Verykios V S,Bertino E,Fovino I N,Provenza L P,Saygin Y,Theodoridis Y.State~of-the—art in privacy preserving da— 维普资讯 http://www.cqvip.com