目录:
定义-数据扰动是什么意思?
数据扰动是一种用于电子健康记录(EHR)的隐私保护数据挖掘形式。 适用于EHR数据保护的数据干扰有两种主要类型。 第一种称为概率分布方法,第二种称为值失真方法。 在保护敏感的电子数据免遭未经授权的使用中,数据插管被认为是一种相对简单有效的技术。
技术百科解释了数据扰动
与取消身份识别/重新识别相比,由于在公共数据集与原始标识符或主题相关联的攻击发生的可能性更高,因此数据插拔被认为是在医疗保健中比取消识别/重新识别更有效的数据保护应用。 因此,在电子病历安全性方面,数据灌注被认为是更可靠的应用程序。
概率分布方法从相同的分布样本或分布本身中获取数据并进行替换。 值失真方法通过乘法或累加噪声或其他随机过程扰乱数据。 它被认为比以前的摄动更为有效。 例如,这种方法构建了决策树分类器,其中为每个元素分配了来自高斯分布的随机噪声。 通过数据挖掘,原始数据分发将从其受干扰的版本重建。 但是,批评者指出了一个事实,即可以滤除随机的附加噪声,这可能会损害EHR的隐私。