《大数据原理:复杂信息的准备、共享和分析》一一2.9 数据清洗

news/2025/2/26 3:31:19

2.9 数据清洗
数据清洗有时候被看作去标识化的同义词,事实上,应该理解为一个起于去标识化过程结束时的过程。数据清洗会将那些数据记录里不希望保留的信息移除,包括个人信息和其他与数据记录含义不直接相关的信息。例如,在医院记录的案例里,数据清洗应当清洗掉病人的主治医生姓名、医院或医疗机构名称、地址、看病日期和其他不合适的、不合法的、不相关的或者存在潜在危险的信息。
关于医疗数据记录,有个说法,“‘最小化必要’分享数据”33(见术语表,Minimal necessary),是指在分享记录时,只需要分享最少量的必要信息,其他与数据分析师的应用目的不直接相关的信息均不分享。数据清洗过程给予数据管理人员一个断开数据记录自身信息之间的联结关系和舍弃数据分析师不需要的信息的机会。
数据清洗的方法很多,大部分都要求数据管理人员制作出一个不应该包含在分享记录中的异常列表,如城市、州、邮编、人名等。清洗应用程序遍历数据记录,提取不必要信息。清洗的结果是获得“干净”的数据,而不是消除它。但这类方法并不能生成完美清洗的数据集。在大数据资源里,数据管理人员基本上不可能提前获知每个不想要的数据条目,并把它添加到异常列表中。没有人这么聪明。
然而,有一个方法可以实现准确无误地清洗数据。首先,创建一个可包含在清洗后的、去标识化后的数据集中的数据列表(通常是单词和短语的形式);接着,删除不在此列表中的其他数据,剩下的就是清洗后的数据。这种方法是一种逆向清洗方法,数据集中的任何数据都将被删除,除非它是被允许存在的“异常”。
上面的这种方法运算速度很快,可生产无错误的、去标识化的、清洗过的数据输出19,35,36。下面给出一个实例:

逆向清洗方法首先要有一个允许的词条列表。生成这个列表的一个简单方法是在术语表中筛选出那些专业词汇,例如,一个生物物种综合清单不会有日期、邮编等信息。我曾经发表的一个算法,实现了从标准术语表中自动收集双词短语,并形成一个允许的成对词列表,短语数量大约为20万19。算法的处理速度很快,而且不会因为列表变大而降低速度。


http://www.niftyadmin.cn/n/711797.html

相关文章

log4j java配置_基于java配置log4j日志详解

1.Log4j1.1了解Log4jLog4j是Apache的一个开源项目,通过使用log4j,我们可以控制日志信息输送的目的地可以是控制台、文件、GUI组件,我们也可以控制每一条日志的输出格式,通过定义每一条日志信息的级别,我们能够更加细致…

SpringBoot——多环境配置文件、自定义配置文件的创建

文章目录: 1.多环境配置文件的创建 1.1 dev 1.2 product 1.3 ready 1.4 test 1.5 核心配置文件 1.6 控制器类 1.7 入口类 2.自定义配置文件的创建 2.1 Value 2.2 ConfigurationProperties 2.2.1 自定义配置文件 2.2.2 自定义一个类,获取自…

table的构成

tr 元素定义表格行,th 元素定义表头,td 元素定义表格单元格。 cellpadding规定单元格边沿与其内容之间的空白。 cellspacing规定单元格之间的空白。 caption定义表格的标题 tbody定义表格的主体 thead定义表格的的页眉 tfoot定义表格的的页脚 colspan是表…

自定义View-仿虎扑直播比赛界面的打赏按钮

作为一个资深篮球爱好者,我经常会用虎扑app看比赛直播,后来注意到文字直播界面右下角加了两个按钮,可以在直播过程中送虎扑币,为自己支持的球队加油,具体的效果如下图所示: 我个人觉得挺好玩的,…

java 组合框输入_java组合框赋值怎么实现?有哪些方式?

一个程序员最基本的要求和工作就是能够为各种数据库增删改查,这中间自然少不了赋值的过程,小伙伴们知道有哪些方式能为组合框赋值吗?下面这篇文章就一起看看吧。例:一个组合框ComboBox1,从工作表1中的A列中提取不重复数值赋以这个…

《算法设计与分析》一一1.1 RAM模型的引入

1.1 RAM模型的引入 1.1.1 计算的基本概念计算技术已经渗透到我们日常生活的方方面面,显著地改变了我们的生活。计算技术的广泛应用与巨大成功让我们不禁思考:“为什么计算机似乎无所不能。”例如,我们平时的工作、娱乐、交流都得益于计算机…

man命令 详解

1. man命令 1:用户命令(/bin, /usr/bin, /usr/local/bin) 2:系统调用 3:库用户 4:特殊文件(设备文件) 5:文…

java class 获得函数_java的Class类及getClass()函数

Java反射学习所谓反射,可以理解为在运行时期获取对象类型信息的操作。传统的编程方法要求程序员在编译阶段决定使用的类型,但是在反射的帮助下,编程人员可以动态获取这些信息,从而编写更加具有可移植性的代码。严格地说&#xff0…