V2EX  ›  英汉词典

Data Cleansing

Definition / 定义

data cleansing(也常说 data cleaning)指对数据进行“清洗/净化”的过程:识别并纠正或删除错误、重复、缺失、格式不一致、异常等问题,使数据更准确、更一致、更适合分析、建模或入库。(在某些语境下也称 data scrubbing。)

Pronunciation / 发音

/ˈdeɪtə ˈklenzɪŋ/ (也常见 /ˈdætə ˈklenzɪŋ/)

Examples / 例句

Data cleansing takes time, but it improves accuracy.
数据清洗很耗时,但能提高准确性。

Before we trained the model, we performed data cleansing to standardize date formats, remove duplicates, and handle missing values.
在训练模型之前,我们先进行数据清洗:统一日期格式、去除重复记录,并处理缺失值。

Etymology / 词源

cleansing 来自动词 cleanse(“清洁、净化”),与 clean 同源,核心含义是“去除污物/杂质”。在信息技术语境中,“污物”被类比为数据里的错误与噪声,因此形成了 data cleansing 这一说法,用来强调把数据“变干净、可用”。

Related Words / 相关词

Literary Works / 文学作品

  • Python for Data Analysis(Wes McKinney)——多处讨论数据清洗/整理任务(常用 data cleaning,但语义与 data cleansing 对应)。
  • Data Science for Business(Foster Provost & Tom Fawcett)——在数据准备与建模流程中强调清洗对分析质量的重要性。
  • The Data Warehouse Toolkit(Ralph Kimball 等)——数据仓库与 ETL 章节中涉及数据质量与清洗/净化(行业中常用 cleansing 描述入库前处理)。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1855 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 15:51 · PVG 23:51 · LAX 07:51 · JFK 10:51
♥ Do have faith in what you're doing.