什麼是【資料清洗(Data Cleansing)】?

在於將資料【處理掉顯而易見的錯誤】

舉例來說,這是某間公司對於會員所收集的性別資料,裡面包括:男、女、男生、女生、男性、女性、男姓(打錯字)、F、f、M、m、Female、Male、female(各種單字縮寫和大小寫不同)……。

這些就算了,我像盛竹如一樣繼續看下去,於是看到093xxxxxxx的手機資料、還有屏東縣xxx的地址資料……裡面何止有兩種?根本有上百種!可以想像性別圓餅圖跑出來,不是一分為二的乾淨俐落,而是如上切分了各種色塊嗎?

資料清洗的過程:
首先決定好最終想要看到什麼,是想要看到【男、女】,還是【M、F】?假設決定最終要設計成【男、女】,則開始做收斂歸類,透過某些程式作業,將男生、男性、男姓、M、m、Male、male等等全數歸類成「男」,「女」的歸類同理。最後,將無法分辨男女的例如手機資料、地址資料,列為null。

真正清洗完的性別資料,只會有三種內容:男、女、null(不存在/空集合)。

【資料清洗】的初級、中級、高級怎麼分呢?

舉例來說,可大致如下區別:
初級:相對單純,使用Excel公式即可處理的,例:性別、日期。
中級:資料本身有橫向位移的狀況,例:性別資料,跑進了備註欄位裡。
高級:地址正規化,把某個地方賦予縣市鄉鎮甚至具體地址,例:「北所」的地址是什麼呢?

可能乍看會覺得,嗯?不就Excel人工改一改就好,有什麼了不起的?如果現在只有如圖片中十幾筆資料,確實人工改一改就好,但當現在若資料有幾十萬筆……甚至如勞保局資料有十幾億筆,千萬不要浪費生命用人工方式去處理。

請儘管相信專業,交給專業。