Space鬼影事件

之前日本有個節目,去探訪各行各業「最討厭遇到什麼事情、覺得什麼問題最棘手」,例如:咖哩店覺得很難跟客人解釋1~10的辣度分別是多辣;漫畫家討厭畫無關緊要的過場鏡頭;理髮師覺得向路人詢問是否能當model這事相當棘手等等。


對資料處理來說,如影片這種狀況,是相當困擾的,來源不同的兩份資料,明明key值(例如商品編號)相同,卻莫名沒辦法合併,看下去長一樣,但其實不一樣……。

第一手法可以透過ascii去查編碼,了解是否異型字,這常見於中文;但也會遇到英數小寫相同且ascii相同且字元長度都相同,但還是發生影片這種問題的時候。

最常見的原因,通常跟space(空格)有關,在不同資料系統底下,對於space的編寫和認定有所差異,較嚴格的會讓space獨立字元,就能區分出差異(字元長度也會不同);但不嚴謹的,就可能發生「space(空格)的靈魂,附著在某個字元身上」的恐怖事件!簡直就跟電影【鬼影】一樣啊!因此我們常稱之為:Space鬼影事件。

而也因為這種狀況很偶爾才出現,第一時間都會從code裡面去找是否寫錯,資料可能幾萬筆才兩三筆也沒辦法用肉眼去比對,釐清到後來才會發現原來是發生了「Space鬼影事件」。

這真是有夠討厭的……