法條正規化

覺得這系列文有點糾結,哈哈~

原本打算是,案件中可以發現一些有趣或值得分享的資料或觀察,貼文來記錄記錄。但大都因簽有保密協議,能提的內容非常有限,有點隔靴搔癢,沒辦法直接看到亮點。
當然我文章還是盡量把這些擦邊球講得有趣些,實際狀況,只能有賴大家想像力了。

與「法務部司法官學院犯罪防治研究中心」的合作至今半年,這兩天因專案中有份資料與法條有關,所以細細的把這本和犯防同仁借的小六法,好好再次翻過,看時總覺得內容似乎與多年前翻閱時已經不同,這才意識到:對!法條是會變的!

「法條會變」這件事令我「哇喔」驚呼一下的點在於……

資料清洗中,「地址正規化」幾乎是所有資料處理中的大魔王,因為地址的輸入大都是人工手打輸入,會有各式各樣奇葩的文字,但卻是案主認為這該知道它實際地址的。例如「北所」兩個字,「北所」是哪裡?台北市?不……它是「台北看守所」,是「新北市土城區」。

換言之,資料中只要看到「北所」,系統就必須自動將其轉換成「新北市土城區立德路2號」,而這一長串的地址和「北所」甚至只有「北」這個字有重複到。

這和正常乖乖寫完整地址例如「新北市新店區復興路10號4樓」的狀況完全不同,等於我們必須針對這些「大家知道這在哪的地點」去賦予它一個正確的實際地址。換句話說,會有非常多的客製化狀況,也因此「地址正規化」在資料處理中經常是個大魔王。

然而「法條正規化」卻是一個不下於此的清洗難度……

法條於我所取得的資料中其結構是:條、條之、項、款,四個層級。

如圖片舉例【刑法第339條之4,第1項,第3款】(339,4,1,3),是四個層級都有,但資料因為同樣是人為輸入,會有什麼問題呢?歷久以來的資料會出現:
第339條之4第3款(沒有寫項最常見)
第339條之4第3項(款誤寫為項)
第339條第3款(沒有寫條之和項)
第339條第3項(這開始危險了…會不會是第339條之3?)
第340條之4第1項第3款(等等…第340條不是刪除了嗎?)

上述於原始資料裡分別是:
【339,4,0,3】(應是【339,4,1,3】)
【339,4,3,0】(應是【339,4,1,3】)
【339,0,0,3】(應是【339,4,1,3】)
【339,0,3,0】(是【339,3,1,0】還是【339,4,1,3】呢?)
【340,4,1,3】(必須查歷史看有沒有【340,4,1,3】)

這還只是冰山一角,沒寫條之、該寫項沒寫項、該寫款沒寫款、項款寫相反等等等等,縱使比例不高但也是會發生。更關鍵重點在於,如當前法條340是已刪除沒錯,但此案件有可能是在法條刪除前發生的,換句話說必須比對的法條不只當前法條,必須去比對案件發生日期的法條才行!哇喔哇喔~~~這不比地址正規化簡單哪!

好在與犯防中心研究員有共識,法條輸入錯誤的,難以追究,也難以還原,就不強求。此部分工作範圍僅需將四個層級(四個欄位)以一個欄位呈現即可,亦不須帶入背後實際的法條文字內容。故在本案中,仍可毫無阻礙地繼續順利完成其他部分。

只是仍會想著:法學單位的資料建構這條路繼續走下去,未來肯定還是會需要建一個「法條歷史資料庫」(尤其重點是歷史二字,不然早期的案件怎比對),才可供上述資料進行精準比對與除錯,而這「法條歷史資料庫」該如何建置,光想就是個令人讚嘆的大工程!

話說回來,所有的案件背後都存有【文字卷宗】,因此縱使當前尚無「法條歷史資料庫」,資料庫如上舉例縱有些許人為輸入錯誤,但並不影響歷史事件,也不影響研究單位持續的研究深化。

資料處理中的清洗與採礦作業,都是為了使研究上更有效率,也讓研究單位全面了解系統資料裡可能遭遇的問題或困難點,屬於輔助研究的性質就是了。