分類
所有筆記

「公司的員工人數與名氣」與「公司的量能與品質」並無絕對關係

感謝各產業支持,無論審查結果如何,小馬真誠感謝各界慧眼青睞。這邊就這次經驗,說點真心話。

「你公司多少人?」
「你資本額多少?」
「這麼大這麼多的案子你們做得來嗎?」

正值世界盃期間,小馬與Datama合作的所有夥伴與同仁們,繼續我們的「不定上班時間」,將世界盃64場球,看好看滿,但同時,我們持續「穩定且高品質」的產能產出,不間斷地服務客戶。

今(12/7)半夜5點才結束的最後一場16強賽,6:1大比分擊敗瑞士的葡萄牙,演出帽子戲法拿下3顆進球的是【Gonçalo Ramos】,有多少人知道,他一開始甚至不在葡萄牙的26人名單內,連介紹本屆葡萄牙球隊的專刊都沒有這號人物。
但葡萄牙教練Santos慧眼,在這麼重要的淘汰賽上,派他取代C羅作為先發前鋒,背號26號這位最後一個被選進國家隊的Ramos,繳出超漂亮的成績單,成為本屆世界盃第一個戴帽的人。

上面對我們珵式馬Datama的問句,就像在問才21歲的Ramos這句話:「派你取代名滿天下的C羅先發,你能有好表現嗎?」

如果大家總是品牌迷思,看大廠牌、公司成立要夠久、員工人數要多、資本額要高,那麼,將永遠不會發現,原來替補席上,有個超級新星,他早就具備好不遜於名牌的實力、具備好一切得分的要件。「他缺少的,只有上場的機會。」

在Datama服務的客戶中,從來沒有對我們失望的客戶,只有希望我們繼續服務的客戶。小馬我身為公司創辦人與負責人,面對這樣的提問,我敢肯定且超級…注意,是「超級」,超級有信心地說:「不只做得到,而且品質,絕對超乎預期。」

本公司2023年將擁有5名以上的正職員工,12名以上的各領域特聘專家與資深工程師。我知道許多業界或單位長官們會好奇,這到底怎麼運作,特聘?不就是兼職嗎?
但小馬我想反問的是,兼職怎麼了?兼職比正職實力差嗎?大家理解這個大數據、資料處理、數據分析的工作模式嗎?若不理解,大家是怎麼判斷他們無法勝任工作的?

冒著被封鎖的風險(誤),我稍微揭露一下我與咱們一位特聘資深工程師之前的對話……
「你要不要當我們正職啦?」
「才不要!」
「為什麼!你也太一口回絕了吧!有勞健保,而且薪水…」(被打斷)
「誰在乎那個勞健保,也不是錢的問題,是這樣你不就變成我老闆?不想!」
「那麼嚴重嗎…現在這樣還不是有報酬?」
「不一樣,現在是你需要我,所以我們合作,感受完全不一樣。」
「你這樣講好像隨時會棄我們逃跑欸……」
「哈哈當然不是啦,我就想半夜三點工作,現在當正職,你未來有辦公室,那我不就得進公司上班,不就得白天工作?」
「你也可以不進來上班啊。」
「那你怎麼跟新進員工解釋?」
於是我愣住語塞,或許他考量的,比我這個名不符實的老闆還周到。或許這樣的合作模式,真的是最適解。

所以請了解Datama有這麼多的特聘專家,請知道,咱們合作的這些大神們、專家們、高手們,或許多半帶著一點藝術家氣息,有點奇異、有點孤僻(抱歉啦!),有個人價值觀考量不想受聘於特定單位,畢竟他們從來就是靠自己技能過生活,也從來沒當過「所謂正職」。
也有點不好相處……抱歉,我知道有的夥伴會說,不是我不好相處,是我不想跟他們相處……好吧你還是去coding,客戶由小馬我去面對。

但我們都是這領域的菁英、佼佼者,臭味相投,一同工作,我也從來不以高位或老闆自居,而就是「一起共事的夥伴」,或許這樣的職場生態,不常見,但其實只是大家不知道、不認識、沒聽過……
#而不是不存在

所以,懇請,不要再用資本額、正職員工人數,判斷我們的實力與產能;請盡量給Datama開始服務的機會,你將發現,Datama會繳出超乎預期的成績單。

同場加映:
不用開會、沒有正職,Gumroad怎麼成為年收入3億元的一人公司?
https://www.facebook.com/101512403258225/posts/5374797532596326/
「兼職」的深入探討
https://datama.com.tw/20220123a1/

分類
所有筆記

健保資料庫釋憲案宣判部分違憲-第一線經驗談

「健保資料庫,最近大法官宣布部分違憲,這事你怎看?」
「衛福部防守機制已經算很嚴格了。」
「喔!所以你對衛福部還挺讚賞的?」
「並沒有,問題在於它有收費啊…結果軟體還是落後三個版本以上……」

大法官衡量個人隱私與公共利益後所做的裁決:「健保資料庫釋憲案宣判部分違憲,現今雖仍可使用健保資料進行學術研究,但3年內須建立獨立監督機制維護個人隱私,讓民眾可請求退出」一事,的確是當今社會遲早要權衡的一大議題。

此案的發展,可能關乎到所有政府行政資料的後續使用,將是國家推行數據治理的里程碑與轉捩點。

以第一線資料處理的使用經驗來看,要能接觸到健保資料並不容易,大多數是教學醫院或是受各級機關委託研究的學術單位,且團隊成員除了要有與研究議題相關的專長外,還要了解健保資料庫,並具備大數據處理及分析的能力。

就營利為導向的數據公司角度而言,考量健保資料的規模與複雜性、發包單位要求的數據處理(分析等級)、需花費的時間,和最重要的是…能提供的預算……,能長期支撐這些研究的,也只有那些具有研究熱忱的醫生教授、學習為導向的研究生,和有評鑑壓力的各級單位了(笑)。

且健保資料也並非這些單位想使用就使用,仍然要經過一系列重重審核和行政程序,如:

計畫書審核:非必要使用健保資料的研究不予通過。
資料申請審核:非與研究議題高度相關檔案/欄位不予提供。
入場人員審核:確實為計劃內編制人員,且簽署相關保密切結書。
資料攜出入審核:具有個資相關資訊,及統計分群人數太少的圖表全部不予攜出等。

「統計分群人數太少不能攜出?」
「對啊……」
「但總會用到一些分類展開,一定會有人數比較少的分類啊?」
「對啊……」
「所以攜出的時候審核人員會把這些人數太少的分群做合併?」
「說啥笑,你自己併啊!還審核人員幫你併勒!你沒併就不能攜出!」
「靠!那不是增加我工作負擔嗎?」
「所以我上面才寫…..有研究熱忱的……」
「是是,我懂你意思了……」

此外,在實際使用相關資料時,進場使用資料的人員也受到高度監管:
1. 電子門禁:進出場都要刷卡。
2. 禁帶物品:除了衣著和腦袋之外,禁止帶任何物品進場,更別說電子用品或USB隨身碟。
3. 斷網環境:忘記語法怎麼寫,資料室可沒有google大神能救你,只能出資料室去使用網路。
4. 無法攜入任何文件資料:沒辦法預寫處理語法或沿用他案的語法再帶進去。
5. 無法攜出任何未申請通過資料:即使真的需要紙筆,也僅能由監管人員提供,出場後統一回收無法帶走。
6. 所能看到的資料皆已去識別化:這點在所有政府部會算是很一致的作法。

在申請攜出方面,不得不說衛幅部「想得很周到」,除了一般的統計報表外,還需提供產製這些統計報表的程式碼,並且由會使用該統計軟體的人員來進行審核,如果審核人無法理解程式碼,甚至會直接打電話請申請人解釋。

「不只要你煮的菜,還要你繳交食譜?」
「然後煮不出來你還得教他怎麼煮。」

從以上可知,如果要偷帶資料,難度非常高,要有雨人般超級記憶力才行。

但縱有天生神力,衛福部資料科學中心的真正大魔王是任誰都無法擊敗的:電腦數不足、軟體數不足、電腦效能問題。不論是電腦數還是軟體數,都不及需求數量,每每到了預約時間,預約系統就會當機,即使發現還有空的電腦可申請,也極有可能發現想用的軟體都被預約完了……。

幸運地入場之後,也要馬上開始與時間戰鬥,因為每次入場都是至少幾千塊的費用,半天要收費、全天要收費、夜間執行要收費、假日執行要收費……,每當程式寫錯中斷執行,就是又一次的浪費預約和無效益預算。

以第一線使用人員來看……(筆者絕對不承認就是筆者自己)……大部分的腦內劇場應該是:案子都要做不完了還預約不到電腦!因為電腦容量的關係,所以把一個檔案拆成了三個檔案,但還是跑不出來!一個檔案就跑不動了,還要串三個不同的檔案來跑,真的會來不及啦!一旦去了資料中心就要耗上一天的時間,其他事情都不用做了!都收了這麼多錢了,為什麼不能多買幾套軟體!多用效能好一點的硬體配置!拜託程式千萬不要出錯,經費沒辦法這樣花啊!

撇除個人小劇場不提,回歸一般民眾的個人隱私和國家行政資料的使用議題。衛福部的資安審核得算蠻嚴苛的了,一線團隊要做的事情也很多,要有時間和心思弄些有的沒的實在不容易,且研究人員不論是在初期資料處理,以及最終統計報表產出時,能使用的資料皆已去識別化,或是已排除了分群人數過少的統計表了。

最重要的是,進行這些研究分析真的需要熱誠,以營利的角度而言實在划不來,如果沒有評鑑和升等的需求,說不定連現有願意做這件事的人數都會大幅降低。

在資安攻防中,經常會提到的,當少數族群/弱勢團體的資料被不斷串接後,其實很容易藉著各個資訊推敲出「實際上到底指的是哪個人」,雖然不可否認這件事的邏輯沒錯,但實際上有能力處理資料的人和認識這些族群的人機率上很難是同一位,兩者因為專業落差的關係,對話起來也常常是平行時空,能夠兩邊能都不出錯,又還要一起合作提出完整的研究報告申請,簡直難如登天。以我們第一線資料處理人員的角度,幾乎無法想像從這樣的資料,要能直接推敲到某一個具體的民眾身份。

退一萬步來看,縱使真以某份資料推敲出了一個民眾身分,然後登門拜訪,這個動作基本已經違反個資法了。因此事情不該從「能否100%防範」去看,而應該從「法律上是否已規範完善」的角度出發。畢竟再嚴密的資安控管,都避免不了有心人士的犯罪手法。只能盡量以「當不遵守規範時,就已違法、且有罰則」的方向去處理這樣的問題。

「話說……勞保局、財稅中心要不要跟進釋憲啊?」
「但人家沒收錢啊!」

資料使用的「安全」與「便利」,永遠是天秤的兩端,如何拿捏分寸,在不影響到特定民眾隱私的條件下,將資料價值發揮到最大,還有賴有熱忱的專家學者們,共同討論,逐步完善相關法律及規範。期待某一天,我們都能既安全又有效率地使用公共資料。

分類
所有筆記

Amazon假評論高達四成?

Amazon假評論高達四成?指的是新商品,而非熱銷商品。

近期一則「換日線 Crossing」報導中提到【網評四成是假的】,且搭配了Amazon網站圖片為報導封面,一般網評我們可能不清楚,但Amazon評論的數據分析,算是我們經驗老道的服務項目之一,這數據與我們認知中有些差距。

點開報導仔細看,發現內文確實是以Amazon為論述,且內文提到了:最早他們只容許在亞馬遜實際購買過那個商品的人留評,然後他們開放讓沒有買過的人也留評。這個構想的美意是消費者也許在別家買了同樣的商品,卻願意在亞馬遜分享經驗。這個免費資產對他們非常寶貴,但也為評比造假開了一條「康莊大道」。(本段文字取用於「換日線 Crossing」網站文章。)

於是我們非常確認此報導引用了哪項數據:verified_purchase,也就是所謂的「此評論是否經過Amazon驗證購買後才留的」,也就是評論者到底有沒有在Amazon買這項商品,資料內容為:Ture(有購買)、False(無購買)。我們姑且先定義這個False是所謂「假評論」吧。

客觀來說,在新商品或冷門商品中,確實可能有高達四成的假評論,甚至越新或越冷門,假評論佔比越高,因此我們並不會說這報導有誤。只是更精準來說,「並不是所有的商品都有高達四成的假評論」,尤其以我們研究各產業類別的前百大熱銷商品,假評論的占比相當低,是不到一成的,如圖所示。

不過,更耐人尋味的在於,Amazon網站裡,評論區有個篩選功能「僅限已確認購入」,只要打勾,評論區就會只留下【verified_purchase = True】的評論。但是,總評分區(rating)的顆星數,卻沒有這樣一個篩選功能。

事實上,要把這個篩選功能放到總評分區讓使用者操作,是相當容易的設計,我們也不禁好奇,為何總評分區,沒有這個篩選功能存在?

話說回來,我們在進行數據研究之前,本來預期「假評論:verified_purchase = False」應該有相對於「真評論:verified_purchase = True」來得高上許多(衝評分)或低上許多(惡意競爭)的平均評分,但其實不然,假評論普遍確實略低,但了不起也就是少了0.3顆星,以佔比不過5%~8%的數量而言,對整體影響甚微。

曾經我們覺得這可能是個商機,因為每項商品「真評論的平均評分」Amazon並沒有提供,要取得也有些技術門檻在,但對珵式馬來說,是能力所及甚至舉手之勞就能做到的工作。本想來賺個技術財,然而,一看到假評論的評分其實沒差太多?佔比也不高(不到10%)?深入探究的意義自然也就不復存在了。

往後的分析方向會落在於,真假評論的內容,是否有差異?例如以「外套」來說,真評論並沒有特別強調材質好不好,但假評論會一直攻擊材質不好,而少量的「針對性假評論」,可能勝過大量「沒有針對性的真評論」,這時候就不能單論假評論的數量,而必須論假評論的「力道」了。

當然,假評論的攻擊對象(或形塑對象),很可能不是我們研究範圍的產業百大商品,而是剛上架的新商品;畢竟已經成為熱銷的商品,假評論就顯得相對無意義,針對新上架的商品衝評分、或是競爭對手惡意惡評,才是假評論更能發揮長才(!?)之處。

引文為:換日線 Crossing 「最好的評比來自賄賂」:如果網評 4 成是假的,我們豈不是花錢買詐欺?