:::

文章專欄

首頁\
文章專欄

主題：《資料科學技術趨勢》個人資料保護技術與趨勢

2021/11/08

引言

作為近年來最受關注的計算機科學領域之一，深度學習獲得了空前巨大的成功，並從趨勢上觸發了資料科學發展的更多可能性。在資料科學家試圖利用透過現代技術收集和儲存而來的大量資料，努力為世界帶來革命性好處的同時，不可避免的，其中會有大量的內容與個人訊息有關。在歐盟頒布了《一般資料保護規範 (General Data Protection Regulation, GDPR)》後，個人資料保護和隱私的相關規範，已擴大成為資料科學發展的最基本前提。

個人資料

讓我們從國內開始談起，依據我國《個人資料保護法》定義，自然人的個人資料，包含了以下二十項：姓名、出生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、犯罪前科、聯絡方式、財務情況、社會活動及其他得以直接或間接方式識別該個人之資料。其中五項，包括醫療、基因、性生活、健康檢查、犯罪前科，屬特種個人資料，則另有特別規定。

隨著5G時代來臨，連網裝置與使用者線上行為的增加，使得資料收集的種類、數量和品質，都有了飛躍性的提升。也因此，技術上若存在一些聰明的方法，能系統化地拼湊出當事人輪廓，確實也不足為奇。事實上，要透過去識別化來實現完整的個人資料保護，難度將會越來越高。

個人資料去識別化

從方法論來看，常見的資料去識別化作法有以下四種：1. 遮罩 (Masking)：隨機取代 (Random Replacement)/擬匿名化 (Pseudonymization)；2. 概化 (Generalization)：降低欄位資料精準度；3. 抑制 (Suppression)：將資料欄位之內容值以 NULL 取代(或其他等價之方法進行)；4. 抽樣 (Subsampling)：只釋出部分經由隨機取樣而得的資料集來替代完整資料集的釋出。

而由法制實務見解來看，歐盟的主張較為嚴格，其認定的去識別化資料必須達到「以一切可能合理之方法 (all the means likely reasonably to be used)」無從再識別資料當事人之程度，否則仍應受個人資料保護指令規範。另一方面，德國實務與英國資訊保護官及法院見解，則對資料控制者較友善，認為縱使係「可逆之擬匿名化資料」，只要原資料保有者並未將對照表或解密方法等連結工具提供給資料接收者，並且採取適當安全措施，使資料接收者無管道及機會重新識別資料當事人，則該釋出的資料也屬「匿名化資料」之一種。

一般而言，運用去識別化技術與資料價值可用性，呈現反比現象，個人資料保護與數據價值間勢必必須取得一個平衡。另一方面，如何界定「個人資料已去識別化」屬事實認定，且具有變動性。具體來說，如以歐盟之認定標準為依歸，在大數據時代即有其困難及不確定性，即使依當時科技或專業，水準被認為已去識別化的資料，日後隨著資料的不斷累積、資訊技術的發展演進、資料儲存成本的下降，仍可能透過與其他資料的對照、組合、連結而被重新識別。

個人資料保護趨勢

綜上所述，歐盟所實施的 GDPR 被普遍認為是個人資料保護法規的高標，雖無歐盟相關活動者，暫時不受其直接衝擊。但其眾多先進觀念，已在世界各國掀起熱烈討論，乃至於做為未來修法之依據。作為資料科學從業者，仍應密切關注。

由賦權用戶的觀點來看，GDPR 主要加大了個人資料當事人的四項權利：更正權、資料可攜權、拒絕權 (含個人資料自動化決策反對權) 與被遺忘權。另一方面，除傳統個人資料外 (如前述之我國定義之二十項)，GDPR 亦擴大相關規範類別，如個人身分與生物特徵方面，新增了車牌、臉部辨識、相片、影片、電子郵件內容、問卷表單等；亦特別就線上定位方面，如 Cookie、IP 位址、行動裝置 ID、社群網站活動紀錄等作加強監理。

結語

資料是數位轉型的核心，在資料保護逐漸成為普世價值的當下，除了傳統的法規遵循與倫理議題的維度外，作為資料科學家，由技術的角度來採取積極作為，也逐漸被視為必須，無論是傳統上的積極避免資料洩漏與當事人權益保護，乃至於技術上加強匿名保護與遮蔽，或是更進一步地去防止偏見與具道德問題的決策產生。事實上，在 GDPR 之後，歐盟於2020年2月19日，更進一步對進階議題，以歐洲資料戰略 (European Data Strategy) 與人工智慧白皮書 (White Paper On Artificial Intelligence) 兩份文件的發表，向世界做了明確宣示。在可以預見的未來，資料科學根本技術的持續精進固然重要，但資料開放共享政策與法制調適框架的配套措施，亦將成為技術能否落實的重要關鍵。

BravoAI洽吧智能創辦人
趙式隆

回上頁回首頁