需求與建議

vtaiwan · 2015年07月15日14:59

「個資利用與去識別化」是針對政府為公共利益之必要，發佈統計資料、提供學術研究時，採用「遮除、概略化、亂數化」等資訊技術，以充份保障個人資料及隱私權、增進公眾互信的架構。實務上的建議，可簡列如下：

機關儲存源資料時，可將識別符代碼化以增進資訊安全。

此處「代碼化」必須為不可逆運算，但可結合密鑰為之。
代碼化後之資料仍然含有有隱私與個人資料，因此不應稱為「去識別化資料」。
機關應容許資料當事人申請註記為「排除特定目的外之利用」。

為統計取樣之必要，或向不特定公眾提供含任何個資之資料集時：

應以「任何人（含原資料持有人）皆無從識別」為判準，釋出合成資料。

為學術研究之必要，向特定研究者提供含特種（敏感）個資之資料集時：

應以「資訊專家亦無從識別」為判準，按實際需求，採「資料最少原則」提供。

為學術研究之必要，向特定研究者提供無特種（敏感）個資之資料集時：

應以「有心侵入者無從識別」為判準，按實際需求，採「資料最少原則」提供。

機關可將代碼化後之資料，委託第三方機構執行下列事項：

將資料充份去識別化處理後，向特定研究者揭露。
製作「任何人（含原資料持有人）皆無從識別」之合成資料。

事後註記為「排除特定目的外之利用」者：

機關應結合密鑰計算其代碼，使第三方機構刪除相應資料。

機關不得將代碼化密鑰交予第三方機構。
概略化、亂數化技術之參數值應由個案討論訂定。

下圖列出對應各專業層級的侵入者，可採用的去識別化方法。
多項方法可以施用於同一資料集，例如身分證字號採代碼化、ICD-9 值一律遮除、出生年月日概略化、最後再採取亂數化處理。

vtaiwan · 2015年07月15日15:04

以下是工作組陳曉慧老師，在聚會後就上列第二、三、四點提出的書面補充意見：

如果個人資料原始蒐集時，即以向公眾提供為目的，不必經過上面的去識別化程序。例如，金馬獎或各種補助。
資料在達到任何人（含原資料持有人？）都無法直接、間接識別特定個人時，依據法務部見解，即非個人資料保護法，不適用個資法。但如可能造成其他影響，例如種族、性別、特定群體之歧視等等，仍有其他法律應負之責任。
所以，上述部分似乎是要處理16條第1項但書第5款特定目的外利用的第5種情況：「但有下列情形之一者，得為特定目的外之利用：五、公務機關或學術研究機構基於公共利益為統計或學術研究而有必要，且資料經過提供者處理後或蒐集者依其揭露方式無從識別特定之當事人。」，建議將此前提說明。
承上，均以「公共利益」為必要。
為公共利益之統計或學術研究之必要，依據本款，並未特別要求就統計需達到原資料持有人亦無從識別的程度。
「資料最少原則」，是每一種個人資料利用，都應該遵守的原則。包含大數據分析如果利用個人資料也是一樣。所以，如果要資料極大化，最佳的作法，就大數據而言，將是以提供任何人皆無法識別特定個人之資料為當。但是否包含提供之機關也不能識別？這點，是可以討論的。這裡是指公務機關提供給第三人利用的情境，並非指機關自行進行大數據分析。後者是否「符合」原始蒐集目的，也是可以討論的。
特種個資、非特種個資，分別採取不同的標準，在16條第1項但書第5款特定目的外利用的第5種情境下，也欠缺依據。重點在「資料經過提供者處理後」或「蒐集者依其揭露方式」無從識別特定之當事人。所以，如果是針對特定人之提供，仍須考量該特定人是否可能識別特定當事人。