臨床試驗的去識別化方法:全域唯一識別碼簡介

文/ RICCI計畫主持人 楊永正

為了要利用人工智慧的方法發展數位醫學,未來有些法令可能會鬆綁。衛福部資訊處長龐一鳴在2021年5月6日的台灣資安大會中提到可能允許電子病歷上雲代管,而政府則會嚴格監督雲端業者和電子病歷代管業者。為了保護這些個人資料保護法認定的敏感性個人資料,最好是以去識別化的方式保存,才能確保病人的隱私。其實在臨床試驗上將患者的數據去識別化已行之有年,因為藥品優良臨床試驗作業準則 ( good clinical practice, GCP ) 有這樣的要求。

要做去識別化並不困難,只要產生一張對照表,就可以從數據集中去除個資,而用代碼達到去識別化的目的。若將這張對照表銷毀,那就達到去連結的效果了。困難點是在於不同的機構如果用不同的對照表做去識別化,因為各單位中編碼的方式不同,屬於同一個人的資料就不可能利用代碼整合在一起。在大數據的時代,我們需要一種去識別化的方法,可以讓數據集在去識別化的狀態下整合。

如果各機構都採用同樣的演算法產生去識別化的代碼,同一個人就應產生同樣的代碼。這種做法雖然有利於數據整合,可是會讓這個代碼成為一種辨識個人的資料,如果別人知道對應的方式,就可以猜出數據的擁有者。就像身分證字號雖然不是由演算法產生的,但是它是一種個人辨識資料,所以也被認為個資的一種。用演算法產生的代碼顯然需要做另一次的編碼,才能達到保護個資的目的。換言之,在不同機構編碼時二次編碼的方式應該不同,但是這個編碼方式是可逆的,所以可以重新產生原始代碼。 演算法產生的原始代碼若能被嚴格保護,就可以用於數據整合。

由CIMS團隊設計的全域唯一辨識碼 ( global unique identifier, GUID ) 就是利用這樣的概念產生的。只要將健保卡插入非醫療專用的讀卡機,讀出卡片上的公開資訊,就可以的方式自動編碼。同一個人在不同的機構會編出不同的二次編碼,但是在特殊的程式中可以轉變為原始的代碼,方便查核是否有重複收案,或是利用代碼將數據整合。這是一個成熟穩定的技術,目前已產生約500萬組代碼,而且GUID的數據整合能力也經過驗證。在執行生技醫藥國家型計畫時,有8家醫院參與婦癌檢體庫計畫,就曾利用這個編碼的方式做去識別化,而且發現有3位捐贈者在兩家不同的醫院捐贈檢體。

參考文獻

  1. Li MJ, Chen CT, Li PY, Yang UC* (2012). The application of global unique identifier in the physical isolation of personal identifiable information: using biobank as an example. Joint Conference of Medical Informatics in Taiwan. (pdf)
  2. Li MJ, Yang UC* (2013). A Novel Global Unique Identifier Scheme Applies to Cloud Clinical Data Information Integration and Sharing. Joint Conference of Medical Informatics in Taiwan. (pdf)
  3. Chang YC, Li MJ, Yang UC* (2015). Integrating bio- and clinical data by using the global unique identifier. Joint Conference of Medical Informatics in Taiwan. (pdf)

喜歡我們的內容嗎?

現在訂閱臨床資訊知識報
RICCI 帶你跟上臨床試驗數位轉型最新趨勢
歡迎來到 RICCI!