FHIR標準翻轉大數據分析與機器學習的分析流程

文/  國立陽明大學 生物醫學資訊研究所 孫在陽

由電子病歷、疾病登錄、健檢數據等實境數據(real world data, RWD)所衍生出的實境「證據」(real world evidence, RWE),被認為與隨機對照試驗(randomized control trial, RCT)產生的證據一樣有效,可作為藥品上市審查的依據。因此,善用現存的實境數據將有助於發展生技產業與數位醫學,而這些發展都有賴於數據的可交換性。使用標準的好處是數據科學家就不必去瞭解個別數據集的結構與編碼方式,即可進行數據整合或分析。當數據中心能提供符合「快速健康照護互通資源」(FHIR)標準的數據,也就是「可即時做人工智慧分析的數據」(AI-ready data)時,數據科學家的挑戰將是如何直接讀取FHIR伺服器數據,進行大數據分析與機器學習。

目前主要的商業智慧軟體都支援直接讀取FHIR伺服器數據的功能,以目前免費即可取得的Power BI桌面(desktop)版為例,可以自開放的或雲端的FHIR伺服器取用數據。傳統的數據清理流程為擷取(Extract),數據編輯轉換(Transform),與載入(Load)系統,所以簡稱為ETL。後二者經常被串在一起,造成在各種新的實境數據被納入研究時,需要修改程式,也就是維護資料倉儲會越來越困難。因此最好將數據編輯轉換,與載入這兩個步驟分開,將數據處理交給專業的軟體。在使用FHIR伺服器上的數據時,是先根據要分析的項目擷取要使用的欄位之數據,在載入這些數據後,才利用Power Query編輯器進行數據編輯轉換,因此將ETL的翻轉為ELT。這種新的數據清理與分析模式,配合上Power BI與Power Query 編輯器都可以在軟體內執行R與Python程式,讓數據分析可以一氣呵成。例如從FHIR 伺服器載入數據後,由個案組與控制組的匹配、統計檢定、到最後的機器學習,可全部都在Power BI的環境內完成。

Power Query編輯器軟體除了有數據清理的功能外,還提供多數據來源之查詢編輯、記錄操作步驟等功能。因此一旦外部資料更新,Power BI的重新整理(refresh)功能會自動更新數據,並執行Power Query 編輯器中記錄的步驟,重繪Power BI軟體中的所有視覺化圖表。此外,在做數據分析時,通常會先依納入與排除條件選擇個案(case),再依個案組的年齡、性別等性質,挑選匹配的控制組(control)。若有多組匹配的控制組時,可「挑選」不同匹配控制組和個案組比較,或透過寫程式的方式輪流做多組數據的比較,檢視分析結果的穩健性(robustness)。若數據的結構都符合FHIR的標準,在改變資料來源時,例如分析不同醫院的結果,只要重新挑選實驗組與對照組數據,即可自動得到已設定好的視覺化圖表與分析結果。由FHIR伺服器讀取數據的ELT運作模式,增加了應用實境數據的靈活性(flexibility),所以間接地增加了應變的效率與競爭力。

參考文獻

  1. Sun TY, Yu KC, Wu Y, Su ZX, Li YS, Yang, UC (2021) Stroke risk factor analysis using data from a FHIR server. Joint Conference of Medical Informatics in Taiwan 2021, Taipei, R.O.C. [Oral presentation]
  2. Burningham Z, Jackson GL, Kelleher J, Stevens M, Morris I, Cohen J, Maloney G, Vaughan CP. (2020) The Enhancing Quality of Prescribing Practices for Older Veterans Discharged From the Emergency Department (EQUIPPED) Potentially Inappropriate Medication Dashboard: A Suitable Alternative to the In-person Academic Detailing and Standardized Feedback Reports of Traditional EQUIPPED? Clin Ther. 42(4):573-582.

喜歡我們的內容嗎?

現在訂閱臨床資訊知識報
RICCI 帶你跟上臨床試驗數位轉型最新趨勢
歡迎來到 RICCI!