資料科學及真實世界資料


資料科學及真實世界資料

臨床資訊與醫學統計研究中心 陳冠甫臨床副教授

資料科學 (Data Science),在現今大數據的時代,除了在國內外各大學術單位及臨床研究單位重視之外,也逐漸普遍被視為在基礎研究 (Basic Research) 的重要支柱。資料科學包含了數學、統計學、計算科學、機器學習、資料處理以及專門場域幾個部份 (圖一)

傳統上應用到實證醫學的金字塔頂端的臨床研究設計,常常是隨機對照試驗 (Randomized Controlled Trial, RCT)。除了不易達到臨床的納入條件門檻,另外需要更大樣本數才看得到的副作用效果評估,則不易在一般的第三期RCT就得到結論。因此,既有的、多源頭的真實世界資料 (Realworld Data) 的使用便成為執行藥物發展決策、給付以及效果評估的重要依據。

真實世界資料的組成,通常是以行政需要的保險資料庫、電子病歷與健康資訊及疾病或藥物的登錄庫為大宗。看來唾手可得近在身旁的這類型的研究,實則存在不少信效度偏誤的可能。因此在執行時必須遵循一般科學的步驟,以結構化、有標準作業程序 (Standard Operating Procedure, SOP)的方式逐步進行,並在研究團隊的組成上包含到臨床或場域專家、資料科學家、流行病學者、統計學者、程式工程師、資料管理員等跨領域的結合。

在真實世界資料研究執行步驟上,大致有:1)定義研究目的;2)辨認資料來源;3)發展研究指引;4)申請倫理核准;5)建立統計計劃;6)執行資料萃取;7)執行研究分析;8)報告研究結果,這八大步驟(圖二)。現今對於回溯性的研究設計,學者暢議在執行前應確立好這些步驟,並在公開的期刊網頁發表,以確立其推論的可信度,避免因為多重量測造成誤差的膨脹。

本校在近年來已有許多針對資料科學的推動,其中的努力包含了臨床資訊與醫學統計研究中心設立、衛生福利部衛生福利資料科學中心-長庚大學研究分中心成立、長庚大學健康資料研究服務中心設置、可靠度科學技術研究中心以及人工智慧研究中心的成立。

圖一:資料科學組成

圖一:資料科學組成

圖二:真實世界資料研究執行步驟

圖二:真實世界資料研究執行步驟