建構醫療大數據共同資料模式(NBCT CDM)的使命:
-
規劃資料欄位,能夠分析病人疾病診斷、治療及預後追蹤的資訊 (to assemble a model of common data elements for EHRs)
-
促進資料的互通性 (to facilitate data interoperability for patient care and research)
-
維持足夠的資料品質 (to maintain sufficient data quality)
介紹
為了配合國家級人體生物資料庫整合平台(以下簡稱:整合平台),收集臨床治療追蹤資料,以提升人體生物資料庫最大利基,研究團隊協助各醫療機構之人體生物資料庫,建置電子健康數據的共同欄位內容。建置過程如圖一所示,先由各機構的資訊同仁擷取將其機構內人體生物資料庫所收錄的病人的醫療資料(醫院電子病歷資料庫及癌症登記資料庫)匯入機構內的人體生物資料庫(如:圖一①),機構內對於資料的收集、處理及使用是依照人體生物資料庫管理條例的規定,整合平台研究團隊提供資料處理系統(程式軟體)給各機構人體生物資料庫進行轉檔,並以整合平台所設定的共同資料模式(common data model, CDM),經去識別後存放於機構內人體生物資料庫不連網路的電腦中(如:圖一②),整合平台研究團隊之資料處理系統(程式軟體)也同時提供功能將共同資料模式彙整成各項主題檔案(如:breast cancer, colorectal cancer, etc)(如:圖一③),提供給通過審查的申請者使用,提供給申請者之前,先將資料彙整於整合平台,經二次加密(個人代碼重新編碼)(如:圖一④),後再提供給申請者(如:圖一⑤)。
圖一、整合平台與醫療機構資料處理過程示意圖
癌症共通資料模式的建置,除了是跨醫療機構資料欄位的一致性之外,其「共通」的意義也是包含各種癌症治療過程,並不需要依據不同癌症設計不同的欄位,因此必須在避免太過龐大的資料模組前提下,同時需要包含各種療程的追縱,而不同癌症或不同治療的特定療效分析研究,再由共同資料模組中的資料庫設計完成;研究團隊參考國際上精準醫療研究用於收集癌症診療資訊mCODE (Minimal Common Oncology Data Elements)的資料欄位內容,主要分成:patient、disease、genomics、treatment、lab/vital and outcome等六個部分(圖二),規劃格式一致化的共同資料欄位(common data model)。
上述欄位項目中,醫療機構有的癌症登記資料,登錄了在診斷、分期及處置部分,醫療機構已經有癌症登記檔可以提供建構;在medications ordered、medications administered、radiation therapy 及手術部分的欄位,是屬於醫療處置的資料也是醫療機構固定上傳健保署的申報資料,每個病人的資料筆數會隨著時間持續累積,然而若不是在健保給付的範圍內,則不在上傳的資料中;在laboratory tests及vital signs部分,各醫療機構都會有這些資料,同時每個病人的資料也都是需要持續累積;而imaging/radiology reports部分,在醫療機構會幾乎都是文字報告的非結構式 (unstructured) 資料,因此如何擷取所需要的資訊,就會是個挑戰;解決的方式可以進行自然語言處理 (natural language processing,NLP),以摘錄(abstraction)出結構式 (structured) 欄位資料。
新興癌症藥品的治療,除了存活率之外,更強調的是腫瘤對治療的反應(tumor response)、無腫瘤狀態的維持(disease-free)、腫瘤無惡化的維持(progression-free)以及藥物副作用(toxicity, adverse events),因此對於癌症病人治療的結果評估,不再只是局限於存活率,病人經過癌症治療後,結果(outcome)是stable、worsening (progressing) 或是improving (responding),在臨床治療上,往往需要多種臨床資料如:影像資料、assessment of symptoms、腫瘤標記(tumor markers)、檢驗檢查資料等,來判定是progression-free survival (PFS)、time to progression (TTP)、time to treatment failure (TTF)、event-free survival (EFS)、time to next treatment (TTNT)、objective response rate (ORR);同時,而治療上引起的toxicity/adverse events (Common Terminology Criteria for Adverse Events,CTCAE) 也是同樣需要結構性與非結構性的資料; 以目前醫療院所的結構性資料內容,足以判定存活率,而PFS及TTF則有賴各癌症中心是否有定期維護癌症病人的個案管理追蹤資料檔料,登錄「復發狀態」及「治療反應」, 此外透過治療及用藥紀錄的分析追蹤,可以取得TTNT,因此完整資料仍有待非結構式資料的整理,因此在第一階段設定醫療數據的共同資料欄位時,是以結構式資料欄位為先(圖二)。
圖二、臨床醫療資料
由於各醫療機構數據量龐大且複雜,為將醫療機構資訊同仁整理資料欄位的負擔降至最低,NBCT CDM的資料欄位主要以現有的政府單位規範格式為基礎進行規劃,如例行上傳中央健康保險署的門診、住院、檢驗(查)申報格式,以及上傳國民健康署的癌症登記長短表等為主要的資料來源(圖三)。後續提供給資料申請者的臨床資料,可以整合平台的分散式系統出庫(圖四)。
圖三、NBCT分散式系統
圖四、資料申請與出庫流程示意圖
圖五、NBCT系統架構示意圖
安裝在醫療機構內的NBCT系統(圖五),主要目的是醫療機構的數據資料不需要離開醫院就可以順利轉檔成NBCT CDM,並依照人體生物資料庫管理準則進行資料處理,NBCT CDM資料處理系統功能摘要說明如下:
1.電子病歷資料整合與檢核
收整醫院整合完成之電子病歷或CDM格式資料,經由第一階段的資料內容檢核與驗證、去識別化,確保研究資料庫的安全性、完整性與正確性,協助提升資料品質(圖六)。
圖六、資料整合與檢核
2.數據庫資料視覺化
即時分析CDM資料項目,以視覺化呈現說明現有資料量,提供人體生物資料庫同仁進行查詢(圖七)。
圖七、資料視覺化
3.主題式資料庫萃取
建構主題式資料庫包含疾病診斷、疾病歷史、檢驗檢查、醫囑、處置、藥囑、用藥、癌症資料等不同面向之條件篩選,提供檢索及臨床研究資料萃取(圖八)。
圖八、形成主題式資料庫
4.CDM出庫與研究應用
將出庫資料完成整合與整理,並提供加解密流程,以因應資料安全與保護措施。