跳到主要內容區

當生物醫學遇上大數據

當生物醫學遇上大數據

生物醫學系 黃柏榕助理教授

大數據(Big Data)這個詞,以往經常出現在天文學、物理學領域,但從未出現在生物學領域,因此,10年前根本難以預料生物醫學會有遇上大數據的一天,更無從推測它將為這個領域帶來何種衝擊、挑戰或新契機。1990年啟動的人類基因體計畫(Human Genome Project, HGP),首先以級數般的成長速度累積了可觀的生物數據與資訊,2003年完成人類基因體序列解碼,隨後更帶動了基因體學研究的蓬勃發展,將生物醫學研究推向一個全新的世代;然而,2007年左右「高通量定序技術」的出現,才是將「大數據」導入生物醫學研究領域的開端。 過去10年間,隨著高通量定序技術的快速發展與價格的親民化,所謂的生物大數據正開始逐漸地衝擊著生物醫學相關領域。

舉凡美國癌症基因體圖譜TCGA計畫(The Cancer Genome Atlas),國際癌症基因體聯盟ICGC計畫(International Cancer Genome Consortium),千人基因體計畫(1000 Genomes Project)、ESP計畫(NHLBI Grand Opportunity Exome Sequencing Project)等,都是運用高通量定序技術獲得資訊的成果,因此也為生物醫學領域挹注了龐大的生物大數據。有別於以往定序技術侷限於單基因研究,這些透過高通量定序技術產生的生物大數據,除了能提供單基因致病位點的快速定位外,更蘊含著能用來探討多基因、多位點變異等複雜疾病的寶貴資訊。這些資訊透過生物資訊分析,可發現與疾病相關的致病候選基因與突變位點,再經由實驗驗證與確效後,將有機會應用於臨床診斷與藥物開發。

除了基因體大數據以外,隨著近年質譜技術快速發展所累積的蛋白質體與代謝體數據,同樣地也為生物醫學領域挹注了可觀的生物大數據。撇開數據本身的容量與複雜度不談,單看這些生物數據的來源,即已顯現跨體學(基因體、轉錄體、蛋白體、代謝體)研究時代的降臨。随著這股數據洪流,研究學者也被迫跳脫單基因、單體學的思維,必須開始從多體學、多維度來思考與解釋生物醫學問題。這股趨勢也可從近年由多國攜手合作的癌症登月計畫(National Cancer Moonshot Project)看出端倪(https://cptac-data-portal.georgetown.edu/cptacPublic/)。很榮幸的,長庚大學在2016年與美國癌症研究所(NCI)簽署合作備忘錄成為其中一員,期望運用嶄新的蛋白質基因體學(Proteogenomics)策略,探討疾病發生機制,尋找檢測與治療的線索,進而終結癌症,造福人群。

然而,龐大的生物數據若無法有效歸類並加以分析與整合,會落入空有資料卻毫無價值的窘境,此時,生物資訊(Bioinformatics)就扮演著極為重要角色。生物資訊是一門集合資訊科學、統計學、分子生物學的整合應用學門,曾經伴隨著「人類基因體計畫」大量核酸序列的產生而興起,其商業化的應用可以提供生物資訊資料庫服務為主,也曾結合結構生物學、計算化學等發展出電腦輔助藥物設計,透過電腦高速運算能力進行結構模擬與虛擬化篩選,縮短新藥開發時間,增加營收。有趣的是,随著生物大數據時代的降臨,特別是2007年「高通量定序技術」出現後所衍生的各種商業應用模式,如:客制化生物資訊分析、雲端運算平台建置、個人化精準醫療資料庫建立,均突顯出產業界與學界對生物資訊人才的高度需求,也暗示著生物資訊將是大數據研究的熱潮。

為順應此熱潮並讓同仁有機會體驗各種體學所產生的生物大數據,學校各研究中心(如:分子醫學中心健康老化中心)之核心實驗室也陸續提供專業化服務,項目涵蓋基因體定序、蛋白質體分析、代謝體分析與生物資訊分析。在生物資訊人才培育方面,106 學年度醫學院生物資訊學程也重新規畫,陸續增加生物資訊程式設計、生物資料庫設計、數據統計分析等課程,期望能培育出更多具備生物資訊分析專長人員,未來能投入相應的學界或產業界。

 

癌症生物大數據分析網站

「大數據分析」需同時具備資訊科學、統計學、程式語言專才的人員得以勝任。然而,「生物大數據分析」,除上述專長外,尚需具備生物學背景。如此嚴苛的條件,使得此類人才培育不易且耗時。為解決此窘境並落實人才培育,106學年度醫學院已重新規畫生物資訊學程並陸續增加程式設計與數據分析課程。分子醫學中心生物資訊核心實驗室團隊也在過去幾年累積各種生物數據分析經驗,並開發多種生物大數據分析網站。以圖中癌症大數據分析網站 (VARepoter:
http://rnd.cgu.edu.tw/vareporter) 為例:該網站提供現今癌症基因檢測所需的各種應用分析方法,並結合抗癌症藥物資料庫以協助臨床研究。

 

                       長庚院校口腔癌基因體研究計畫大數據圖形化呈現


癌症是目前最複雜的、最難解的疾病之一。同樣地,研究過程所產生的多體學大數據(如:基因體、轉錄體、蛋白體)也因數據過於複雜而難以呈現。分子醫學中心生物資訊核心實驗室團隊,累積多年基因體數據分析與視覺化工具開發經驗,已能將複雜的生物大數據直接圖像化,透過一圖勝千言的方式,幫助院校癌症研究計畫順利進行。

 

瀏覽數: