現(xiàn)代醫(yī)院管理的重要發(fā)展方向在于更多的利用數(shù)據(jù)化工具來(lái)減少主觀人為判斷帶來(lái)的偏差。隨著現(xiàn)代統(tǒng)計(jì)學(xué)的發(fā)展,很多先進(jìn)的統(tǒng)計(jì)技術(shù)被應(yīng)用到諸如金融,軍事等各個(gè)領(lǐng)域,其中醫(yī)療信息化更是近年來(lái)的一個(gè)熱門方向。如果將醫(yī)院的歷史數(shù)據(jù)進(jìn)行合理的分類和整理,其中很多重要的信息都能夠?qū)ξ磥?lái)個(gè)體病人住院的一些重要方面進(jìn)行合理的量化分析,甚至可以達(dá)到精確的統(tǒng)計(jì)預(yù)測(cè)。
住院病人的主要關(guān)注方面一般包括死亡率,住院天數(shù)和醫(yī)療的成本等方面。這些重要方面的結(jié)果分析可以被用來(lái)比較不同醫(yī)生,科室和醫(yī)院的醫(yī)療表現(xiàn)。每個(gè)病人入院的各種自身和檢測(cè)信息如果有較為詳細(xì)的記錄和備份,這些歷史數(shù)據(jù)可以被很好的運(yùn)用來(lái)對(duì)未來(lái)同類病癥的病人的量化分析 – 也就是通常所說(shuō)的大數(shù)據(jù)分析。
在大數(shù)據(jù)分析中,每個(gè)病人被看做一個(gè)統(tǒng)計(jì)樣本,所有病人所共有的許多特點(diǎn)或者關(guān)注點(diǎn)(例如年齡,性別等)被看做是特征值。由于病人涉及的特征值可以成千上萬(wàn)(比如脈搏,血壓,有無(wú)某種病征),整個(gè)分析所用到的數(shù)據(jù)可以達(dá)到相當(dāng)大的容量。一般大數(shù)據(jù)分析更是利用一個(gè)醫(yī)院多年歷史中所有病人的數(shù)據(jù),盡管所包涵的信息量很大,其處理難度也可想而知。
現(xiàn)代統(tǒng)計(jì)學(xué)近二十多年來(lái)的巨大發(fā)展使得對(duì)大數(shù)據(jù)的分析變成可能,其中對(duì)生物醫(yī)療數(shù)據(jù)的分析和應(yīng)用更是萬(wàn)眾矚目。從制藥療效控制到癌癥基因分析,大量與醫(yī)療相關(guān)的數(shù)據(jù)被利用作為前沿分析,來(lái)進(jìn)行精確的量化分析。例如2002年自然雜志上刊登的由Laura van ‘t Veer博士等人研究的關(guān)于乳腺癌轉(zhuǎn)移風(fēng)險(xiǎn)的預(yù)測(cè)。其使用的數(shù)據(jù)是基于70個(gè)人體中和乳腺癌相關(guān)的基因。通過(guò)基因檢測(cè)出的數(shù)值,可以較為精確的預(yù)測(cè)病人乳腺癌轉(zhuǎn)移的風(fēng)險(xiǎn)。基于該研究研制出的MammaPrint基因測(cè)試已被美國(guó)FDA(Food and Drug Administration) 通過(guò)驗(yàn)證,足見(jiàn)其數(shù)據(jù)分析的可靠性。
大數(shù)據(jù)分析中的一個(gè)重要核心技術(shù)是機(jī)器學(xué)習(xí)方法(Machine Learning)。這是所有具有分析和預(yù)測(cè)方法的總稱。機(jī)器學(xué)習(xí)方法中的一個(gè)大類方法叫做監(jiān)督學(xué)習(xí)(Supervised Learning),這類方法通過(guò)對(duì)已有數(shù)據(jù)的復(fù)雜規(guī)律進(jìn)行“學(xué)習(xí)”,來(lái)預(yù)測(cè)未知數(shù)據(jù)的結(jié)果。例如圖一中的監(jiān)督學(xué)習(xí)通過(guò)對(duì)三種不同手勢(shì)的學(xué)習(xí),準(zhǔn)確判斷未知手勢(shì)的類型。
圖一:三種不同手勢(shì)的監(jiān)督學(xué)習(xí)
住院病人的各種特征值和相應(yīng)產(chǎn)生的結(jié)果(例如死亡率,住院天數(shù)和成本)組成了監(jiān)督學(xué)習(xí)中最常見(jiàn)的一組響應(yīng)變量(response variable)和獨(dú)立變量(independent variables)的關(guān)系?;讵?dú)立變量可以建立各種統(tǒng)計(jì)模型,來(lái)預(yù)測(cè)響應(yīng)變量的數(shù)值大小。響應(yīng)變量的選擇通常比較簡(jiǎn)單,一般是醫(yī)院管理中最關(guān)注的一些方面。響應(yīng)變量可以是離散型變量,例如病人死亡與否。也可以是連續(xù)型變量,比如住院天數(shù)和成本。而獨(dú)立變量的選擇卻是監(jiān)督學(xué)習(xí)中的難點(diǎn)和重中之重。好的獨(dú)立變量選擇和相應(yīng)的數(shù)據(jù)處理可以使得預(yù)測(cè)模型偏差小而且預(yù)測(cè)方差(不確定性)也不大,從而達(dá)到比較精確的預(yù)測(cè)結(jié)果。
監(jiān)督學(xué)習(xí)有著巨大的威力和廣泛的應(yīng)用。它可以適用于預(yù)測(cè)和分析幾乎所有常見(jiàn)的社會(huì)生活中的結(jié)果,而基于的獨(dú)立變量可以來(lái)自各個(gè)方面,甚至很多是常理上不太相關(guān)的數(shù)據(jù)。例如音樂(lè)播放器中常見(jiàn)的音樂(lè)推薦,購(gòu)物網(wǎng)站中的商品推薦都是監(jiān)督學(xué)習(xí)最直接的應(yīng)用領(lǐng)域。生物醫(yī)學(xué)上監(jiān)督學(xué)習(xí)的重要性更是不言而喻。從通過(guò)核磁共振腦部圖像定位腫瘤位置(圖二),到層出不窮的基因癌癥分析,監(jiān)督學(xué)習(xí)都是其中使用的核心技術(shù)。
圖二:基于圖像分析的腦腫瘤定位和復(fù)原
(原圖取自文獻(xiàn):Statistical Asymmetry-based Brain Tumor Segmentation from 3D MR Images)
在日趨高速和數(shù)字化的社會(huì),醫(yī)院管理中引入以監(jiān)督學(xué)習(xí)等為核心的數(shù)據(jù)分析技術(shù)是一個(gè)必然的趨勢(shì)。近二十多年統(tǒng)計(jì)學(xué)特別是機(jī)器學(xué)習(xí)領(lǐng)域的高速發(fā)展已經(jīng)使得很多歐美發(fā)達(dá)國(guó)家走在很多技術(shù)革新的前沿?;谶@些技術(shù)的精確語(yǔ)言識(shí)別,圖像(比如人臉)識(shí)別,人工智能在為社會(huì)和生活提供著巨大的便利和效用?,F(xiàn)代醫(yī)院管理也無(wú)一例外。醫(yī)療數(shù)據(jù)和技術(shù)都在高速的日臻完善和改進(jìn)中,對(duì)醫(yī)院中各個(gè)方面的管理引入數(shù)值量化分析是大勢(shì)所趨,也會(huì)在未來(lái)社會(huì)發(fā)展中變得愈加重要。