摘 要:應用快速精確的計算機技術替代人工辨識是實現早期癌癥大范圍普查診斷的有效手段。本文總結了液基細胞學計算機輔助診斷系統中應用的各種圖像處理技術,對輔助診斷流程中圖像分割方面所運用的技術進行了綜述,根據癌細胞與正常細胞形態上的差異,給出了癌細胞識別中需要提取的各種特征參數,最后介紹了目前所應用于癌細胞自動識別方面的諸多分類識別技術,并討論了液基細胞學制片計算機輔助診斷技術的未來發展。
關鍵詞:計算機輔助診斷;圖像分割;特征提取;癌細胞識別
1 引言
目前,癌癥已成為嚴重危害人類健康,破壞家庭社會和諧的主要因素之一。根據世界衛生組織統計,2004 年全世界約有740 萬人死于癌癥,占死亡總數的13%以上。因癌癥而死亡的人數呈逐年增長的趨勢,預計到2030 年,癌癥死亡人數將達到1200 萬。就我國而言,每年約有100 萬人發生腫瘤,80%死亡。由此可見,癌癥的發病嚴重影響了人類的身體健康。在統計癌癥發病率的同時,世界衛生組織也指出,若能夠實現癌癥的早期檢測和治療,大約可以降低1/3 的癌癥死亡率,癌癥的早期發現及診斷非常重要。
病理學診斷是癌癥早期診斷技術中比較準確的方法。傳統的病理學診斷是通過對病變部位進行取樣得到細胞涂片或組織切片,并由經驗豐富的醫師對顯微鏡下的涂片或切片圖像進行病理分析,從而得出最終診斷報告。目前在病理學診斷中廣泛應用的液基薄層細胞學技術是制片技術的重大革新,即通過技術處理去掉涂片上的雜志,直接制成可清晰觀察的薄層涂片,使閱片者更容易觀察,其診斷準確性比傳統法高。但是,液基細胞學技術的問世,只是制片技術的重大革新,而不能改變傳統的人工閱讀方式。由于顯微鏡下液基細胞制片的圖像視野相當大,醫師在進行診斷的時候需要長期觀察顯微鏡,工作強度相當大,極易疲勞。而人工診斷結果的準確性和可靠性受到醫師的主觀因素、分析條件等多方面的影響,因此病人得到的診斷報告中往往存在著假陽性或假陰性的診斷錯誤。這些診斷錯誤可能會影響患者情緒,延誤患者最佳的治療時機,甚至威脅到患者的生命。
近年來,隨著數字圖像處理、模式識別以及計算機可視化技術在醫學領域的飛速發展,研究者已經應用了多種計算機技術對顯微鏡下的細胞圖像進行自動分析和處理。其核心思想是將專業醫師的臨床診斷經驗融入到計算機輔助診斷中,實現液基細胞涂片顯微圖像的癌細胞自動識別,利用計算機系統的精確計算以及快速處理實現癌癥早期診斷的大范圍普查,并減少醫師的工作量。對于顯微圖像的癌細胞自動識別研究,目前已經形成了比較成熟的技術流程,甚至部分公司已經研發出了比較可靠的癌癥識別設備。本文主要介紹了液基細胞制片輔助檢測技術中所采用的各種圖像處理技術以及整個處理流程,以幫助相關研究者能更好地了解這項研究。
2 液基細胞學計算機輔助診斷技術原理
計算機輔助診斷(computer-aided diagnosis, CAD)最早可追溯至1966 年由美國的Ledley提出,但其隨后的發展一直陷入低谷。近年來,隨著計算機技術的飛速發展,CAD 在發達國家的諸多醫學領域取得了較快發展。針對病變細胞顯微圖像的一系列的計算機輔助診斷系統也相繼推出。美國早在1989 年就針對宮頸癌細胞圖像開發了PapNet 系統,這是一種交互式的神經網絡輔助診斷系統(INNN testing system)。該系統利用人工神經網絡識別每張細胞圖片,并選出128 個最有可能的異常細胞圖,對其中的異常細胞進行定位且在顯微鏡下進行核實診斷。而美國Hologic 公司針對目前新型的液基細胞學技術所制成的涂片(Liquid-Based Preparations, LBP),也開發出了用于癌細胞識別的輔助閱片系統,即新柏式玻片掃描影像分析系統(ThinPrep Imaging System, TIS)。該系統能從每張玻片的約120 個視野中選取22 個視野以便進一步診斷,并對異常細胞進行標記,幫助病理學家進行診斷。此外,國內的南京大學計算機新技術國家重點實驗室與南京八一醫院全軍腫瘤研究中心聯合研究多年,采用圖像分析處理技術以及人工神經網絡技術,研制出了針對肺癌系統涂片的計算機自動診斷系統(LCDS)。
一般來說,計算機輔助診斷流程大致可分為三個階段,即特征提取、特征量化和數據處理。特征提取是將醫學影像結果結合其病理特征資料提出出來并分類,特征量化即將提取出的特征進行分析量化,而數據處理就是在前兩步的基礎上應用各種數學模型或統計算法,形成有效CAD 系統。針對癌細胞顯微圖像的計算機輔助診斷系統主要由圖像采集、預處理、圖像分割、特征提取以及分類識別組成。其中涉及到了許多圖像處理技術,目前大部分研究主要集中在細胞分割、特征提取和分類識別方面,下面主要介紹這幾個方面的相關技術。
3 液基細胞學計算機輔助診斷技術
3.1 細胞圖像預處理根據不同圖像的特點進行適宜的預處理,可以不同程度地提高圖像處理效率,改善處理效果。對于細胞制片顯微圖像,預處理操作主要包括圖像平滑、ROI(Region of Interesting)區域的提取以及細胞核的位置檢測。
在處理原始細胞圖像時,首先要進行平滑處理以去除圖像中的噪聲,其中最常用的高斯濾波、中值濾波以及均值濾波。對于細胞圖像,在實際處理過程中,可能會遇到染色不均勻的問題。Marroquin 針對該情況采用了基于形態學運算的ASF 濾波和Top-Hat 進行預處理,得到了不錯的效果。而Perona 和Malik也提出了一種非線性擴散平滑(NonlinearDiffusion Filter)的方法進行圖像預處理,該處理既有效地消除了噪聲,還增強了圖像的邊緣。
圖像平滑取得了一定效果之后,便要進行ROI 區域的提取,其目的是除去圖像的無關區域,方便后續的提取處理。這部分處理目前多采用的是用閾值法來分割背景區域與有效區域。此外,Sobrevilla應用了一種模糊形態結構元素法(Fuzzy Morphological StructuralElement)用于細胞區域的提取,而Bamford則提出了一種基于測地學的水浸法來進行細胞區域的提取。
最后,預處理中最重要的步驟便是檢測圖像中細胞輪廓以及細胞核的位置,以方便后續的特征提取處理。目前主要的圖像處理手段主要為Hough 變換法和區域檢測法。Hough 變換法主要是利用Hough 變換對圖像邊界進行橢圓或圓形輪廓的檢測,并確定其中心位置。而由于細胞及細胞核形狀接近于橢圓,因此可將該中心位置作為細胞的定位。這一方法在檢測橢圓時運算量很大,實際應用中一般要針對實際情況對其進行改進。而另一種區域檢測法則是首先將細胞核所在區域分離出來,然后再檢測各分離區域的中心點即作為細胞核的位置。在實際應用中,由于不同細胞間的粘連往往會給檢測帶來一定的難度。為了解決這一問題,Marroquin通過極限腐蝕等形態學的處理方法實現了粘連區域的分離。
3.2 圖像分割如何準確有效地完成細胞圖像的分割是整個輔助診斷系統的關鍵,這部分處理結果直接影響后續的特征提取以及分類識別的準確性及可靠性。而在細胞制片的實際操作過程中,如圖3 所示,由于各種人為因素,獲得的涂片細胞圖像往往存在細胞重疊粘連、染色顏色不一致以及背景含有雜質的問題,這為細胞圖像的準確有效分割增添了更多的難點。針對這些難點的細胞圖像分割算法的研究一直是國內外研究熱點。目前,根據圖像分割的方式,這些算法分為基于邊界的方法和基于區域的方法。
3.2.1 邊界分割算法邊界檢測是最常用的圖像分割方法之一,其較為經典的圖像處理方法便是構造邊緣檢測算子,如Canny、Sobel、Roberts、Prewitt 等。對于癌細胞圖像,在進行邊界檢測后,還需對檢出邊界進行相應的搜索和連接才能獲得完整的細胞輪廓。Xiao就采用了一種邊界跟蹤方法來分離細胞及細胞核。他們首先介由人工交互來進行細胞核位置的確定,之后計算梯度且對其進行二值化,最后通過一種搜索算法來跟蹤記錄細胞核的邊界,從而將開曲線以及長度超出要求的曲線消除掉。當然這種方法的準確性與細胞圖像的邊界提取效果密切相關。而Einstein則是在人工交互的基礎上,利用人工得出的幾個特征點對細胞核進行封閉曲線的估計,從而對細胞核圖像進行精確處理。此外,還有學者通過對梯度算子進行改進從而提出適合細胞圖像分割的算法。Leung提出模糊運算的邊界檢測法來對細胞核進行檢測,而Nedzved采用了形態學梯度的方法來檢測細胞核。
在實際利用邊界檢測的方法進行圖像分割的時候,由于圖像背景中存在雜質或噪聲的緣故,這會極大地干擾邊界檢測的效果,目前傳統的邊界檢測方法并不能取得很好的效果。各種研究表明,解決這一問題最有效的方法便是提出各種針對細胞核輪廓的數學模型,之后對模型進行優化最終得到最佳細胞核輪廓。在對細胞顯微圖像進行檢測時,由于細胞及細胞核的形狀一般接近于橢圓。針對這一特征,許多研究便采用橢圓模型來進行細胞圖像分割,用橢圓參數來描述邊界形狀。Wu 提出了一種針對圖像中單個細胞的橢圓檢測方法。由于制片中細胞核與外部的染色深度不同,他利用這一對比性質,構建了一個內部和外部具有相反度量值的橢圓圖像模型,之后通過優化該模型使之接近于原始圖像從而確定最佳的橢圓模型參數,進而實現圖像邊界的確定。當然這種方法也被推廣至多個細胞核的分割。在橢圓模型方面,Jiang 提出了一種基于改進的Tabu 搜索算法來檢測圖像中的橢圓邊界。他首先對細胞圖像進行Canny 邊緣檢測,然后在檢測出的邊界中通過搜索的方法來獲取合適長度的連通邊界作為細胞核的邊界,最后對這些邊界再進行橢圓檢測,從而最終確定細胞核區域。此外,Mouroutis 應用了一種概率模型來提取輪廓。他首先通過Hough 變換來定位細胞位置,然后以該檢出位置點為原點,向周圍沿徑向搜索邊界點。通過這些搜索點的灰度值、與原點的距離以及與該方向上梯度最大點的位置關系建立起一種該方向上邊界點的概率分布,之后通過優化條件使得該模型概率最大便可得到最優邊界。Garrido 提出了一種變形模板來對提取細胞核邊界。他同樣先利用Hough 變換對細胞核進行定位,之后便是利用定位點附近邊界信息結合橢圓模型對細胞核輪廓進行最小二乘法估計,最后建立一種橢圓變形模型精確跟蹤細胞核邊界,達到圖像分割的效果。
上述基于橢圓模型的方法大多采用優化模型的方法來估計細胞邊界,但實際上很難精確定位圖像邊界。Kass 等于1987 年提出一種主動輪廓模型(Active Contour Model),又稱為Snake 模型。Snake 模型為圖像處理領域提供一個全局的圖像分割方法,也提出了一種全新的分割思路,由于它靈活的形狀描述方法,在醫學圖像處理領域得到了廣泛的應用。Snake 模型的基本思想是在圖像中搜索一條參數化的輪廓曲線,并使該曲線處的內能和勢能的加權總值達到最小。其中內能由曲線自身的張力和剛性力決定,而勢能由圖像的特征決定。由于原始的Snake 模型對輪廓位置要求較高,且對凹陷、尖角等復雜邊界難以進行有效跟蹤,因此在對細胞圖像進行分割的時候,一般需要對原始的Snake 模型進行改進。胡炯炯等提出了一種基于形態學的B-Snake 模型。他們通過一種距離圖對B 樣條活動輪廓模型進行改進,并初始化輪廓曲線。Lee先利用改進的Hough 變換確定細胞核橢圓,再結合該檢出橢圓對Snake 模型進行優化,最終實現輪廓的精確分割。張震通過改進Snake 模型的本身組成,在修改Snake 曲線的外部能量、加強外部作用力、擴展外部能量作用范圍和增強抗噪聲能力的基礎之上,根據實際情況,提出并引入了新的動態外部力,最終采用Williams的貪婪算法作為Snake 模型的優化算法,也得到出了比較精確的細胞輪廓。
3.2.2 區域分割算法基于區域分割的細胞圖像處理方法主要有閾值法和區域生長法。近年來,隨著計算機技術的發展,一些高等圖像處理技術(如向量機、自動聚類等)也逐步應用于細胞圖像區域分割研究,使得分割效果更加準確有效。
由于細胞制片中細胞核與核外部組織的染色深度存在差異,基于這一特征,閾值法通過選取適當的圖像灰度閾值來分離細胞核及核外部區域。目前細胞制片的顯微圖像大多為24位真彩圖像,因此閾值分割的方法主要集中于研究彩色細胞圖像的分割。比較常見的閾值分割方法主要是在顏色空間中對細胞圖像像素進行聚類。Sammouda采用了Hopfield 神經網絡對肺癌細胞圖像進行了自動聚類分割。國內的王洪元還將該方法用于腹水脫落細胞圖像的分割研究,并取得了不錯的效果。此外,為了有效利用細胞圖像的顏色信息,Martins應用K-L 變換將彩色圖像中的R、G、B 三基色分量映射到其它三維空間,然后再針對新空間提取三個紋理特征,并利用神經網絡對像素進行分類處理。陸建峰在對肺癌染色涂片的彩色細胞顯微圖像進行研究后發現,若將RGB 顏色空間轉換為HSI 顏色空間后,通過在圖像H 分量上進行閾值分割能較好地進行細胞核和細胞漿的分離,因此他先通過H 分量將細胞與背景分離,再通過I 分量分離細胞核與細胞漿。針對細胞制片所出現的染色不均勻的現象,目前多采用自適應閾值分割的方法。如Tanaka在對圖像進行閾值分割的時候,首先將整個圖像劃分為各個子塊,求出每個子塊的閾值,然后用B 樣條函數擬合整個圖像的閾值曲面,并根據該擬合曲面對圖像進行分割。
基于區域的分割方法主要是根據細胞圖像中不同區域像素的顏色和幾何特征將細胞核及細胞漿分離開來,其中最主要的一個應用便是數學形態學。形態學是以幾何學為基礎的圖像分析方法,主要包括圖像膨脹、腐蝕、開、閉運算等等。Thiran 和Macq 就提出了一種用于細胞圖像分割的形態學處理方法。他們首先利用開運算將圖像中的雜質去除,再應用一種重建算法來消除開運算所導致的目標圖像失真,最終結合閾值法分割提取出細胞核區域。而針對圖像中存在的細胞粘連問題,他們則采用極限腐蝕的方法得到各個粘連區域的中心,然后再搜索中心點附近的邊界,最后取距離中心點最近的邊界作為該區域的邊界從而實現粘連區域的分割。
在眾多的形態學方法中,目前應用最為廣泛的便是流域法,又稱為分水嶺法,其本質內容是將待處理的圖像作為一個凹凸不平的流域,然后通過構建流域分界線來實現圖像中各個區域的分割,首先由Lantuejoul 和Beucher 引入到圖像處理,并進一步應用在灰度圖像上。細胞圖像在進行流域分割時,一般要先進行預處理。國防科技大學的胡亞斌等人在對胃腺癌細胞圖像進行流域分割時,先利用Canny 算子獲取圖像的梯度信息,然后再進行區域增長,從而得到了精確的細胞區域,最后利用一種改進的分水嶺算法實現了粘連細胞的分割。王金濤等先是對圖像作閾值處理,然后進行距離變換,由于每個細胞核區域中心存在距離局部最小值,進而應用分水嶺算法,分割出粘連或重疊細胞。
近年來,隨著圖像處理研究的進展,許多新型模式識別的方法被引入到區域分割方法之中。例如,Martins對圖像中每個像素的鄰域內提取三個紋理特征,然后再利用神經網絡的識別技術對像素進行分類,從而分割出有效區域。Spyrisdonos在提取了細胞圖像自相關函數的紋理特征后,分別采取了最小距離法、Bayes 法以及多層感知法(MLP)對細胞核進行分割提取,并比較分析了最終的分割結果。
3.3 特征提取對細胞圖像進行分割處理后,提取相關特征信息是為細胞的分類識別提供判別條件,因此所選取的特征應該能夠反映出正常細胞與癌變細胞之間的差異。從臨床醫學的角度來看,一般正常細胞形狀規整,呈橢圓狀,輪廓光滑,細胞核染色均勻,紋理呈細顆粒分布;而癌變細胞的形狀不規則,細胞核顏色較深,核漿比較大。在研制基于細胞制片的計算機輔助診斷算法時,也需要從細胞識別的視覺特征出發,因此一般的診斷系統通常從細胞圖像的顏色、形狀和紋理中獲取有效判別特征,從而實現細胞病變的度量。下面分別就這三個方面介紹這些判別特征參數。
3.3.1 顏色特征由于正常細胞與癌變細胞在細胞核染色深度上存在差異,因此對細胞核的顏色分布進行統計可以在一定程度上反映細胞病變特征。顏色特征提取涉及的算法比較簡單,需要提取的顏色特征主要包括以下兩部分:一是細胞核區域顏色在R、G、B 三個分量上的均值RN、GN、BN;二是細胞核區域上顏色方差VN,用以描述細胞核區域顏色的變化程度。其中,v 為細胞核區域上一點,(Rv、Gv、Bv)為v 點所對應的R、G、B 顏色值,CN代表細胞核區域。
3.3.2 形狀特征細胞及細胞核的形狀特征是依靠細胞圖像進行細胞癌變診斷的關鍵因素。細胞的形狀特征可分為幾何特征和區域特征。幾何特征包括細胞的高度、寬度、周長、面積、似圓度、矩形度、伸長度、中心矩和傅立葉描述子等特征。區域特征包括區域內細胞總數、總面積以及細胞面積和似圓度均方差。表1 給出了一些重要形狀特征的公式描述。
一般在實際應用中,要根據分析對象的不同而選擇相應的特征進行提取。Street 針對細胞核采用了分形維數來描述其邊界的粗糙度。薛東君等人針對早期食管癌細胞圖像,提取了細胞面積、細胞核面積、細胞漿面積、核漿比、細胞核透過率、細胞漿透過率、細胞對比度、細胞周長、細胞核周長以及細胞緊湊度作為判別特征,并選取了其中5 個獨立特征用作分類識別研究。
3.3.3 紋理特征對于紋理特征的提取,目前最常用的方法便是依靠共生矩陣(Grey Level Co-OcurrenceMatrices,GLCM)對原圖像進行描述。共生矩陣法是在統計圖像中不同方向及尺度上像素的灰度概率分布的基礎上,通過計算能量、熵、局部同質性、對比度、相關性等二階統計量來定量描述圖像紋理特性的方法。分別介紹了這些紋理統計量。
除了依靠灰度共生矩陣對紋理進行描述外,癌細胞自動識別和診斷技術中也常用到分形幾何分析法。該方法是通過計算識別對象在不同尺度的自相似性從而描述其不規則度和復雜度,一般由分形維數來描述紋理的粗糙度。假設N 為尺度p 下的自相似塊的數量,分形維數可以描述為log(N)/log(p),并且在實際應用中,分形維數可以通過各種方法進行估計,如盒計數法、功率譜法、結構函數法以及分塊迭代函數法。王浩軍、鄭崇勛等在研究骨髓涂片中粒細胞核表面紋理時,提出了一種改進的基于分塊迭代函數系統的分形維數估計法。該方法首先通過壓縮仿射變換針對細胞核灰度圖像構建出分塊迭代函數,然后利用這些分塊迭代函數計算出反映細胞核分形特征的匹配塊因子、尺度系數等參數從而進一步推導出分形維數。此外,Walker 還應用了MRF(Markov Random Field)模型來提取細胞核的染色分布特征。Weyn 利用小波變換的方法對圖像的能量分布進行統計,進而作為細胞核紋理特征。總之,對細胞顯微圖像進行紋理特征提取時,應著重提取反映細胞發生癌變的重要表征,以確保后面分類識別的判別精度。
3.4 分類識別癌細胞計算機輔助診斷的根本目的是判別待檢測細胞是否發生癌變。根據提取出的細胞特征參數,研究大多利用分類識別的技術將其分為不同的病變類型。最常見的分類是進行癌與非癌細胞的鑒定或對檢測出的癌細胞進行分類。目前,許多分類識別的方法已經用于顯微細胞圖片的自動識別中,包括人工神經網絡法、Bayes 分類器、k-近鄰法、線性判別法、決策樹、模糊分類系統以及支持向量機。對這些分類識別方法進行了簡要介紹。
在眾多分類識別方法中,人工神經網絡近年來發展非常迅速,在生物醫學領域的應用非常廣泛,其最基本的單位是人工神經元。神經元的輸入源自其他神經元,其中的非線性函數f 是神經元輸出激勵函數,可以直接作為閾值函數。在進行細胞的分類識別研究中,由于通常要求f 可微,因此輸出函數通常選用Sigmoid 函數。對于細胞圖像的分類識別研究,常用到的是三層BP 神經網絡結構。該結構模型主要由三層神經元組成:輸入層、隱層以及輸出層。模型算法主要分為正向輸出和反向調整兩個階段。王洪元在設計細胞分類器時,就采用了無參數的sigmoid 函數作為神經元函數,并應用柔性神經網絡反傳修正拓撲模型對可疑細胞進行分類識別,結果表明該系統對腹水脫落癌細胞的分類識別能達到90%以上的診斷準確度。南京大學的周志華在針對肺癌細胞設計自動識別系統時,基于人工神經網絡技術提出了一種NED 分類方法(Neural Ensemble-basedDetection),該網絡模型主要包括兩級神經網絡結構。第一級人工神經網絡主要用于判定細胞是否異常,第二級網絡則將第一級網絡的判定結果進行細化,分為5 種不同的類型,從而幫助醫師進行診斷。
除了人工神經網絡的方法外,其他分類識別方法也得到了廣泛的應用,甚至部分研究運用了多種分類識別方法。并對各方法最終識別結果進行了比較分析。Espineira 在進行乳腺癌細胞的識別時,分別應用了決策樹和線性判別的方法,且最終決策樹的準確率為91.5%,線性判別法為89.4%.胡敏在針對細胞核特征進行分類識別研究時,分別采取了Bayes 判別法和k近鄰法,結果表明兩種方法分類效果基本相當,識別準確度最高可達86%以上。此外,同濟大學的謝青在研究中采用7 個典型的細胞特征描述,應用ID3 算法生成決策樹的方法進行了癌細胞識別研究,也取得了不錯的效果。
4 液基細胞學計算機輔助診斷技術的展望
在實際采集細胞圖像時,由于人為因素(如細胞染色不均勻、背景存在雜質等)或其他緣由,采集的細胞圖像總是呈多種變化。而這些原因在某種程度上都給計算機輔助診斷造成了一定的影響,且引入了眾多難題。針對目前液基細胞學計算機診斷技術遇到的種種問題,計算機輔助診斷還需要在一些方面有所發展。
一方面,細胞特征提取方面尚待完善。目前大多數細胞顯微圖像輔助診斷系統在進行細胞特征識別時,主要是對細胞核進行的分析,缺少更多的細節信息。整個細胞不僅包括細胞核還包括細胞漿,而在提取特征信息時,由于細胞的細胞漿總是會粘連、重疊在一起,很難提取到其精確細節信息。因此,大多數研究只是完整提取細胞核的形態、紋理及其它細節信息,細胞漿主要是進行圖像分割后粗略提取其形態區域特征以計算核漿比。而在臨床上,細胞核與細胞漿的相互位置分布也細胞病變的一個重要判定因素。針對這種情況,計算機輔助診斷系統可以在診斷圖片的選擇上進行細化處理,如在進行病理識別時,先根據圖片提取特征對圖像作出初步評價,確認能夠進行準確識別,這樣便可以避免一定的假陽性或假陰性誤診。此外,在紋理特征提取方面,目前研究大多只是依靠灰度共生矩陣的二階統計量對其染色顆粒的粗糙度進行判定。在實際病理檢查中,一些其它細胞核特征如核仁明顯、多核以及核膜增厚也是重要的判定依據。因此,若要顧全此類情況,輔助診斷還應依據具體情況,細化特征提取操作,并提出針對性更強的定量分析。
另外,隨著計算機輔助檢測的普遍推廣,亟需建立細胞病理自動識別的標準細胞圖像庫。目前學術界還沒有提出一個公認的標準細胞圖像庫,各個研究組織都是在不同的環境和條件下,針對不同的應用目的進行圖片采集和自動識別研究的。由于各個研究組織提出的輔助診斷系統針對的細胞種類不同,實驗環境、取樣方式、染色方法都存在差異,且最終的系統性能評估方法也不相同,因此其發表的數據只能在一定程度上反映他們各自開發系統診斷的可靠性,無法完全將各個系統進行相對比較,這給計算機輔助診斷系統的評估增添了不少困難。建立一個國際化的標準圖像數據庫是計算機輔助系統走向成熟的一個必經過程。