植物DNA條形碼管理系統(tǒng)客戶端是一個針對植物的遺傳基因DNA條形碼進行綜合管理的輔助工具,該工具可對項目信息、樣本信息、序列信息、測試圖譜、處理文件、圖片信息等以FTP的形式進行數(shù)據(jù)提交和文件上傳,方便后臺管理系統(tǒng)的管理。 植物DNA條形碼研究是近10年來進展最迅速的學(xué)科之一, 其通用序列的篩選一直是該領(lǐng)域研究的熱點問題。
DNA條形碼
DNA條形碼(DNA barcode)是指生物體內(nèi)能夠代表該物種的、標準的、有足夠變異的、易擴增且相對較短的DNA片段。DNA條形碼已經(jīng)成為生態(tài)學(xué)研究的重要工具,不僅用于物種鑒定,同時也幫助生物學(xué)家進一步了解生態(tài)系統(tǒng)內(nèi)發(fā)生的相互作用。在發(fā)現(xiàn)一種未知物種或者物種的一部分時,研究人員便描繪其組織的DNA條形碼,而后與國際數(shù)據(jù)庫內(nèi)的其他條形碼進行比對。如果與其中一個相匹配,研究人員便可確認這種物種的身份。 DNA條形碼技術(shù)是利用生物體DNA中一段保守片段對物種進行快速準確鑒定的新興技術(shù)。
相關(guān)說明
1 植物DNA條形碼
植物DNA條形碼研究稍滯后于動物學(xué)相關(guān)的工作。編碼細胞色素C氧化酶I的線粒體基因COI(或cox1)被選作動物DNA條形碼, 在一些昆蟲、魚類和鳥類的研究中取得了較好結(jié)果(Hebert et al., 2004; Smith et al., 2005; Hajibabaei et al., 2006; Yoo et al., 2006)。而對于陸地植物, 由于線粒體基因的進化速率相對較慢, COI并不適合。因此, 從葉綠體基因組和核基因組中尋找通用性高、序列質(zhì)量好、物種分辨率高的DNA條形碼候選片段是問題的關(guān)鍵。2009年, 國際生命條形碼聯(lián)盟植物工作組(Consortium for the Barcode of Life, Plant Working Group, 2009)根據(jù)已往研究和該研究組數(shù)據(jù)的分析結(jié)果, 建議將rbcL + matK組合作為陸地植物的核心DNA條形碼, 用于構(gòu)建植物物種鑒定的統(tǒng)一框圖。在第三屆國際生命條形碼大會上, ITS和trnH-psbA被作為植物的輔助條形碼(Hollingsworthet al., 2011)。2011年, 中國植物條形碼研究團隊建議將ITS(或ITS2)作為種子植物的核心條形碼之一(Liet al., 2011)。
植物核心條形碼的確定, 實現(xiàn)了植物標本鑒定過程的自動化和標準化, 突破了對經(jīng)驗的過度依賴, 并可在較短時間內(nèi)建立易于利用的應(yīng)用系統(tǒng)。因此, 植物DNA條形碼技術(shù)作為傳統(tǒng)分類的有效補充, 在生物多樣性研究領(lǐng)域顯示出強大的生命力。利用DNA條形碼可以解決缺乏有效形態(tài)學(xué)證據(jù)的已知或未知物種的鑒定, 有助于新種或者隱存種的發(fā)現(xiàn)。例如, Pei等(2011)以及裴男才(2012)從葉片或樹皮中提取DNA, 對熱帶雨林或亞熱帶常綠闊葉林中一些林冠層物種快速鑒定到科、屬甚至種。Liu等(2011)對歐亞分布的紅豆杉屬(Taxus)植物的DNA條形碼研究中, 發(fā)現(xiàn)4個物種(類群)可能是新種或隱存種, 并得到了居群遺傳學(xué)(Liu et al., 2013)和形態(tài)學(xué)(Mö lleret al., 2013)證據(jù)的支持。
DNA條形碼在群落生態(tài)學(xué)研究中作為一種快速識別物種的方法, 還可以用于群落系統(tǒng)發(fā)育關(guān)系的構(gòu)建, 成為生物多樣性或者物種豐富度快速評估的新工具。例如, Kress等(2009)在對巴拿馬Barro Colorado Island (BCI)樣地的群落系統(tǒng)發(fā)育結(jié)構(gòu)的研究中, 利用rbcL +matK + trnH-psbA片段組合, 使物種鑒定的準確率提高至98%。
生物多樣性的形成和維持機制已有較多假說, 但仍然沒有形成廣為接受的理論。DNA條形碼在群落物種間網(wǎng)絡(luò)(尤其是植食網(wǎng)絡(luò)和傳粉網(wǎng)絡(luò))關(guān)系等的研究中, 得到了較為成功的應(yīng)用。例如借助DNA條形碼技術(shù)分析動物消化道中食物殘渣, 鑒定其取食的植物, 進而研究野生動物的取食習(xí)性(Passmoreet al., 2006; Huleret al., 2007; Bourlatet al., 2008)。Garcí a-Robledo等(2013)在構(gòu)建美國中部熱帶雨林中植物與昆蟲之間的網(wǎng)絡(luò)關(guān)系時, 證實DNA條形碼是一種行之有效的辦法。Ramí rez等(2011)通過DNA條形碼探討特化的蘭花類群與其傳粉昆蟲之間的拓撲網(wǎng)狀結(jié)構(gòu), 以及它們的分化時間和多樣化式樣, 表明蘭花的多樣化與傳粉昆蟲的分化相一致, 同時與新熱帶森林中化學(xué)環(huán)境的變化密切相關(guān)。此外, Roy和Lawson(2012)借助DNA條形碼, 研究了寄主與寄生網(wǎng)絡(luò)的關(guān)系。可見, DNA條形碼為生物多樣性的形成和維持機制的研究開辟了新的途徑。
隨著第二代測序技術(shù)的出現(xiàn), 開發(fā)出通過高通量技術(shù)獲得多物種(樣品)的DNA條形碼序列的方法, 即DNA metabarcoding技術(shù)(Pompanonet al., 2011; Riazet al., 2011)。該方法結(jié)合生物信息學(xué)手段, 可以獲取復(fù)雜混合樣品甚至是大尺度范圍樣品的DNA條形碼序列, 自動識別多個物種, 具有快速、可重復(fù)、高效及綜合性的特點, 可以對當前生物多樣性和古生物多樣性進行評估。Yoccoz等(2012)從環(huán)境土壤提取了混合DNA, 獲得其中葉綠體trnL(UAA)內(nèi)含子P6環(huán)序列, 利用metabarcoding技術(shù)進行物種鑒定, 結(jié)果能夠較好地反映地上植物的分布。Hiiesalu等(2012)利用metabarcoding技術(shù)不僅分析了地上植物物種的分布及豐度, 還發(fā)現(xiàn)對地下土壤的取樣可以獲得傳統(tǒng)分析中容易忽視的信息, 如物種共存分布等, 能更全面地反映植被生態(tài)及其影響因素。借助于metabarcoding技術(shù)也可以更好地重現(xiàn)古植物多樣性。例如Murray等(2012)分析了植食性動物的糞堆遺存, 發(fā)現(xiàn)了之前沒有報道的動植物物種。此外, 利用metabarcoding技術(shù)對凍土DNA樣品進行分析, DNA鑒定結(jié)果可以與花粉鑒定和大化石鑒定結(jié)果相互印證, 已成為傳統(tǒng)古植物學(xué)研究的輔助手段(Jø rgensen et al., 2012)。
2 植物DNA條形碼參考數(shù)據(jù)庫
為了實現(xiàn)對物種的快速鑒定, 構(gòu)建了DNA條形碼參考數(shù)據(jù)庫(Reference Library), 包括實物庫(植物標本庫、植物分子材料庫和植物總DNA庫)、植物DNA條形碼數(shù)據(jù)庫、物種信息庫和計算分析共享系統(tǒng)(曾春霞等, 2012)。這些數(shù)據(jù)庫需要統(tǒng)一規(guī)范化的工作流程, 才能夠在數(shù)據(jù)展示系統(tǒng)(應(yīng)用平臺)中, 實現(xiàn)對物種的簡單快捷的鑒定并獲取相關(guān)信息。生命條形碼聯(lián)盟(CBOL)建立了生命條形碼數(shù)據(jù)庫系統(tǒng)BOLD, 是專門收集和分析DNA條形碼數(shù)據(jù)的平臺。與目前常用的核苷酸數(shù)據(jù)庫(例如GenBank、EMBL和DDBJ)不同, BOLD數(shù)據(jù)庫除了要求提交DNA條形碼序列外, 還要求使用者提交以下信息: 物種名稱、標本圖片、憑證標本信息(目錄號和館藏號)、采集號(采集人、采集日期和GPS定位地點)、標本鑒定人、用于PCR擴增的引物、測序原始峰圖。這樣, 研究人員在對核苷酸序列進行比對的同時, 還能夠結(jié)合其他信息, 完成對物種的鑒定。據(jù)BOLD數(shù)據(jù)庫最新統(tǒng)計, 約21萬個物種已經(jīng)完成DNA條形碼信息的描繪, 同時具DNA條形碼序列信息的標本也有290萬份(http://www.barcodinglife.com/index.php/TaxBrowser_Home)。該數(shù)據(jù)庫以魚類、鳥類和昆蟲類為主, 而真菌和植物DNA條形碼信息相對較少。
由于植物物種中存在廣泛的多倍化、雜交或基因漸滲等事件, 同時近緣(姐妹)或者近期分化類群普遍存在, 這就給植物DNA條形碼參考數(shù)據(jù)庫的構(gòu)建提出了更高的要求。為了能夠?qū)崿F(xiàn)種級水平的快速鑒定, 如何統(tǒng)一物種界定標準和居群取樣標準等是當務(wù)之急(陳之端和李德銖, 2013)。然而要構(gòu)建一個全面的、準確的植物DNA條形碼參考數(shù)據(jù)庫, 需要保證數(shù)據(jù)庫中的DNA序列均來自經(jīng)分類學(xué)家可靠鑒定的標本、這些憑證標本具有詳盡的注釋和可靠的保藏、DNA序列正確, 以保證分子鑒定的可靠性。可見, 植物DNA條形碼標準數(shù)據(jù)庫的構(gòu)建將是長期而艱巨的任務(wù)。
近年來, 中國科學(xué)院昆明植物研究所聯(lián)合國內(nèi)相關(guān)科研院校開展了中國重要植物類群的采集、DNA條形碼的測定與分析等工作, 在此基礎(chǔ)上, 進一步融入現(xiàn)代植物學(xué)、新一代測序技術(shù)、地理信息數(shù)據(jù)和計算機信息技術(shù)等新元素, 提出了新一代植物志(iFlora)的研究計劃(李德銖等, 2012)。iFlora不但包含傳統(tǒng)植物志的檢索表、物種描述等信息, 還包括物種詳細分布信息、圖片或圖像、DNA條形碼數(shù)據(jù)庫和系統(tǒng)發(fā)育等信息, 同時建立了高效的電子化比對和搜索工具。通過系列關(guān)鍵技術(shù)的集成和研發(fā), iFlora將構(gòu)建一個便捷、準確識別植物和掌握相關(guān)數(shù)字化信息的智能植物志(或智能裝備)(王紅等, 2013)。目前, iFlora研究計劃已經(jīng)積累了中國維管束植物約230科1, 665屬6, 800種約67, 000條DNA條形碼序列, 同時構(gòu)建的植物DNA條形碼參考數(shù)據(jù)庫已初具雛形。
3 植物DNA條形碼數(shù)據(jù)共享平臺構(gòu)建
隨著數(shù)據(jù)的爆炸性增長, 人們正進入一個“ 大數(shù)據(jù)” 的時代。大數(shù)據(jù)可概括為4V特征, 即數(shù)據(jù)量大(volume)、類型繁多(variety)、價值密度低(value)和速度快時效高(velocity)。在這樣的背景下, 如何管理和使用好海量的信息, 是一個值得探討的問題。
現(xiàn)今關(guān)于植物DNA條形碼數(shù)據(jù)不再是單一的、一個維度上的數(shù)據(jù), 而是豐富的、多維度的數(shù)據(jù)。 構(gòu)建中國植物DNA條形碼數(shù)據(jù)共享平臺, 需要充分考慮到大數(shù)據(jù)的特征, 整合和管理好海量的數(shù)據(jù)資源, 并思考如何使用植物學(xué)大數(shù)據(jù)。以往的DNA條形碼數(shù)據(jù)共享平臺多是通過序列比對算法(如BLAST)來鑒定物種, 可當大數(shù)據(jù)的概念引入之后, 通過加入GPS信息與以往的標本分布進行比對作為佐證, 以及植物圖片識別作為輔助手段, 物種將得到更準確的鑒定。這種使用多維度的植物學(xué)數(shù)據(jù)“ 交叉復(fù)現(xiàn)” 準確鑒定物種, 將使得植物學(xué)信息“ 全息可見” 。下面就中國植物DNA條形碼數(shù)據(jù)共享平臺的構(gòu)建提出一些思考。
3.1 植物DNA條形碼數(shù)據(jù)
3.1.1 數(shù)據(jù)的內(nèi)容
在大數(shù)據(jù)時代, 植物DNA條形碼數(shù)據(jù)不再限于其獲取過程中產(chǎn)生的信息, 如樣本采集、標本鑒定、標本憑證、標本圖片、測序圖譜、處理文件、序列等信息, 還應(yīng)加入更加豐富的內(nèi)容。如BOLD SYSTEMS(http://www.boldsystems.org/)的頁面加入了來源、出版信息等內(nèi)容; Tree of Life Web Project(http://tolweb.org/tree/)的詳細頁面加入了物種名稱(包括圖片、生命之樹)、簡介、特征、親緣關(guān)系、異名、參考文獻、互聯(lián)網(wǎng)上的信息、標題插圖等內(nèi)容; iFlora系列的“ 國家重點保護野生植物鑒定信息平臺” (http://www.iflora.cn/)的詳細頁面結(jié)合了昆明植物研究所的優(yōu)勢資源, 加入了《中國植物志》關(guān)于物種的信息、種質(zhì)資源、民族植物學(xué)、植物照片等內(nèi)容。
以下有價值的DNA條形碼相關(guān)植物學(xué)數(shù)據(jù)可供整合參考:
(1)《中國植物志》、Flora of China以及地方植物志書等關(guān)于物種的描述。
(2)《中華本草》、《中國民族藥志要》、《中國中藥資源志要》中關(guān)于物種藥用價值的介紹。
(3) “ 物種2000” (http://www.sp2000.cn/joaen/)的異俗名數(shù)據(jù)。
(4)中國植物圖像庫(http://www.plantphoto.cn/)的海量植物照片。
(5)國家標本資源共享平臺(http://www.nsii.org. cn/)的標本分布信息。
(6)中國西南野生生物種質(zhì)資源庫(http://www. genobank.org/)的種質(zhì)資源信息等。
(7)生物技術(shù)信息中心(http://www.ncbi.nlm. nih.gov)的GenBank條形碼數(shù)據(jù)等。
3.1.2 數(shù)據(jù)的標準化
在平臺建設(shè)之前, 不同單位和部門的數(shù)據(jù)庫對于檢索系統(tǒng)設(shè)計的技術(shù)方案、技術(shù)與信息組織規(guī)劃選擇、相關(guān)技術(shù)標準的采用, 基本上是各行其是, 數(shù)據(jù)標準的不統(tǒng)一常常給使用者帶來一些不必要的麻煩, 造成數(shù)據(jù)共享的壁壘。因此有必要建立一套統(tǒng)一的DNA條形碼數(shù)據(jù)標準;谶@樣的需求, 基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)重要生物類群DNA條碼數(shù)據(jù)庫(http://www.pbl.csdb.cn/page/index.vpage)、BOLD Mirror(http://www.boldmirror.net/)等網(wǎng)站在建站時就提出了植物DNA條形碼研究技術(shù)規(guī)范(高連明等, 2012)。中國植物DNA條形碼數(shù)據(jù)共享平臺在建立時應(yīng)進一步完善此類規(guī)范, 供以后數(shù)據(jù)庫建設(shè)者及科研工作者參考。
3.2 數(shù)據(jù)共享平臺的界面設(shè)計
數(shù)據(jù)共享平臺是目前國際上普遍采用的數(shù)據(jù)共享方式, 通過集中數(shù)據(jù)儲存, 建立數(shù)據(jù)服務(wù)機制, 實現(xiàn)數(shù)據(jù)的共享。以下從界面設(shè)計入手, 提出“ 中國植物DNA條形碼數(shù)據(jù)共享平臺” 的建設(shè)思路。
3.2.1 門戶模塊
現(xiàn)有的一些知名DNA條形碼網(wǎng)站可以給我們提供參考。BOLD SYSTEMS(http://www.boldsystems. org/)使用了數(shù)據(jù)門戶、條形碼集群數(shù)據(jù)庫、教育門戶、數(shù)據(jù)收集工作站這4個模塊來實現(xiàn)數(shù)據(jù)的共享。中國生命條形碼數(shù)據(jù)門戶(http://www.barcodeoflife.cn/)主要提供新聞、資源的文字信息; 中國生命條形碼信息管理系統(tǒng)和BOLD Mirror兩個模塊實現(xiàn)管理及數(shù)據(jù)共享的任務(wù)。其中中國生命條形碼信息管理系統(tǒng)(http://data.barcodeoflife.cn/index.php)必須注冊才能進行數(shù)據(jù)的提交及管理; BOLD Mirror模塊(http://www.boldmirror.net/)主要采用BLAST查詢方式實現(xiàn)DNA條形碼數(shù)據(jù)的共享; iFlora系列— — 國家重點保護野生植物鑒定信息平臺(http://www.iflora.cn/)采用了多種智能化查詢方式獲得DNA條形碼 數(shù)據(jù)。
因此, 中國植物DNA條形碼數(shù)據(jù)共享平臺至少包括3個門戶:
(1)數(shù)據(jù)門戶: 采用多種方式的智能化查詢并提供一定的下載方式。
(2)交流門戶: 除了基本的個人信息管理, 用戶還可以進行學(xué)術(shù)交流, 提交DNA條形碼相關(guān)的數(shù)據(jù)信息, 實現(xiàn)更大程度的共享。
(3)管理門戶: 主要針對管理員級別的可視化數(shù)據(jù)管理, 包括數(shù)據(jù)查詢、導(dǎo)入、增刪改、用戶角色管理以及日志維護等操作。管理員還兼具對于交流門戶提交的信息審核的責任, 將通過審核的數(shù)據(jù)歸入數(shù)據(jù)門戶的表中。
3.2.2 數(shù)據(jù)門戶的鑒定入口
數(shù)據(jù)門戶能讓用戶通過智能表檢索、DNA條形碼鑒定、圖像識別三個檢索入口獲取物種詳細的信息。其中, 智能表檢索是指在優(yōu)化數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上進行常規(guī)檢索, 如名錄索引、分等級檢索、志書式檢索、模糊搜索等方式。DNA條形碼鑒定是通過本地BLAST(local BLAST)集成在網(wǎng)頁中, 實現(xiàn)序列比對的功能, 鑒定得出可能的物種, 從而獲得鑒定物種的詳細信息。圖像識別是利用計算機對圖像進行處理和解析, 以識別各種不同模式的目標。對于植物來說, 就是用植物的某部位如葉片、花、果實、整體形貌等的照片, 通過一定的算法與圖像庫內(nèi)的圖片進行比對, 鑒定出可能的物種列表, 從而獲得相應(yīng)物種的詳細信息,F(xiàn)在“ 百度識圖” 以及“ Google識圖” 已發(fā)展到一定水平, 越來越多的科研工作者也開始關(guān)注這種方式。2013年9月在上海辰山植物園召開的“ 第三屆全國生物多樣性信息學(xué)研討會” 上, 很多學(xué)者報告了圖像識別技術(shù)并進行了深入的討論, 中國科學(xué)院植物研究所也正與“ 百度識圖” 合作開發(fā)進行“ 拍花識植物” 的工作! 圖像識圖” 正成為一種新的熱點(莊會富和王雨華, 2012)。
3.2.3 平臺框架的設(shè)計
通過以上分析, 可以得出以下平臺框架架構(gòu), 即基于一定的數(shù)據(jù)標準規(guī)范體系以及安全保障體系, 采用“ 瘦” 客戶端、“ 胖” 服務(wù)器端的瀏覽器/服務(wù)器(B/S)結(jié)構(gòu), 以表現(xiàn)層(View)、業(yè)務(wù)邏輯層(Business Logic Layer, BLL)、數(shù)據(jù)訪問層(Data Acess Layer, DAL)、數(shù)據(jù)庫(Database)多層架構(gòu)的設(shè)計模式進行開發(fā)。中國植物DNA條形碼數(shù)據(jù)共享平臺應(yīng)該提供一個智能化的物種鑒定引擎, 高效化的合作交流平臺以及人性化的管理門戶。具體的架構(gòu)如圖1所示。
中國植物DNA條形碼數(shù)據(jù)共享平臺應(yīng)具備以下的特點:
(1)方便、迅速、多元的數(shù)據(jù)查詢?nèi)肟。用戶可以通過多種查詢?nèi)肟? 方便快捷地找到并下載所需數(shù)據(jù)。
(2)詳實、豐富、準確、多關(guān)聯(lián)的數(shù)據(jù)頁面及元數(shù)據(jù)。元數(shù)據(jù)不僅僅包括樣本的采集信息和鑒定信息以及DNA條形碼的序列信息等, 還應(yīng)包括如物種信息、圖片信息、藥用植物信息和標本分布信息等, 同時保證數(shù)據(jù)的詳細、準確、權(quán)威。多關(guān)聯(lián)性表現(xiàn)在能展示物種更多的相關(guān)信息。
(3)便于合作、交流。為了實現(xiàn)更好的數(shù)據(jù)共享以及全球化的合作交流, 需要提供便利的交流合作平臺, 不僅提供日常的學(xué)術(shù)交流及討論, 還能提供數(shù)據(jù)的提交乃至定制服務(wù)。
(4)易于管理。有強大的可視化后臺管理界面, 實現(xiàn)數(shù)據(jù)的查詢、導(dǎo)入、管理、用戶角色管理、日志維護等功能, 對已有數(shù)據(jù)實現(xiàn)增、刪、改和檢索的操作, 并對提交的數(shù)據(jù)進行審核和更新。
4 展望
近年來, 隨著網(wǎng)絡(luò)化和信息化的飛速發(fā)展, 各種移動互聯(lián)網(wǎng)設(shè)備迅速普及, “ 云計算” 、“ 云服務(wù)” 等概念已形成一種趨勢。中國植物DNA條形碼數(shù)據(jù)共享平臺最初的設(shè)計可能只是集成BLAST序列比對進行物種鑒定, 隨著工作的深入, 將會集成越來越多的生物信息學(xué)軟件, 可能涉及到一些復(fù)雜的算法, 計算量較大, 加之遺傳信息的海量性和生物信息的多樣性, 采用“ 瘦” 客戶端、“ 胖” 服務(wù)器端的結(jié)構(gòu)就要求高效的計算服務(wù)環(huán)境;诳茖W(xué)計算需求的共享平臺的設(shè)計勢必是一個滿足多平臺客戶端、立足科研工作者核心用戶群、采用“ 客戶端-云服務(wù)端” 構(gòu)架的云服務(wù)平臺。