計(jì)算機(jī)技術(shù)和人類基因組計(jì)劃的發(fā)展,應(yīng)運(yùn)而生了一門新興的學(xué)科——生物信息學(xué),該學(xué)科包含了兩個(gè)交叉領(lǐng)域的工作:用于建立現(xiàn)代生物學(xué)所需信息系統(tǒng)框架(支持生物學(xué)的信息管理系統(tǒng)、分析工具和通訊網(wǎng)絡(luò))的研究開發(fā)工作,即傳統(tǒng)意義上的生物信息學(xué)(bioinformatics);旨在理解基本生物學(xué)問題的基于計(jì)算的研究工作,即計(jì)算生物學(xué)(computational biology)。生物信息學(xué)和基因組研究(Bioinformatics and Genome Research)系列會(huì)議于1990年開始舉辦,1997年6月11~12日在美國(guó)加州舊金山舉辦了第六屆生物信息學(xué)和基因組研究年會(huì),年會(huì)的主要議題包括正在出現(xiàn)的新技術(shù)、基因的功能分析、新的數(shù)據(jù)工具和制藥先導(dǎo)的基因和蛋白質(zhì)發(fā)現(xiàn)[1]?,F(xiàn)將有關(guān)內(nèi)容簡(jiǎn)介如下: 一、正在出現(xiàn)的技術(shù) Klingler(Lncyte pharmaceuticals,PaloAlto,CA,USA)強(qiáng)調(diào)基因組學(xué)正推動(dòng)制藥業(yè)進(jìn)入信息時(shí)代。隨著不斷增加的序列、表達(dá)和作圖數(shù)據(jù)的產(chǎn)生,描述和開發(fā)這些數(shù)據(jù)的信息工具變得對(duì)實(shí)現(xiàn)基因組研究的任務(wù)至關(guān)重要。他談到了Incyte pharmaceuticals對(duì)大規(guī)?;蚪M數(shù)據(jù)和生物信息學(xué)的貢獻(xiàn)。 Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一種利用DNA探針陣列進(jìn)行基因組研究的方法,其原理是通過更有效有作圖、表達(dá)檢測(cè)和多態(tài)性篩選方法,可以實(shí)現(xiàn)對(duì)人類基因組的測(cè)序。光介導(dǎo)的化學(xué)合成法被應(yīng)用于制造小型化的高密度寡核苷酸探針的陣列,這種通過軟件包件設(shè)計(jì)的寡核苷酸探針陣列可用于多態(tài)性篩查、基因分型和表達(dá)檢測(cè)。然后這些陣列就可以直接用于并行DNA雜交分析,以獲得序列、表達(dá)和基因分型信息。Milosavljevic(CuraGen, Branford, CT, USA)介紹了一種新的基于定量表達(dá)分析方法的基因表達(dá)檢測(cè)系統(tǒng),以及一種發(fā)現(xiàn)基因的系統(tǒng)GeneScape。為了有效地抽樣表達(dá),特意制作片段模式以了解特定基因的子序列的發(fā)生和冗余程度。他在酵母差異基因表達(dá)的大規(guī)模研究中對(duì)該技術(shù)的性能進(jìn)行了驗(yàn)證,并論述了技術(shù)在基因的表達(dá)、生物學(xué)功能以及疾病的基礎(chǔ)研究中的應(yīng)用。 二、基因的功能分析 Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)論述了人類基因組計(jì)劃的下一階段的任務(wù)——基因組水平的基因功能分析。這一階段產(chǎn)生的數(shù)據(jù)的分析、管理和可視性將毫無疑問地比*階段更為復(fù)雜。他介紹了一種用于脊椎動(dòng)物造血系統(tǒng)紅系發(fā)生的功能分析的原型系統(tǒng)E-poDB,它包括了用于集成數(shù)據(jù)資源的Kleisli系統(tǒng)和建立internet或intranet上視覺化工具的bioWidget圖形用戶界面。EpoDB有可能指導(dǎo)實(shí)驗(yàn)人員發(fā)現(xiàn)不可能用傳統(tǒng)實(shí)驗(yàn)方法得到的紅系發(fā)育的新的藥物靶,制藥業(yè)所感興趣的是全新的藥物靶,EpoDB提供了這樣一個(gè)機(jī)會(huì),這可能是它zui令人激動(dòng)的地方。 Sali(Rockefeller university,New York,NY,USA)討論了同源蛋白質(zhì)結(jié)構(gòu)模建。比較蛋白質(zhì)模建(comparative protein modeling)也稱為同源模建(homology modeling),即利用實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)為模式(模型)來預(yù)測(cè)另一種具有相似氨基酸序列的蛋白質(zhì)(靶)的構(gòu)象。此方法現(xiàn)在已經(jīng)具有了足夠的性,并且被認(rèn)為效果良好,因?yàn)榈鞍踪|(zhì)序列的一個(gè)微小變化通常僅僅導(dǎo)致其三維結(jié)構(gòu)的細(xì)微改變。 Babbitt(University of California,San Francisco,CA,USA)討論了通過數(shù)據(jù)庫(kù)搜索來識(shí)別遠(yuǎn)緣蛋白質(zhì)的方法。對(duì)蛋白質(zhì)超家族的結(jié)構(gòu)和功能的相互依賴性的理解,要求了解自然所塑造的一個(gè)特定結(jié)構(gòu)模板的隱含限制。蛋白質(zhì)結(jié)構(gòu)之間的zui有趣的關(guān)系經(jīng)常在分歧的序列中得以表現(xiàn),因而區(qū)分得分低(low-scoring)但生物學(xué)關(guān)系顯著的序列與得分高而生物學(xué)關(guān)系較不顯著的序列是重要的。Babbit證明了通過使用BLAST檢索,可以在數(shù)據(jù)庫(kù)搜索所得的低得分區(qū)識(shí)別遠(yuǎn)緣關(guān)系(distant relationship)。Levitt(Stanford univeersity,Palo Alto,CA,USA)討論了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和一種僅從序列數(shù)據(jù)對(duì)功能自動(dòng)模建的方法?;蚬δ苋Q于基因編碼的蛋白質(zhì)的三級(jí)結(jié)構(gòu),但數(shù)據(jù)庫(kù)中蛋白質(zhì)序列的數(shù)目每18個(gè)月翻一番。為了確定這些序列的功能,結(jié)構(gòu)必須確定。同源模建和從頭折疊(ab initio folding)方法是兩種現(xiàn)有的互為補(bǔ)充的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法;同源模建是通過片段匹配(segment matching)來完成的,計(jì)算機(jī)程棄SegMod就是基于同源模建方法的。 三、新的數(shù)據(jù)工具 Letovsky(Johns hopkins University,Baltimore,MD,USA)介紹了GDB數(shù)據(jù)庫(kù),它由每條人類染色體的許多不同圖譜組成,包括細(xì)胞遺傳學(xué)、遺傳學(xué)、放射雜交和序列標(biāo)簽位點(diǎn)(STS)的內(nèi)容,以及由不同研究者用同種方法得到的圖譜。就位置查詢而言,如果不論其類型(type)和來源(source),或者是否它們正好包含用以批定感興趣的區(qū)域的標(biāo)志(markers),能夠搜索所有圖譜是有用的。為此目的,該數(shù)據(jù)庫(kù)使用了一種公用坐標(biāo)系統(tǒng)(common coordinate system)來排列這些圖譜。數(shù)據(jù)庫(kù)還提供了一張高分辨率的和與其他圖譜共享許多標(biāo)志的圖譜作為標(biāo)準(zhǔn)。共享標(biāo)志的標(biāo)之間的對(duì)應(yīng)性容許同等于所有其它圖譜的標(biāo)準(zhǔn)圖譜的分配。 Markowitz(Lawrence berkeley Laboratory,Berkeley,CA,USA)討論了分布式數(shù)據(jù)庫(kù)與局部管理的關(guān)系,以及用基于工具的方法開發(fā)分子生物學(xué)數(shù)據(jù)庫(kù)(MDBs)的問題。許多方案當(dāng)前正在促進(jìn)搜索多種不同來源MDBs的數(shù)據(jù),包括建立數(shù)據(jù)倉(cāng)庫(kù);這要求對(duì)各種MDBs的組合有一種全局觀,并從成員MDBs中裝填數(shù)據(jù)入中心數(shù)據(jù)庫(kù)。這些方案的主要問題是開發(fā)整體視圖(global views),構(gòu)建巨大的數(shù)據(jù)倉(cāng)庫(kù)并使集成的數(shù)據(jù)庫(kù)與不斷發(fā)展中的成員MDBs同步化的復(fù)雜性。Markowitz還討論了對(duì)象協(xié)議模型(object protocol model,OPM),并介紹了支持以下用途的工具:建立用于文本文件或者關(guān)系MDBs的OPM視圖;將MDBs作成一個(gè)數(shù)據(jù)庫(kù)目錄,提供MDB名稱、定位、主題、獲取信息和MDB間鏈接等信息;說明、處理和解釋多數(shù)據(jù)庫(kù)查詢。Karp(SRI international,Menlo Park,CA,USA)解釋了Ocelot,一種能滿足管理生物學(xué)信息需求的面向?qū)ο笾R(shí)陳述系統(tǒng)(一種面向?qū)ο笙到y(tǒng)的人工智能版)。Ocelot支持略圖展開(schema evolution)并采用一種新的*化并行控制機(jī)制(同時(shí)進(jìn)行多項(xiàng)訪問數(shù)據(jù)的過程),其略圖驅(qū)動(dòng)圖形編輯器提供了交互式瀏覽和編輯功能,其注釋系統(tǒng)支持?jǐn)?shù)據(jù)庫(kù)之間的結(jié)構(gòu)通訊。 Riley(Marine biological Laboratory,Woods Hole,MA,USA)在討論大腸桿菌蛋白質(zhì)的功能同時(shí),特別提到了GPEC數(shù)據(jù)庫(kù),它包括了由實(shí)驗(yàn)確定的所有E.coli基因的功能的信息。該數(shù)據(jù)庫(kù)中zui大比例的蛋白質(zhì)是酶,其次則為轉(zhuǎn)運(yùn)和調(diào)控蛋白。 Candlin(PE applied Biosystems,Foster City,CA,USA)介紹了一種新的存儲(chǔ)直接來自ABⅠPrism dNA測(cè)序儀的數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)BioLIMS。該系統(tǒng)可以與其它測(cè)序儀的數(shù)據(jù)集成,并可方便地與其它軟件包自動(dòng)調(diào)用,為測(cè)序儀與序列數(shù)據(jù)的集成提供了一種開放的、可擴(kuò)展的生物信息學(xué)平臺(tái)。 Glynais(NetGenics,Cleveland,OH,USA)認(rèn)為生物信息學(xué)中zui關(guān)鍵的問題之一是軟件工具和數(shù)據(jù)庫(kù)缺乏靈活性。但是,軟件技術(shù)的發(fā)展已得到了其它領(lǐng)域如金融業(yè)和制造業(yè)的發(fā)展經(jīng)驗(yàn)的借鑒,可以使來自不同軟件商的運(yùn)行于各種硬件系統(tǒng)的軟件共同工作。這種系統(tǒng)的標(biāo)準(zhǔn)是CORBA,一種由250多個(gè)主要軟件和硬件公司共同合作開發(fā)的軟件體系。聯(lián)合使用CORBA和Java可以開發(fā)各種通過一個(gè)公用用戶界面訪問任何種類的數(shù)據(jù)或軟件工具的網(wǎng)絡(luò)應(yīng)用軟件,也包括生物信息學(xué)應(yīng)用軟件。Overton不同意Glynias的這種想法,他強(qiáng)調(diào)說CORBA僅對(duì)軟件集成有用,不兼容的數(shù)據(jù)庫(kù)軟件可能是計(jì)算生物學(xué)所面臨的zui困難問題,一些制藥公司和數(shù)據(jù)庫(kù)倉(cāng)庫(kù)zui近資助了一項(xiàng)用OCRBA鏈接不同的數(shù)據(jù)庫(kù)的計(jì)劃[2,3]。 四、制藥先導(dǎo)的發(fā)現(xiàn) Burgess(Sturctural bioinformatics,San Diego,CA,USA)討論了填補(bǔ)基因組學(xué)和藥物設(shè)計(jì)之間鴻溝的蛋白質(zhì)結(jié)構(gòu)中的計(jì)算問題。在缺乏主要疾病基因或藥物靶的描述數(shù)據(jù)的情況下,藥物設(shè)計(jì)者們不得不采用大規(guī)模表達(dá)蛋白質(zhì)篩選方法;而結(jié)構(gòu)生物信息學(xué)則采用一種更為實(shí)用有效的計(jì)算方法直接從序列數(shù)據(jù)中確定靶蛋白質(zhì)的活性位點(diǎn)的精細(xì)結(jié)構(gòu)特征,它利用一種集成專家系統(tǒng)從現(xiàn)實(shí)的或虛擬的化學(xué)文庫(kù)中進(jìn)行迅速的計(jì)算篩選,可以達(dá)到一個(gè)很大的規(guī)模。 Elliston(Gene logic,Columbia,MD,USA)討論了治療藥物開發(fā)中發(fā)現(xiàn)新的分子靶的過程,著重討論了基因發(fā)現(xiàn)方法。他認(rèn)為,隨著日益臨近的人類基因組測(cè)序的完成,幾乎全部基因的特征將在序列水平得到揭示。但是,對(duì)基因的認(rèn)識(shí)將有賴于更多的信息而不僅僅是序列,需要考慮的*類信息是轉(zhuǎn)錄表達(dá)水平信息,而Gene logic 公司的GeneExpress就是一個(gè)由mRNA表達(dá)譜、轉(zhuǎn)錄因子位點(diǎn)、新基因和表達(dá)序列標(biāo)簽組成的數(shù)據(jù)庫(kù)。 Liebman(Vysis,Downess grove,IL,USA)介紹了Vysis公司開發(fā)的計(jì)算和實(shí)驗(yàn)方法,這些主法不僅用于管理序列數(shù)據(jù),而且被用于以下用途:分析臨床數(shù)據(jù)庫(kù)和自然—突變數(shù)據(jù)庫(kù);開發(fā)新的算法以建立功能同源性(區(qū)別于序列同源性)模擬生物學(xué)通路以進(jìn)行風(fēng)險(xiǎn)評(píng)估;藥物設(shè)計(jì)的靶評(píng)估;復(fù)雜的通路特性以便識(shí)別副作用;開發(fā)疾病發(fā)展的定性模型并解釋臨床后果。 隨著發(fā)現(xiàn)的新基因的日益增多,這個(gè)問題顯得格外重要:基因的功能是什么?Escobedo(Chiron technologies,Emeryville,CA,USA)提出了這個(gè)問題的一種方法:將分泌蛋白質(zhì)的基因的功能克隆與篩選這些克?。赡艿乃幬锇校┙Y(jié)合起來。在這種方法中,在微粒體cDNA文庫(kù)池中進(jìn)行體外翻譯避免了勞動(dòng)密集的克隆、表達(dá)和純化步聚,對(duì)文庫(kù)池中的翻譯產(chǎn)物在細(xì)胞水平進(jìn)行篩選,測(cè)試其在細(xì)胞增殖和分化中的作用。例如,在用這種方法識(shí)別的111個(gè)克隆中,56個(gè)屬于已知的分泌蛋白質(zhì),25個(gè)為膜相關(guān)蛋白,另外30個(gè)功能未知,可能是新的蛋白質(zhì)。一種相似的方法在轉(zhuǎn)移到小鼠模型系統(tǒng)中的基因傳導(dǎo)載體中構(gòu)建分泌蛋白質(zhì)的cDNA文庫(kù)來克隆特定的功能基因。 Ffuchs(Glaxo wellcome ,Research Triangle Park,NC,USA)討論了生物信息學(xué)更為廣義的影響:它不僅影響到新藥物靶基的發(fā)現(xiàn),還對(duì)改善藥物開發(fā)的臨床前期和臨床期的現(xiàn)狀重要性。*,涉汲數(shù)以千計(jì)病人的臨床試驗(yàn)(可能是藥物開發(fā)zui為花錢的部分)的設(shè)計(jì)不論多么仔細(xì),也不能為正確的藥物選擇正確的病人。而在基因組水平劃分病人群體的方法可以大大改善發(fā)現(xiàn)新藥的效率。Fuchs介紹了一種將病人的基因型和表型標(biāo)志結(jié)合起來以改善臨床前期和臨床期藥物開發(fā)過程的系統(tǒng)Genetic information System.他強(qiáng)調(diào)將遺傳學(xué)和生物信息學(xué)數(shù)據(jù)同化學(xué)、生物化學(xué)、藥理學(xué)和醫(yī)學(xué)數(shù)據(jù)連接起來的集成信息管理和分析方法是極其重要的。 Green (Human Genome Sciences,Rockville,MD,USA)介紹了他的測(cè)序工作中采用的數(shù)據(jù)管理工具?;?span lang="EN-US">EST的測(cè)序方法所面臨的挑戰(zhàn)是,在對(duì)幾百個(gè)cDNA克降重復(fù)測(cè)序之后,產(chǎn)生的數(shù)據(jù)堆積如山。由于大多數(shù)人類基因都是用這種方法發(fā)現(xiàn)并在么有數(shù)據(jù)庫(kù)中分類編排的,面臨的識(shí)別開放讀框、重疊序列的重疊圖譜、組織特異表達(dá)和低豐度mRNA基因的任務(wù)是令人生畏的。Human genome Sciences公司開發(fā)了一些可用戶化數(shù)據(jù)庫(kù)工具,在同一個(gè)數(shù)據(jù)庫(kù)中可包括以下功能:WWW上訪問和檢索數(shù)據(jù),序列拼接,臨視潛在藥物靶基因的研究進(jìn)展等。這些能夠管理多項(xiàng)任務(wù)——從注釋基因序列到成功開發(fā)基因產(chǎn)物進(jìn)入藥物發(fā)現(xiàn)的流程——的軟件工具,極其可望從一種基于基因組知識(shí)的藥物發(fā)現(xiàn)方法中得到新的藥物靶。 Summer-Smith(Base4 bioinformatics,Mississauga,Ontario,Canada)描述了一種相關(guān)的策略。藥物發(fā)現(xiàn)階段中所要求的軟件工具的任務(wù)是多樣化的,要能注釋基因,并闡明它的生理和病理功能及其商業(yè)潛質(zhì)。對(duì)這樣多種來源的信息的集成與分析,在派生的、項(xiàng)目取向的數(shù)據(jù)庫(kù)(project-specific database,PSD)中可以很好完成。由于項(xiàng)目貫穿于發(fā)現(xiàn)到開發(fā)全過程,其間又不斷加入背景的成員,PSD在項(xiàng)目的管理與發(fā)展中成為一種關(guān)鍵性的資源。 按照Smith(Boston university,Boston,MA,USA)的觀點(diǎn)[2],我們并不需要更快捷的計(jì)算機(jī)或更多的計(jì)算機(jī)科學(xué)家,而是需要更的生物學(xué)家和生物化學(xué)家來解釋序列的功能。這對(duì)有些軟件或硬件專家來說是個(gè)打擊,但生物學(xué)系統(tǒng)的復(fù)雜性是令人生畏的,并且對(duì)基因功能的認(rèn)識(shí)可能需要生物學(xué)方法和計(jì)算方法的結(jié)合。探索基因的功能很可能要花費(fèi)生物學(xué)家們數(shù)十年的時(shí)間,本次會(huì)議表明沒有任何單一的方法可以得出一個(gè)答案;但是,將計(jì)算生物學(xué)同大規(guī)模篩先結(jié)合起來識(shí)別一種化學(xué)靶物(hit)是一種產(chǎn)生化學(xué)工具來探索基因功能的方法,這些化學(xué)工具接下來就可以用作理解基因功能的“探針”。這種方法在Butt(Gene Transcription Technologies, Philadelphia, PA, USA)的描述中,既是一種檢查基因功能的簡(jiǎn)單方法,也是為潛在的藥物靶發(fā)現(xiàn)化學(xué)先導(dǎo)物的簡(jiǎn)單方法,他描述了一種可以在酵母中重建人類基因功能的酵母大規(guī)模篩選系統(tǒng)。在此系統(tǒng)中,可以迅捷地在一個(gè)化學(xué)文庫(kù)中發(fā)現(xiàn)配基。這種技術(shù)的重要特征是它不僅僅是發(fā)現(xiàn)一種藥物靶的配基的篩板(screen),相反,由于該系統(tǒng)的高速度,它也是發(fā)現(xiàn)先導(dǎo)靶基因的一種篩板。過去,世界上的制藥公司通常在某一時(shí)間內(nèi)僅能對(duì)有限數(shù)目(約20多個(gè))的藥物靶基因進(jìn)行工作,鑒于此,我們需要根本不同的方法如基因組學(xué)來打開通向“新”生物學(xué)的通路。由于機(jī)器人和合成化學(xué)的進(jìn)步,藥物發(fā)現(xiàn)中zui關(guān)鍵的問題不再是得到一種先導(dǎo)化合物(lead compound),而是得到導(dǎo)向靶基因。此次會(huì)議為從計(jì)算和實(shí)驗(yàn)方法中發(fā)展出的新生物學(xué)邁出很好的一步。 |