機器學(xué)習(xí)“牽手”無細(xì)胞表達:酶工程的超級加速器
生物催化劑在能源、材料和醫(yī)藥領(lǐng)域具有重要應(yīng)用,如何高效、精準(zhǔn)地設(shè)計并篩選出具有特定功能的生物催化劑一直是研究熱點。然而,當(dāng)前酶的定向進化方法存在很多局限性,設(shè)計與篩選過程往往耗時費力,且受限于生物體內(nèi)復(fù)雜的遺傳與環(huán)境因素。因此,開發(fā)一種高效、靈活且可控的生物催化劑設(shè)計與篩選平臺顯得尤為重要。
今天,小編將和您分享一篇今年發(fā)表于《Nature Communications》上的文獻“Accelerated enzyme engineering by machine-learning guided cell-free expression”,該文獻介紹了一種全新的高通量方法,用于探索化學(xué)空間多個區(qū)域的適應(yīng)度景觀,以實現(xiàn)生物催化劑的前瞻性設(shè)計。(注:適應(yīng)度景觀是一種理論模型,它將每個可能的蛋白質(zhì)序列映射到一個適應(yīng)度值上。適應(yīng)度可以理解為該蛋白質(zhì)在特定環(huán)境下的功能表現(xiàn)或生存優(yōu)勢。)

一、研究背景
酶工程旨在通過改造蛋白質(zhì)序列來增強天然功能或賦予新功能,傳統(tǒng)定向進化方法通過反復(fù)突變與篩選優(yōu)化酶性能,但存在顯著瓶頸:
1.序列空間探索受限,低通量篩選難以覆蓋序列空間,可能遺漏關(guān)鍵協(xié)同突變;
2.多目標(biāo)優(yōu)化困難,單一酶需適配多種底物或反應(yīng)(如合成不同藥物分子),但現(xiàn)有方法難以并行優(yōu)化多個功能目標(biāo);
3.數(shù)據(jù)生成效率低,構(gòu)建高質(zhì)量序列-功能數(shù)據(jù)集需合成并測試海量突變體,傳統(tǒng)方法依賴于體內(nèi)表達系統(tǒng),但這一過程受到細(xì)胞生長周期、穩(wěn)態(tài)條件及生產(chǎn)適應(yīng)性等多重因素的制約,導(dǎo)致篩選效率低下且成本高昂。
盡管機器學(xué)習(xí)為酶設(shè)計提供了新思路,但如何高效構(gòu)建大規(guī)模序列-功能數(shù)據(jù)集仍是核心挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn),研究團隊開發(fā)了一個集成無細(xì)胞DNA組裝、無細(xì)胞蛋白表達和蛋白功能分析的平臺,能夠快速生成新的適用性蛋白序列并快速驗證這些新蛋白序列的實際功能,并優(yōu)化多種不同化學(xué)反應(yīng)的酶。

圖1:機器學(xué)習(xí)指導(dǎo)的無細(xì)胞酶工程平臺
二、無細(xì)胞表達技術(shù)的突破性作用
無細(xì)胞表達系統(tǒng)作為一種新興的生物技術(shù)平臺,為生物催化劑的設(shè)計與篩選提供了新的解決方案。該系統(tǒng)能夠在體外環(huán)境中快速合成并測試蛋白質(zhì),不受細(xì)胞生長周期及穩(wěn)態(tài)條件的限制,因此具有更高的靈活性和可控性。在本篇文獻中,研究團隊利用無細(xì)胞表達系統(tǒng)結(jié)合機器學(xué)習(xí)算法,構(gòu)建了一個高通量的生物催化劑設(shè)計與篩選平臺。該平臺能夠在短時間內(nèi)合成并測試大量具有不同序列的蛋白質(zhì),并通過機器學(xué)習(xí)算法預(yù)測并篩選出具有催化性能的候選者。這一方法不僅顯著提高了篩選效率,還降低了成本,為生物催化劑的前瞻性設(shè)計提供了有力支持。
具體來說,本研究通過以下創(chuàng)新解決了現(xiàn)有酶工程的技術(shù)難點:
1. 高通量無細(xì)胞系統(tǒng)
利用無細(xì)胞DNA組裝與表達,用于構(gòu)建定點飽和、序列明確的蛋白質(zhì)庫。工作流程包括五個步驟:通過PCR引入突變、DpnI消化親本質(zhì)粒、 Gibson組裝形成突變質(zhì)粒、第二次PCR擴增線性DNA表達模板(LETs)、通過CFE(無細(xì)胞蛋白表達系統(tǒng))表達突變蛋白。該方法可在一天內(nèi)構(gòu)建數(shù)百到數(shù)千個序列明確的蛋白質(zhì)突變體,并可通過快速迭代積累突變。此外,使用單體超穩(wěn)定綠色熒光蛋白(muGFP)驗證了該工作流程,針對四個已知對穩(wěn)定性和熒光重要的殘基進行突變。實驗結(jié)果表明,該方法對引物設(shè)計偏差具有高容忍度,并且所有預(yù)期突變均成功引入。
2. 機器學(xué)習(xí)模型加速設(shè)計
基于單突變數(shù)據(jù)訓(xùn)練增強嶺回歸模型,并使用歸一化折損累積增益(NDCG)評估模型預(yù)測性能,結(jié)合進化與物理化學(xué)特征編碼,成功預(yù)測多突變組合的活性。模型從80個單突變數(shù)據(jù)中推斷高階突變,實驗驗證顯示預(yù)測變體的活性提升達1.6-42倍(如抗抑郁藥莫氯貝胺的轉(zhuǎn)化率從12%提升至96%)。

圖2:工作流程示意圖
3. 并行優(yōu)化多反應(yīng)目標(biāo)
研究團隊開發(fā)了一個能夠加速生物催化反應(yīng)并顯著減少篩選的工作量的并行優(yōu)化流程,他們選擇了具有底物普適性的酶McbA作為研究對象,通過并行處理多個反應(yīng),同時測試不同的突變體,從而快速識別出具有更高催化活性的突變體。為了進一步提高篩選效率,研究者們采用了機器學(xué)習(xí)技術(shù)來預(yù)測突變體的催化活性。通過訓(xùn)練模型,根據(jù)突變體的序列信息預(yù)測其催化活性。并且能夠在實驗前對突變體進行初步篩選,從而減少了實驗驗證的工作量。相比于ISM(iterative saturation mutagenesis)單獨使用,此框架顯著加快了工程進度,可在一周內(nèi)同時完成六種酶的改造任務(wù),突變體的產(chǎn)量提高了1.6到34倍。另外,該方法成本低廉(每10微升反應(yīng)僅需幾分錢)且具有高可擴展性。

圖3:用于McbA機器學(xué)習(xí)引導(dǎo)的蛋白質(zhì)工程策略
總結(jié)與展望
本研究將無細(xì)胞系統(tǒng)的高通量優(yōu)勢與機器學(xué)習(xí)的預(yù)測能力結(jié)合,用于生物催化劑的前瞻性設(shè)計。實現(xiàn)酶工程從單目標(biāo)到多任務(wù)的跨越式發(fā)展,為可持續(xù)生物制造注入新動力。不僅突破了傳統(tǒng)酶工程的效率瓶頸,使其同時具備速度與通量、精準(zhǔn)預(yù)測能力等,還顯著提高了生物催化劑的設(shè)計與篩選效率,為綠色化學(xué)與定制化生物催化劑開發(fā)提供了全新范式。隨著技術(shù)的不斷進步和創(chuàng)新,無細(xì)胞表達系統(tǒng)有望為生物技術(shù)領(lǐng)域帶來更多機遇和挑戰(zhàn)。
參考文獻:Landwehr, G.M. et al. Accelerated enzyme engineering by machine-learning guided cell-free expression. *Nat. Commun.* **16**, 865 (2025).
相關(guān)產(chǎn)品
免責(zé)聲明
- 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其他來源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。