Sestavljanje transkriptoma in odkritje gena mesnatega stebla Cistanche Deserticola-Ⅰ

Ozadja

Cistanche deserticola je popolnoma nefotosintezna parazitska rastlina z veliko zdravilno vrednostjo in je razširjena predvsem v puščavi severozahodne Kitajske. Njegovo posušeno mesnato steblo je ključni tonik vtradicionalna kitajska medicinaz vlogami predvsem izboljšanja moške spolne funkcije in krepitve imunosti, vendar je bilo izvedenih le malo mehaničnih študij, deloma zaradi pomanjkanja genomskih in transkriptomskih virov.

Natural cistanche tubulosa

NARAVNA CISTANCHE TUBULOSA KITAJSKA TRADICIONALNA MEDICINA PHGS75% ECH 30% ACT 12%

Rezultati

V tej študiji smo izvedli globoko sekvenciranje transkriptoma v mesnatem steblu C. deserticola in približno 8 0 milijonov branj je bilo ustvarjenih z uporabo sekvenciranja na koncu para Illumina na platformi HiSeq2000. Z uporabo trinity monterja smo pridobili 95.787 transkriptnih zaporedij z dolžino transkripta od 200 bp do 15.698 bp, s povprečno dolžino 950 baz in dolžino N50 1.519 baz. 63.957 transkriptov je bilo identificiranih kot aktivno izraženih s FPKM, večjim od ali enakim 0,5, pri čemer je bilo 30.098 transkriptov označenih z opisi genov ali izrazi genske ontologije z analizami podobnosti zaporedja v več javnih bazah podatkov (Uniprot, NR in Nt pri NCBI in KEGG) . Poleg tega smo identificirali ključne encimske gene, vključene v biosintezo lignina in feniletanoidnih glikozidov (PhG), za katere je znano, da so primarne aktivne sestavine. Na podlagi primerjave sekvenc in filogenetske analize so bili identificirani štirje geni za fenilalanin amoniak-liazo (PAL), prvi ključni encim v biosintezi lignina in PhG. Prvič sta bili predlagani tudi dve poti biosinteze PhG.

Sklepi

V celoti smo zaključili globalno analizo transkriptoma mesnatega stebla C. deserticola z uporabo tehnologije RNA-seq. Iz sestavljenih in označenih transkriptov je bila identificirana zbirka encimskih genov, povezanih z biosintezo lignina in feniletanoidnih glikozidov, predvidena pa je bila tudi genska družina PAL. Podatki o zaporedju iz te študije bodo zagotovili dragocen vir za izvajanje prihodnjih raziskav biosinteze feniletanoidnih glikozidov in funkcionalnih genomskih študij v tej pomembni zdravilni rastlini.

Uvod

C. deserticola je svetovni rod trajnih puščavskih rastlin iz družine Orobanchaceae in je popolnoma nefotosintezna vrsta ter običajno raste podzemno holoparazitno rastlino. Parazitira na koreninah psamofita Haloxylon ammodendron (Chenopodiaceae), ki zaradi visoke odpornosti na sušo in slanost naseljuje predvsem puščave in polpuščave. C. deserticola kaže močno odpornost na težke okoljske razmere in je v glavnem razširjena na severozahodu Kitajske, zlasti v Notranji Mongoliji, Gansuju in Xinjiangu. V zadnjih letih velja za ogroženo divjo vrsto zaradi povečane porabe s strani ljudi. C. deserticola, ki se pogosto imenuje puščavski ginseng, je splošno znana kot puščavska metlica, posušeno mesnato steblo pa se na Kitajskem in Japonskem že vrsto let pogosto uporablja kot tradicionalno pomemben tonik. Prvotno je bilo zapisano v Shen Nong Ben Cao Jing (Slovar kitajske Materia Medica, 1977) pred približno 1800 leti in je veljalo za enega glavnih virovKitajsko zdravilno zelišče Cistanche.

Chinese cistanche tubulosa

NARAVNA CISTANCHE TUBULOSA ZA IZBOLJŠANJE SPOLNE FUNKCIJE PHGS75% ECH 30% ACT 12%

Izvlečki C. deserticola imajo širok spekter zdravilnih funkcij, zlasti za uporabo pri izboljšanju spolne funkcije, tonificiranju ledvic, zaščiti jeter, aperientnem delovanju, izboljšanju spomina, imunomodulatornem, antioksidativnem, protivnetnem, protivirusnem delovanju itd. Glavne bioaktivne sestavine C. deserticola so feniletanoidni glikozidi (PheG, PhG). Do danes je bilo iz sočnega stebla C.deserticola izoliranih več kot 20 feniletanoidnih glikozidov. Med njimi,akteozid in ehinakozidsta dve glavni komponenti s pomembnimi farmakološkimi aktivnostmi in sta dokumentirani kot standardi kakovosti C. deserticola v kitajski farmakopeji (izdaji 2005 in 2010). Tri kemične komponente PhG so organska kislina, saharid in feniletanoid, vendar pa podrobnosti o biosintetskih poteh feniletanoidov pri C. deserticola ostajajo slabo razumljene.

Kljub komercialnemu in medicinskemu pomenu C. deserticola so genomski in transkriptomski podatki te vrste zelo omejeni. V podatkovni bazi NCBI ni na voljo nobenih EST in popolne informacije o genomu za to vrsto ostajajo nedostopne, razen zaporedja genoma kloroplasta. Omejeni transkriptomski podatki ovirajo študij mehanizmov biosinteze PhG. Tehnologija RNA-seq lahko ustvari zaporedja izraženih delov ciljnega genoma in identificira gene [18] z uporabo tehnoloških platform NGS (kot so Applied Biosystems SOLiD, Illumina HiSeq in Roche 454). Postaja vse bolj priljubljen pri sestavljanju transkriptoma de novo, saj je stroškovno učinkovit in zmogljiv pristop z visoko ločljivostjo in širokim dinamičnim razponom, zlasti ker ima prednost pri raziskovanju transkriptov z majhno številčnostjo. Zaradi različnih prednosti je RNA-seq posebej privlačen za nemodelne organizme z omejenimi genskimi viri. Vendar pa ni podrobnih raziskav o transkriptomu C. deserticola z RNA-seq.

V tej študiji smo globalno sekvencirali transkriptom stebla za C. deserticola z uporabo platforme Illumina Hiseq2000 in dobili 7,9 G neobdelanih podatkov. S sestavljanjem in opombami smo izkopali gene, vključene v biosintezo PhG, in gene, odgovorne za celotno biosintezo lignina. Naša analiza RNA-seq je ustvarila prvi konsenzni transkriptom C. deserticola in zagotovila nove vpoglede v celovito razumevanje zdravilne vrednosti C. deserticola. Poleg tega se tukaj opisana metoda lahko široko uporablja za profiliranje transkriptomov, da se olajša odkrivanje genov, vključenih v specifične poti biosinteze zdravilnih komponent v drugi zdravilni rastlini z zelo omejenimi genomskimi viri.

Materiali in metode

Zbiranje rastlinskega materiala

Sveže sočno steblo C. deserticola v fazi izkopavanja je bilo zbrano iz rastlinske baze v mestu BayanHot v ligi Alxa v Notranji Mongoliji na severozahodu Kitajske. Dovoljenje za zbiranje je bilo pridobljeno od lastnika (HongKui CongRong Group) tovarniške baze. Vzorec vavčerja je bil deponiran v Core Genomic Facility na Pekinškem inštitutu za genomiko Kitajske akademije znanosti. Po čiščenju so bila sočna stebelna tkiva narezana na majhne koščke in takoj zamrznjena v tekočem dušiku ter nato shranjena pri -80 stopinjah do nadaljnje predelave.

Ekstrakcija RNA, konstrukcija knjižnice cDNA in sekvenciranje Illumina

Celotno RNK smo ekstrahirali iz sočnega stebla z uporabo reagenta TRIzol (Invitrogen Inc., Kalifornija, ZDA) v skladu z navodili proizvajalca. Nastale vzorce smo obdelali z DNazo I, da odstranimo morebitno genomsko DNK. Ekstrahirane RNA so kvantificirali z bioanalizatorjem Agilent 2100 (Agilent Technologies) in preverili celovitost z elektroforezo v denaturiranem agaroznem gelu z barvanjem z etidijevim bromidom. V naslednjih analizah so bili uporabljeni vzorci RNA z razmerji A260/A280 med 1,9 in 2,1, razmerji RNA 28S:18S, višjimi od 1,0, in številkami integritete RNA (RIN) -8.5.

Knjižnice RNA-seq so bile ustvarjene z uporabo kompletov za pripravo vzorcev RNA Illumina Truseq. Poly(A)+ RNA smo izolirali iz celotne RNA z uporabo kroglic Dynal ligo(dT)25 v skladu z navodili proizvajalca. Po čiščenju je bil dodan pufer za fragmentacijo, da se mRNA razbije na kratke fragmente. cDNA prve verige je bila sintetizirana z uporabo teh kratkih fragmentov kot predlog, skupaj z reverzno transkriptazo SuperScript III in N6 naključnim heksamernim primerjem. Drugoverižno cDNA smo nato sintetizirali z uporabo pufra, dNTP, RNAseH in DNA polimeraze I. Nastalo dvoverižno cDNA smo podvrgli končnemu popravljanju z uporabo T4 DNA polimeraze, DNA polimeraze I Klenow fragmenta in T4 polinukleotidne kinaze ter vezali na adapterji, ki uporabljajo T4 DNA ligazo. Fragmente, vezane na adapter, smo očistili z uporabo kompleta za ekstrakcijo QiaQuick PCR in eluirali z EB pufrom. Po analizi z elektroforezo v agaroznem gelu smo izbrali primerne fragmente kot predloge za PCR pomnoževanje. Sekvenciranje dobljene knjižnice cDNA je bilo izvedeno s sistemom Illumina HiSeq 2000.

Sestavljanje transkriptov de novo in kvantifikacija genske ekspresije

Neobdelani odčitki, ustvarjeni s sekvenciranjem, so bili očiščeni z odstranitvijo zaporedij adapterjev (ATCTCGTATGCCGTC) z interno metodo. Nato smo izvedli strog postopek filtriranja nizke kakovosti. Prvič, baze z oceno kakovosti phred, nižjo od 20, bi bile odrezane od 3'konca zaporedja, dokler ne naletijo na eno osnovo z višjo kakovostjo (večja ali enaka 20). Če bi bila dolžina branja krajša od 50 bp, bi bila zavržena. Drugič, branja bodo dodatno filtrirana po merilu, da ima 70 % baz v enem branju rezultate visoke kakovosti (večje ali enako 20). Tretjič, za nadaljnjo montažo so bili uporabljeni le branja s seznanjenim koncem. Sestavljanje transkripta De Novo je bilo izvedeno z izdajo Trinity _20130216 [30], ki je bila sestavljena iz treh zaporednih programskih modulov: Inchworm, Chrysalis in Butterfly. Parametri sestavljanja so bili nastavljeni kot spodaj:-seqType fq-JM 300G -min_contig_length 200-CPE 20-inchworm_cpu {{21} }bflyCPU 20.

Za količinsko opredelitev številčnosti transkripta so bili zaporedni odčitki na koncu para ponovno poravnani v sestavljene transkripte z uporabo skripta v Trinity. Preslikani odčitki so bili uporabljeni za kvantifikacijo s programsko opremo RSEM (RNA-Seq by Expectation Maximization). Številčnost gena ali izoforme je bila predstavljena z vrednostjo fragmenta na kilobazo transkripta na milijon preslikanih fragmentov (FPKM), tisti transkripti z vrednostjo FPKM, enako ali večjo od 0.05, so bili opredeljeni kot izraženi.

Funkcionalna anotacija izraženih transkriptov

Za C. deserticola ni nabora genskih oznak, razen za genom kloroplasta [1]. Izražene prepise smo označili tako, da smo jih primerjali z ločeno posodobljenimi nabori podatkov Genbank Nt, Genbank Nr in TAIR10_ pep_20101214_s programom BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Opomba genske ontologije in poti KEGG S poravnavo podobnosti zaporedja z bazo podatkov Uniprot ( opomba genske ontologije (GO) vseh sestavljenih transkriptov je bila pridobljena z uporabo asociacijske datoteke, prenesene iz (ftp://ftp.ebi.ac.uk/pub/ baze podatkov/GO/goa/UNIPROT_goa{1}}uniprot.gz). Kategorije CC, BP in MF ločeno.

Informacije o poti KEGG so bile dodeljene za vse predvidene beljakovinske sekvence z uporabo spletnega orodja KAAS (KEGG Automatic Annotation Server) [34]. Zaporedja v formatu fasta so bila predložena na zahtevo KAAS in nastale datoteke z vsemi informacijami o poteh, povezanih s transkriptomom stebla C. deserticola, so bile prenesene. 13 nizov genskih podatkov rastlinskih organizmov v KEGG je bilo uporabljenih za označevanje z uporabo metode BBH (bi-directional best hit).

cistanche tubulosa extract

NARAVNI IZVLEČEK CISTANCHE TUBULOSA CISTANCHE PHGS75% ECH 30% ACT 12%

Analiza RT-qPCR

Po prebavi z DNazo I je bilo približno 5 ug celotne RNA pretvorjeno v cDNA prve verige z reakcijo reverzne transkripcije s primerji oligo(dT)15 in GoScript Reverse Transcription System (Promega). Produkte cDNA smo nato 10--krat razredčili z deionizirano vodo brez nukleaz, preden smo jih uporabili kot predlogo v PCR v realnem času. Specifične cDNA smo pomnožili s sistemom GoTaq 2-Step RT-qPCR (Promega) v prostornini 20 ul. Pomnoževanje PCR je bilo izvedeno pri temperaturi žarjenja 60 stopinj s sistemom 7500 Real-Time PCR Detection System (Applied Biosystems) v skladu z navodili proizvajalca. Relativne količine transkriptov so bile izračunane z metodo praga primerjalnega cikla z genom "comp10579_c0" kot internim standardom z uporabo programske opreme 7500 Manager.

Pari primerjev za RT-PCR so bili zasnovani na spletni programski opremi (http://primer3.ut.ee/) in so navedeni v naboru podatkov S1.

Rezultati

Sekvenciranje RNA in de novo sestavljanje transkriptoma mesnatega stebla C. deserticola

Steblo C. deserticola se na Kitajskem in Japonskem že vrsto let pogosto uporablja kot tradicionalno pomemben tonik. Da bi pridobili globalni pregled izražanja genov v mesnatem steblu C. deserticola, smo v letih 2013 in 2014 zbrali vzorce stebla C. deserticola iste rastlinske baze. Celotne RNA smo ekstrahirali in poliA+ RNA očistili za konstruiranje knjižnic RNA-seq na parnem koncu. 79.433.734 in 86.019.176 branj na koncu para, ki ustrezajo skoraj 8 milijardam in 8,6 milijardam baz zaporedja, je bilo pridobljenih s sekvenciranjem Illumina HiSeq 2000

platformo v vzorcih 2013-leto in 2014-leto (tabela 1). Po odstranitvi zaporedij adapterjev in filtriranju odčitkov nizke kakovosti (glejte podrobnosti v Metodah) je bilo za sestavljanje transkriptoma de novo uporabljenih 64.831.040 odčitkov na koncu para v 2013-letnem vzorcu visoke kakovosti. Z uporabo sestavljalnika sekvenc Trinity [30] je bilo ustvarjenih 51.719 genov in 95.787 transkriptnih zaporedij z dolžino transkriptov v razponu od 200 bp do 15.698 bp. Povprečna dolžina sestavljenih transkriptov je 950 baz, dolžina N50 pa 1519 baz. Število transkriptov različnih dolžin je pokazalo, da je bilo 57,32 % sestavljenih transkriptov približno 500 bp ali več (slika 1A). Visokokakovostni odčitki na koncu para v 2014-letnem vzorcu so bili preslikani v sestavljeni transkriptom. Poleg tega smo ugotovili, da se število transkriptov za vsak sestavljen gen spreminja in 69% genov z eno izraženo izoformo, medtem ko 31% genov izraža dva ali več transkriptov (slika 1B).

Kvantifikacija izražanja in funkcionalna označba sestavljenih transkriptov

Številčnost genov ali transkriptov je bila kvantificirana z uporabo paketa RSEM, v katerem so bili sekvencirani odčitki ponovno poravnani z sestavljenimi geni ali zaporedji transkriptov z uporabo Bowtieja, ti preslikani odčitki pa so bili uporabljeni za kvantifikacijo. Izračunana je bila vrednost FPKM za vsak gen ali transkript in nazadnje smo identificirali 63.957 in 52.857 aktivno izraženih transkriptov (vrednost FPKM večja ali enaka 0.5) v vzorcih mesnatega stebla C. deserticola v 2{{17} }13 oziroma 2014. 44.776 transkriptov (70,01 % v 2013-letnem vzorcu, 84,71 % v 2014-letnem vzorcu) je bilo običajno izraženih v dveh ponovitvah, korelacija (Pearsonov korelacijski koeficient: 0,91979) njihovih podatkov o izražanju pa je bila prikazano na sliki S1. Neobdelani podatki sekvenciranja so bili naloženi v bazo podatkov NCBI SRA (pristopni številki: SRX857402 in SRX858938). Za nadaljnjo analizo smo uporabili izražene gene, identificirane v 2013-letnem vzorcu. Informacije o funkcionalnih opombah za vse izražene transkripte so bile pridobljene z uporabo dveh metod. Prvič, vsi izraženi transkripti so bili ločeno usklajeni z znanimi bazami podatkov o nukleotidih (GenBank nt) in peptidnih sekvencah (GenBank nr in peptid Arabidopsis) z algoritmom BLAST. Od 63.957 izraženih prepisov,

29.220 (45,7 %) je bilo označenih in je pokazalo homologijo z zaporedji v kateri koli od treh predmetnih zbirk podatkov z mejno vrednostjo E 1e-20. Medtem so bile kandidatne kodirne regije za vse izražene transkriptne sekvence predvidene s programsko opremo TransDecoder, najdaljši ORF za vsak transkript pa so bili uporabljeni za iskanje domene Pfam. Posledično je bilo 21.358 (33,4 %) transkriptov označenih na podlagi baze podatkov Pfam. Na splošno se je 30.098 (47,1 %) transkriptov znatno ujemalo z znanimi geni v javnih zbirkah podatkov s kombinacijo obeh zgornjih metod. Celoten seznam izraženih prepisov z opombo funkcije je bil prikazan v dodatnih podatkih (nabor podatkov S2).

Raziskali smo 20 najbolj izraženih transkriptov (tabela 2), ki ustrezajo 18,99 % vseh odčitkov sekvenciranja, in ugotovili, da je večina od njih genov, ki se odzivajo na abiotske

stresni dražljaj. Dehidrin (DHN), razred hidrofilnih in termostabilnih stresnih proteinov z velikim številom nabitih aminokislin, ki spadajo v skupino II skupine LEA (Late Embryogenesis Abundant), je najbolj izražen gen. Trije različni transkripti Dehyrina (comp28713_c0_seq1/2/4) so bili odkriti kot močno izraženi v mesnatih steblih, ki so lahko vključeni v zaščito celic pred poškodbami, ki jih povzroča sušni stres. Ugotovljeno je bilo tudi, da so drugi geni, povezani s stresom, kot so beljakovine toplotnega šoka, beljakovine, povezane s patogeni, in metalotionein močno izraženi, kar je lahko povezano z njegovim težkim okoljem za preživetje. Poleg tega so nekateri konstitutivni geni, vključno z genom 26S ribosomske RNA (komp22329_c2_seq1), beljakovine, potlačene z avksinom/povezane z mirovanjem (komp20999_c0_seq1), ADP-ribozilacijski faktor (komp20499_ c0_seq1) je bil prav tako visoko prepisan.

Cistanche tubulosa extract