Kui palju keelt on geneetilises keeles?

Mart Viikmaa


Käesolev tekst sai ette kantud kevadkoolis Scola Biotheoretica XXII. Elu keeled ning on avaldatud selle artiklikogumikus (1996).

Sissejuhatus

Geneetiliselt põhjendatud ontogeneesiteooria kohaselt kulgeb organismi areng preformeeritud epigeneesi põhimõttel -- valdav osa organismilisi struktuure ja funktsioone (tunnuseid) kujuneb indiviidi arengus, kuid päritud geneetilise informatsiooni alusel. See informatsioon on liigendunud diskreetsete üksuste, geenide kujul. Molekulaargeneetika tekkel selgus, et geneetiline informatsioon on salvestatud genoomi DNA-molekulide nukleotiidijärjestustes. Siis tekkis ka kohe probleem, kuidas determineerib lineaarselt (st. ühemõõtmeliselt) kodeeritud informatsioon areneva organismi 4-mõõtmelise (so. ajalis-ruumilise) organisatsiooni. Ruumilise transformatsiooni esmaetapp sai põhimõttelise seletuse, kui selgus, et geenid ekspresseeruvad RNA ja valkude kaudu, mille molekulid ja nende agregaadid on kolmemõõtmelised moodustised. Geenide valgulise translatsiooni avastamine tõi kasutusele geneetilise koodi mõiste. Juba varasemast ajast oli teada, et osa geenide ekspressioon toimub ainult teatud arenguetappidel, osa aga ekspresseerub valikuliselt erinevate kudede ja organite rakkudes. Järk-järgult arenes kujutlus kaht tüüpi informatsioonist genoomis: 1) instruktiivne informatsioon, mille üksused (nn. struktuurgeenid) määravad otseselt raku (organismi) struktuure ja funktsioone, ja 2) signaalne (e. elektiivne) informatsioon, mille elemendid (nn. regulaatorgeenid) kontollivad, millal, kus ja mil määral esimene realiseerub. Sealjuures võivad ühe koe rakkude regulaatorgeenid signaalmolekulide abil kontrollida teiste kudede struktuur- või regulaatorgeenide ekspressiooni. Sellest kõigest järeldub, et geneetilises struktuuris peavad eksisteerima märgisüsteemid, mille vahendusel toimub üksikute elementide äratundmine, kontroll ja informatsiooni teisendamine ning suunitletud edastamine. Ühtede või teiste eelmainitud nähtuste kirjeldamisel on leitud keele analoogiaid, mis põhjustas mõningate lingvistiliste terminite (transkriptsioon, translatsioon, kood) juurutamise molekulaarbioloogias. Geneetilise keele mõiste samastub mõne teadlase käsituses geneetiline koodiga, teistel on aga hoopis laiema tähendusega. Allpool vaatleme, mil määral võib keelelisi analooge geneetilistes nähtustes leida.

Mida keel tähendab?

Tõelised keeled on muidugi need, mida inimesed kõnes või kirjas pruugivad. Kuid kevadkooli teema eeldab keele mõiste rakendamist üldisemas tähenduses. Siin nimetame keeleks sellist märgisüsteemi, milles on tuvastatavad mingid süntaksi ja semantika (ning osaliselt ka pragmaatika) elemendid. Märgi all mõistame mis tahes objekti või signaali, mis esindab või tähistab mingit muud objekti (sh. ka tegevust), selle omadusi või tähendust. Siinjuures rõhutan, et märkide keelelisus seisneb märgi ja objekti seose tinglikkuses (nö. vabas tahtes" või kokkuleppelisuses"), mis ei tulene, vähemalt mitte otseselt, objekti füüsikalis-keemilisest olemusest. Näiteks objekti, mille märgiks eestlastel on sõna laud, tähistatakse teistes keeltes sõnadega stol, table, Tisch ja ilmselt mitmel tuhandel muul viisil. Kuid näiteks õhurõhu kiiret langemist kui läheneva tormi märki ei saa pidada keeleliseks märgiks, sest lokaalne madalrõhk on tsükloni ja sellega tavaliselt kaasneva tormituule enda füüsikaline tunnus.

Eeltoodust lähtuvalt püüan keele mõttes vaadelda mõningaid geneetilisi nähtusi. Ma kasutan sealjuures võrdlusi inimkeele mõistetega, mis on mõistagi tinglik, kuid aitab ehk paremini tabada vaadeldavate nähtuste olemust. Geneetilise infoprogrammi keelelisuse mõistmisel tasub meenutada, et peale tõeliste inimkeelte on olemas mitmesugused tehiskeeled. Siin on kõige huvipakkuvam mainida kompuutrite juhtimiseks kasutatavaid programeerimiskeeli. Neis on tavaliselt märksõnad ehk viidad (menüüd), mis võimaldavad valida erinevaid alamprogramme, protseduure ja funktsioone, viimaste leidmist võimaldavad märksõnad (labels), suunised protseduuride läbimise järjekorrale, käsusõnad (- laused) kindlate operatsioonide teostamiseks ja teisendusjuhised ühtedelt märkidelt teistele üleminekuks (nt. numbritelt stringidele). Tundub, et geneetiline keel on kõige paremini võrreldav just mingit laadi keeruka programmeerimiskeelega.

Geneetilise keele kaks tasandit

Geneetilist informatsiooni säilitatakse ja pärandatakse põlvkondade reas genoomi DNA lineaarsetes nukleotiidijärjestustes. Tähenduslikeks infoüksusteks (nö. geneetilise keele sõnad) on geenid, mis on üksteisest tavaliselt eraldatud ulatuslike mittekodeerivate järjestustega. Kohati on teatud tüüpi (enamasti struktuurilt homoloogsed ja funktsioonilt sarnased) geenid tihedamalt koos, moodustades nn. geeniklastreid. Valdav osa eukarüootseid geene on katkelise struktuuriga, st. neis vahelduvad kodeerivad ja mittekodeerivad järjestused (nn. eksoonid ja introonid), mille piire tähistavad erilised nukleotiidijärjestused. Geenide juurde (enamasti nende alguse ehk 5'-otsa lähedale) kuuluvad mitmesugused nukleotiidirühmad, mis võimaldavad transkriptsioonifaktoritel geeni ära tunda ja tagavad geeni ekspressiooniintensiivsuse kontrolli võimaluse. Need äratundmis- ja regulatsioonisaidid (ehk -märgid) on osalt universaalsete järjestusmotiividega, osalt aga geeni- või geenirühma spetsiifilised. Samuti on geenides teatud kohtadel nende (transkriptsiooni) lõppu ja paljudel juhtudel ka polü-A ahela lisamist tähistavad signaaljärjestused. Kõigil neil äratundmis- ja kontrollimärkidel, aga ka geenide paiknemisseostel on leitavad teatavad grammatilised funktsioonid. See geneetilise keele tasand on võrreldav inimkeele kirjutatud tekstidega.

Geneetiline informatsioon toimib RNA- ja valgumolekulide struktuursete ja funktsionaalsete omaduste kaudu. See tasand on võrreldav kõneldava inimkeelega. Sellel tasemel ilmneb geenide bioloogiline tähendus (st. semantika). Üleminek geenide tasemelt sellele ekspresioonitasandile toimub transkriptsiooni (RNA sünteesi) ja valkude puhul veel translatsiooni (polüpeptiidide sünteesi) kaudu. Nendega kaasnevad mitmesugused teisendused. Väga olulise tähendusega (eriti eukarüootidel) on esmase transkripti töötlus (nn. RNA protsessing, sh. splaissing), mille puhul vastsünteesitud RNA molekul tükeldatakse fragmentideks, millest osa läheb käiku töötavate molekulidena. mRNA moodustamisel ühendatakse osa fragmente uueks molekuliks, kusjuures sageli toimib siin teatud valikulisus, nii et ühelt geenilt võidakse saada isegi samas rakus, kuid sagedamini erinevate kudede rakkudes, erinevaid mRNA (ja järelikult valgu) molekule. Neid töötlusprotsesse teostavad geneetiliselt determineeritud RNA-valk kompleksid, mis võivad olla koespetsiifilised.

Geneetiline kood

Geneetiline printsiip, mida hakati geneetiliseks koodiks nimetama, oli esimesi sügavalt keelelaadne nähtus, mille molekulaarbioloogia näitelavale tõi. Algul postuleeriti ta teoreetiliselt, seejärel tõestati ja selgitati eksperimentaalselt. Geneetiline kood on vahendussüsteem, mille abil toimub geneetilise informatsiooni ülekanne geenide nukleotiidijärjestustest valkude aminohappejärjestustesse mRNA translatsioonil. Jätame siinkohal tähelepanuta tõenäolise võimaluse, et geneetilise koodi tekke ja arengu algperioodil võis eksisteerida mingi füüsikaline determinatsioon koodonite ja aminohapete vastavuse kujunemisel, ja konstateerime seda, et praegusestes geneetilistes süsteemides on see vastavus suuresti märgiliselt tinglik. Kuigi geneetiline kood on üldiselt universaalne (millest võiks järeldada olemasolevate vastavuste ainuvõimalikkust), on selles siiski mõningad erandid mitokondriaalse koodi näol. Tuuma ja mitokondriaalse koodi võrdlemisel näeme, et üks ja sama nukleotiidne koodon võib tähistada erinevaid aminohappeid või kord tähistada mingit aminohapet ja teisal olla terminaatoriks (nonsenskoodoniks). Seda märgilisust tõestavad ka näiteks supressormutatsioonid, mille puhul muteerunud tRNA molekul viib mingi koodoniga vastavusse muu aminohappe, kui seda teeb normaalne tRNA. Geneetilist koodi kui märkide vastavussüsteemi võib võrrelda selliste inimkeeltest tuntud koodidega nagu on kirjatähtede ja (hääldatavate) foneemide vastavus või Morse ja tavaliste kirjatähtede vastavus. Et informatsiooni ühest kodeerimissüsteemist teise üle kanda, peab eksisteerima vahendaja, kes/mis mõlemat märgisüsteemi tunneb ja teostab vastavad teisendused. Raku geneetilistes süsteemides on neiks dekodeerijateks aminoatsüül-tRNA-süntetaaside ja tRNA-molekulide komplektid.

Kuigi geneetiline kood nagu inimkeele kirjakoodidki on keele element, ei ole ta siiski veel keel täies tähenduses. Keelele on omane grammatika. Tõsi küll, ka geneetilises koodis on elemendid, millel on teatud grammatiline funktsioon. Nendeks on initsiaatorkoodon (nö. sõna alguse märk) ja terminaatorkoodonid (sõna lõpu märgid). Kuid geneetilises süsteemis on muudki, mis väljendab tema keelelisust.

Geneetilise keele süntaks

Süntaks tähendab märgisüsteemi struktuuri ja märkide moodustamise, kombineerimise ning teisendamise reegleid. Genoomi tasandil võib süntaktilisi printsiipe leida geenide ja nendega seotud rekognitsiooni- ning regulatsioonisaitide vastastikuses paiknemises. Näiteks enamiku geenide ees, st. transkriptsiooni 5'-otsast ülesvoolu paiknevad reeglipäraste (kuigi mitte konstantsete) vahemaadega promootorsaidid, nn. TATA-, CAAT- ja GC-boks, mis koostoimes neid tundvate transkriptsioonifaktoritega määravad geeni transkripsiooni alguspunkti (mis võib olla varieeruv) ja tema transkribeeritavuse kindla intensiivsusega. Paljudel arengu- ja koespetsiifilistel geenidel on lisaks veel nn. indutseerivad (inducers) ja võimendussaidid (enhancers), mis võivad paikneda geenist kaugel, kuid ka isegi geeni sees. Nende lokalisatsioonist sõltub, kas nad toimivad ainult ühe geeni või naabergeenide või terve geeniklastri ekspressioonile. Immuunglobuliinigeenide klastris asuvad võimendussaidid globuliini konstantse osa geenides ja käivitavad vastava klassi immuunglobuliini ühendgeeni ekspressiooni genoomse protsessingu järel, kui nad on variaabli osa geenide ees paiknevatele promootoritele piisavalt lähedale viidud.

Laiema süntaktilise tähendusega võib olla geenide klasterjärgnevus. Näiteks hemoglobiini alfa- ja beetatüüpi globiinide geenid asuvad eraldi klastrites, kuid kummaski geenide järjestusega, mis vastab nende ekspressioonijärjekorrale ontogeneesi erinevatel (embrüonaalsel, fetaalsel ja adultsel) etappidel. Veelgi ilmekam on nn. homeobox-geenide (imetajatel hox-geenide) paiknemine klastrites. Need on kogu loomariigile omased geenid, mis determineerivad organismi kui terviku (nt. teljelist) ja tema üksikosade (nt. pea ja jäsemete) arhitektoonikat. Nende klastrite geenid paiknevad ja aktiveeruvad sellises järjekorras, mis on paralleelne nende poolt kontrollitavete keharegioonide asukoha ja arengujärgnevusega keha (või kehaosade) anterio-posteriaalse telje suhtes.

Oluline süntaktiline printsiip on ka geenide kaskaadne aktivatsioon, mille puhul mingi signaal (hormoon või histogeneetiline induktor) käivitab kindlas järjekorras paljude asjaomaste geenide aktivatsiooni. Seda nähtust tagab see, et ühes aktiveeritavas geenigrupis on geenid, mis kodeerivad teiste geenide ekspresiooni spetsiifilisi aktivaatoreid. Selline asjadekäik on võrreldav inimkeeles sellega, et eri sõnad ja sõnaliigid ühendatakse lauseteks iseloomulikus mõttekas järjekorras.

Geneetilise keele süntaktilised nähtused ilmnevad ka transkriptide töötluses ja lõpp-produktide omadustes. See väljendub näiteks osa geenide puhul toimuvas alternatiivses splaissingus, kus esmasest transkriptist väljalõigatud eksoonjärjestused ühendatakse mRNAsse erinevates komplektides. Nii saadakse ühelt geenilt erinevaid valke, kas ühes ja samas rakus või erinevate kudede rakkudes. See alternatiivsus on tingitud kas eksoon-introon-piiri erilistest signaalidest või erinevatest ribonukleoproteiidsetest splaissingufaktoritest, mis võivad olla ka koespetsiifilised. Siin võib teha võrdluse lihtsõnade erineva kombineerimisga liitsõnadesse.

Polüpeptiidsete geeniproduktide süntaktiliste tunnuste hulgas on eriliste liiderjärjestuste olemasolu või puudumine. Selle signaali alusel suunavad tsütoplasmas olevad ribonukleoproteiidsed osakesed (7SL-RNAd sisaldavad signal recognition particles) osa polüpeptiide kohe nende sünteesil tsütoplsmavõrgustiku kanalitesse, kus (või hilisema töötluse järel Golgi kompleksis) nad järjekordselt sorteeritakse erineva suunamispaiga järgi (nt. lüsosoomi-, membraani- ja sekreetvalgud). See nähtus on võrreldav sõnaliikide eristamisega või sõnade kontekstuaalse või stilistilise valikuga lausetesse.

Geneetilise keele semantika

Genoomi rekognitsiooni- ja regulatsioonisaitide tähenduse määrab interaktsioon erinevate transkriptsiooni- ja protsessingufaktoritega, mis neid ära tunnevad. Erinevatel geenidel võivad olla väikeste järjestuserinevustega sarnased regulatsioonisaidid. See tingib näiteks asjaolu, et üks ja sama aktivaatorsignaal (nt. hormoon) käivitab mitme geeni ekspressiooni, kuid erineva intensiivsusega. Mõne signaaljärjestuse mitmetähenduslikkus võib põhjustada transkriptsiooni initsiatsiooni- ja terminatsioonipunktide või ka splaissingu alternatiivsuse.

Geeniproduktide semantika on otseselt määratud nende monomeeride (ribonukleotiidide ja aminohapete) järjestustega, mis determineerivad nende struktuursed ja funktsionaalsed omadused ning nende koha erinevates rakusisestes või rakuvälistes konstruktsioonides ja protsessides. Võiks mainida veel seda, et sama bioloogilist funktsiooni võivad eri liiki organismides (aga mõnikord ka sama organismi erinevate kudede rakkudes) täita ka erineva primaarjärjestusega molekulid (vrd. sünonüümsõnadega).

Geneetilise keele pragmaatika

Semiootiline pragmaatika tähendab märgisüsteemi seost selle kasutajatega. Hulraksete organismide genoomis on informatsioon kogu organismi (ja sealjuures valdavalt mõlemat sugu organismide) arengu ja talitluse kohta. Kuid organismi erinevates kudedes (ja osaliselt erinevat sugu organismides) kasutatakse sellest mingil määral erinevaid geenikomplekte (nö. erinevaid alamprogramme). Sealjuures võivad ka samad geenid avalduda erineva süntaktilise või semantilise spetsiifikaga, kas erineva töötluse tõttu või sõltuvalt interaktsioonidest geenide erinevates ekspresioonikeskkondades (nö. kontekstist). Peale selle on eri tüüpi geneetilistes süsteemides (eri liiki organismide genoomis, mitokondriaal-, plastiid- ja viirusgenoomis) mitmesuguseid erinevusi kogu genoomi ja geenide struktuuris ning nende regulatsiooniprintsiipides, mis tulenevad fülogeneetilistest, ökoloogilistest ja organisatsioonilistest põhjustest või ainelis-energeetilise kompaktsuse erinõuetest.

Kirjandus


Seda ettekannet läbiv idee ühest mitmetasandilisest (erivormilisest) geneetilisest keelest sattus kevadkoolis tugeva rünnaku alla. Selle probleemi lahendamiseks korraldati arutlusõhtu "Üks või mitu geneetilist keelt", kus ma pidin seisma auditooriumi ees ja tõrjuma või aktsepteerima vastuväiteid. Kahjuks lahendust ei leitud. Mina ei näinud veenvaid argumente loobumaks ühe keele kontseptsioonist. Aga oponente ei suutnud ma selles vist veenda.