1. Secventele de nucleotide şi semnalele nucleotidice
Printre realizările stiinţifi ce de seamă care au marcat trecerea în secolul al 21-lea, se numără, desigur, si completarea secvenţierii genomului uman, i^ncheiată oficial prin publicarea simultană, în numerele din februarie 2001 ale revistelor Nature si Science, a două articole prezentând rezultatele din punctele de vedere ale celor doi competitori, Consorţiul Internaţional al Proiectului Genomul Uman (HGP) – care abordase provocarea cu aproape zece ani anterior si fi rma Celera Genomics din Rockville, Maryland, Statele Unite – intrată în cursă de numai trei ani. Acesta a fost, i^nsă, numai unul din succesele descrierii, la scara secvenţelor de nucleotide, a structurii moleculelor de ADN si ARN, purtătoarele informaţiei genetice din celule si virusuri. Analiza genomică moleculară a continuat într-un ritm accelerat, antrenând cercetători din întreaga lume într-un efort fără precedent, orientat nu numai spre adăncirea cunoasterii în biologie si medicină, dar si spre scopul imediat de-a aduce medicina moleculară mai aproape de practica clinică. În prezent, datele noi de secvenţiere sunt îndreptate spre INSDC – International Nucleotide Sequence Database Collaboration, http://www.insdc.org), organizaţie centrată pe trei mari baze de date: GenBank a NIH – National Institute of Health, Statele Unite (http://www.ncbi.nlm.nih.gov), EMBL – Laboratorul European Biologie Moleculară, Hinxton Hall, Marea Britanie (http://www.ebi.ac.uk/embl) si DDBJ – Baza de Date DNA a Japoniei, Mishima, Japonia (http://www.ddbj.nig.ac.jp). Cele trei baze de date îsi sincronizează zilnic datele, iar accesul în întregul sistem se poate face printr-un punct comun.
Secvenţele de nucleotide din bazele de date sunt exprimate in formă simbolică, siruri de patru litere, care corespund celor patru baze azotoase: A – adenina, C – citozina, G – guanina si T – timina (sau U – uracil, în cazul moleculelor de ARN). Această reprezentare este adecvată pentru stocarea economică a datelor, analiza lor statistică si identifi carea formelor, dar limitează net posibilităţile în ceea ce priveste procesarea datelor si detectarea unor regularităţi tipice genoamelor. Este motivul pentru care am utilizat conversia secventelor de nucleotide în semnale genomice nucleotidice, adică trecerea de la reprezentarea simbolică la o reprezentare numerică a datelor genomice. Abordarea permite aplicarea în analiza informatiei genetice a bogatului arsenal de metode de procesare numerică a semnalelor, dezvoltat în ingineria comunicaţiilor [1-3]. Utilizarea semnalelor numerice simplifi că compararea locală si globală a secventelor de nucleotide [4], permite identifi carea mutatiilor si a inserturilor [5] în aceste secvente si pune în evidentă structuri si regularităti surprinzătoare în distributia nucleotidelor si a perechilor de nucleotide în lungul secvenţelor [6]. Metoda permite, totodată, punerea în evidentă a unor structuri ancestrale, care nu mai există manifest în genoamele speciilor extante, dar care pot fi reconstituite prin procedee adecvate de procesare a semnalelor genomice nucleotidice ale [7]. Astfel de proprietăti si caracteristici ar fi difi cil sau imposibil de identifi cat si analizat utilizând numai abordarea în formă simbolică si procedeele standard de căutare de forme si de prelucrare statistică a datelor.
Dr. ing. Paul Dan Cristea, director al Centrului de Inginerie Bio-Medicală al UPB
Pentru textul integral vezi editia print Medica Academica