Quando due decenni fa gli scienziati dichiararono completato il Progetto Genoma Umano, il loro annuncio fu un po’ prematuro. Venne sicuramente raggiunto un traguardo importante, con ricercatori di tutto il mondo che hanno ottenuto l’accesso alla sequenza del DNA della maggior parte dei geni codificanti proteine nel genoma umano. Ma anche dopo 20 anni di aggiornamenti, l’8% del nostro genoma è rimasto ancora non sequenziato e non studiato. Bollate da alcuni come “DNA spazzatura” senza una chiara funzione, circa 151 milioni di paia di basi di dati di sequenza sparsi nel genoma erano ancora una scatola nera.
Ora, un grande team internazionale guidato da Adam Phillippy del National Institutes of Health ha rivelato l’ultimo 8% del genoma umano in un articolo pubblicato su Science. Questi pezzi mancanti del nostro genoma contengono più che semplice spazzatura. All’interno dei nuovi dati ci sono misteriose sacche di DNA non codificante che non producono proteine, ma svolgono ruoli cruciali in molte funzioni cellulari e possono trovarsi al centro di condizioni in cui la divisione cellulare è impazzita, come il cancro.
“Penseresti che, con il 92% del genoma completato molto tempo fa, un altro 8% non avrebbe spostato molto“, afferma Erich D. Jarvis del Rockefeller, un coautore dello studio che ha contribuito a sviluppare una serie di tecniche fondamentali per sbloccare gli ultimi frammenti del genoma umano. “Ma da quell’otto percento mancante, ora stiamo acquisendo una comprensione completamente nuova di come le cellule si dividono, permettendoci di studiare una serie di malattie che non eravamo stati in grado di affrontare prima“.
Sulle spalle dell’HGP
Il Progetto Genoma Umano ci ha sostanzialmente consegnato le chiavi dell’eucromatina, la maggior parte del genoma umano, che è ricco di geni, confezionato in modo approssimativo e impegnato a produrre RNA che sarà successivamente tradotto in proteine. Non è stato toccato, tuttavia, un labirinto di eterocromatina strettamente legata e ripetitiva, una porzione più piccola del genoma, che non produce proteine.
Inizialmente gli scienziati avevano buone ragioni per dare la priorità all’eterocromatina. Le regioni eucromatiche contenevano più geni ed erano più semplici da sequenziare. Proprio come un puzzle con pezzi distinti è più facile da mettere insieme rispetto a un puzzle composto da altri simili, gli strumenti genomici hanno trovato il DNA eucromatico più facile da analizzare rispetto al suo cugino eterocromatico ridondante.
Di conseguenza, i genetisti si sono trovati con una lacuna considerevole nella loro conoscenza di ciò che guida alcune funzioni cellulari di base. Le sequenze eterocromatiche dietro i centromeri, che si trovano ai punti cruciali dei cromosomi e guidano la divisione cellulare, sono state tutte contrassegnate con lunghe serie di N per “base sconosciuta” nel genoma di riferimento umano. Allo stesso modo sono state omesse le sequenze dei bracci corti dei cromosomi 13, 14, 15, 21 e 22. “Nemmeno tutto il genoma eucromatico è stato sequenziato correttamente“, aggiunge Jarvis. “Errori, come false duplicazioni, dovevano essere corretti“.
Quindi, circa dieci anni fa, gli scienziati hanno iniziato a sviluppare nuove tecniche per produrre letture di sequenze più lunghe che riempissero le lacune nei genomi degli esseri umani e di altre specie. Una di queste iniziative è il Vertebrate Genomes Project, guidato da Jarvis, che ha recentemente prodotto i primi genomi di riferimento quasi privi di errori e quasi completi per 25 animali. “Quello studio faceva parte di uno sforzo internazionale per sviluppare nuovi strumenti in grado di produrre assemblaggi genetici della massima qualità“, afferma. “Rispetto ai metodi utilizzati vent’anni fa, la genomica moderna ha letture lunghe ad alta fedeltà che sono accurate al 99,9%, migliori strumenti di assemblaggio del genoma e algoritmi più potenti che sono migliori nel distinguere tra loro pezzi di puzzle dall’aspetto simile“.
Con strumenti aggiornati e rinnovata determinazione, Jarvis e altri scienziati sono stati in grado di aiutare a completare ciò che il Progetto Genoma Umano ha iniziato e descrivere, finalmente, un genoma umano veramente completo: le sue regioni eucromatiche riviste e le sue regioni eterocromatiche.
“Ogni singola coppia di basi di un genoma umano è ora completa”, dice Jarvis.
Lo studio pubblicato su Science è stato condotto dal Consortium Telomere-to-Telomere (T2T), un gruppo di ricercatori di varie istituzioni accademiche e NIH. Il contributo del laboratorio Jarvis, pubblicato su Nature Methods, prevedeva la fornitura di strumenti per aiutare il T2T a perfezionare sequenze genomiche disordinate per produrre sequenze prive di errori.
Uno di questi strumenti è Merfin, che hanno usato per ripulire alcune delle sequenze più difficili nel genoma umano. “I genomi che generiamo in laboratorio possono contenere molti errori“, afferma Giulio Formenti, un post-dottorato nel laboratorio di Jarvis che ha sviluppato Merfin. “Se anche solo una o poche coppie di basi sono sbagliate, ciò può avere grandi conseguenze per l’accuratezza complessiva della sequenza genomica“. Merfin consente di testare l’accuratezza di una sequenza, rilevando codici che potrebbero essere fuori posto e correggendo automaticamente gli errori. Poiché le tecnologie che generano sequenze moderne sono più accurate, Merfin è riservato solo ai casi più complicati.
“I tratti di coppie di basi identiche, come AAA, sono difficili da valutare per la tecnologia esistente“, afferma Formenti. “Ci sono spesso errori in quelle sequenze, anche adesso. Merfin li corregge“.
Jarvis e Formenti sperano che il loro contributo non solo aiuterà a chiudere definitivamente Progetto Genoma Umano, ma informerà anche la ricerca sulle malattie legate al genoma eterocromatico, in primo luogo il cancro, che è associato ad anomalie dei centromeri. Le cellule tumorali si dividono in modo incontrollato quando alcuni geni centromerici eterocromatici sono sovraespressi e una completa comprensione del genoma del centromero può aprire la porta a nuove terapie.
“Stiamo finalmente scavando in quello che una volta chiamavamo DNA spazzatura, perché non potevamo capirlo o guardarlo con precisione“, afferma Formenti. “Ora sappiamo che molte malattie sono legate a ripetizioni strutturali nel centromero e, ora che queste sequenze non mancano più nel genoma di riferimento umano , possiamo iniziare a mappare le origini di queste malattie“.