Il genoma umano perfetto, senza buchi e senza errori

Articolo del 08 Aprile 2022

T2T vuol dire “da telomero a telomero”, ovvero dall’inizio alla fine di ogni cromosoma. Si chiama così il consorzio che ha portato a termine il lavoro iniziato negli anni novanta dal Progetto Genoma Umano. Il risultato è una sequenza completa praticamente perfetta, senza buchi, con ben 200 milioni di lettere in più rispetto alla vecchia sequenza di riferimento presentata in pompa magna nel 2001. Lo annuncia “Science”, con il titolo di copertina Filling the gaps (ovvero “colmando le lacune”) e una raffica di sei articoli che illustrano la rilevanza scientifica dell’impresa.

Diamo il benvenuto dunque a T2T-CHM13, questa infatti è la sigla della nuova sequenza di riferimento frutto di avanzati approcci di lettura del DNA e di potenti algoritmi. Ma per la genomica questo traguardo è anche e soprattutto un nuovo inizio: perché accontentarsi di un solo genoma completo ad alta fedeltà se potremmo sequenziare la diversità umana con gli stessi standard? E perché fermarsi alla nostra specie, quando esistono 70.000 vertebrati e una miriade di altri organismi?

Il consorzio T2T ha il cuore che batte nel National Human Genome Research Institute ed è cresciuto intorno a un nucleo iniziale guidato da Karen Miga e Adam Phillippy. Gli scienziati e le scienziate che li hanno raggiunti sono oltre un centinaio, sparsi in numerosi centri degli Stati Uniti e hanno collaborato come una colonia di formiche, per usare le parole di Miga. Molti erano soltanto dei ragazzini quando Bill Clinton celebrava alla Casa Bianca l’epopea della prima stagione genomica, insieme ai due protagonisti-rivali Francis Collins e Craig Venter.

Giulio Formenti è uno di loro: dopo aver studiato a Milano è approdato alla Rockefeller University e ci illustra così gli elementi chiave che hanno consentito l’accelerazione decisiva. Numero uno, c’è stato un salto tecnologico: “Un paio di anni fa la società californiana PacBio ha sviluppato una nuova tecnologia che permette letture lunghe e molto accurate, consentendo di risolvere le regioni del genoma più ostiche”. Numero due, la pandemia: “I bioinformatici hanno deciso di impiegare il tempo del lockdown dedicandosi al completamento del genoma”. La ricorrenza del ventennale del sequenziamento ha fornito la cornice ideale per chiamare a raccolta la comunità scientifica intorno all’obiettivo.

Immaginate di dover comporre un grande puzzle che rappresenta un paesaggio, con un cielo terso da ricostruire combinando pezzi tutti azzurri e tutti apparentemente uguali. Per farcela i pezzi devono essere abbastanza grandi da includere qualche elemento riconoscibile. Ebbene, le dimensioni contano anche per la sfida del genoma. Il nostro DNA, infatti, è disseminato di sequenze ripetute, troppo simili tra loro per poterle risolvere e riordinare con le vecchie tecniche: centromeri, duplicazioni segmentali e vari tipi di DNA satellite sono come i pezzi blu del puzzle. Per questo costituivano un grosso buco nella sequenza del 2001, una lacuna grande quanto un intero cromosoma, equivalente all’otto per cento del totale. Cambiando metafora, si può dire che rappresentavano la materia oscura del genoma e sono diventati finalmente visibili grazie all’uso complementare di due tecniche che permettono di leggere tutto d’un fiato segmenti di 20.000 basi e addirittura di 100.000 basi, se si è disposti ad accettare qualche errore in più (fino a poco tempo fa si leggevano un migliaio di lettere per volta).

C’era anche un altro problema da risolvere: l’accuratezza. Il vecchio genoma di riferimento del consorzio pubblico ha continuato a essere aggiornato nel corso degli anni, ma era disseminato di piccoli errori: per esempio una A che doveva essere una T, oppure una sfilza di cinque lettere identiche che avrebbe dovuto contenerne sei. Per evitare questo problema, Formenti ha contribuito a sviluppare un algoritmo capace di correggere le imperfezioni, firmando anche il lavoro pubblicato contemporaneamente su “Nature Methods”.

Si parla sempre di “genoma umano” come se la sequenza fosse universale, ma qual è la provenienza del DNA sequenziato? Non si usa più fare dei patchwork di genomi, come aveva fatto il consorzio pubblico combinando segmenti appartenenti a una ventina di persone, con la netta prevalenza (70 per cento) di un singolo individuo. Ora tutti seguono l’approccio shotgun ideato da Venter, lavorando su un solo genoma intero, per evitare di creare combinazioni di sequenze altamente improbabili, che in natura non si troverebbero in nessun individuo.

Ovviamente l’assemblaggio è complicato dal fatto che siamo una specie diploide, con due copie di ogni cromosoma, ereditate una da ciascun genitore. Infatti non è facile capire a quale copia di un cromosoma appartenga un certo segmento. Ma quando uno spermatozoo feconda un ovocita senza nucleo, il prodotto è una cellula in cui il corredo cromosomico ereditato dal padre viene duplicato (in gergo si chiama “mola idatiforme” e non può svilupparsi in un individuo vitale). La soluzione del consorzio T2T è stata lavorare su una linea cellulare ottenuta in questo modo, in cui ogni coppia di cromosomi è costituita da due copie quasi identiche. Questa linea cellulare omozigote presenta due cromosomi X, dunque il genoma appena pubblicato non contiene rivelazioni sul cromosoma Y. “Per il sequenziamento completo dell’Y è stata usata una linea diploide comunemente impiegata nei laboratori. Avendo capito come sono organizzati gli altri cromosomi si può lavorare per sottrazione, ma questo studio non è stato ancora presentato. L’Y contiene molte ripetizioni ed era uno dei cromosomi meno accurati, ma è molto utile per studiare la genetica di popolazione umana”, anticipa il ricercatore.

Ma torniamo all’insieme dei dati appena pubblicati che, come scrive Deanna Church su “Science”, contribuiranno a far avanzare la medicina personalizzata, la genetica di popolazione e l’editing genomico. La rifinitura delle sequenze dei telomeri interesserà particolarmente gli specialisti dell’invecchiamento, perché queste regioni terminali dei cromosomi si accorciano con il passare degli anni. Ma la regione cromosomica su cui impareremo più cose grazie al consorzio T2T è quella centrale, che ha un ruolo chiave nella duplicazione cellulare. “È la prima volta che possiamo studiare l’evoluzione dei centromeri. Nel genoma di riferimento pubblicato nel 2001 e aggiornato nei successivi vent’anni, la sequenza dei centromeri non c’era o era ricostruita in modo sbagliato”, spiega Formenti. Ora abbiamo la sequenza perfetta di ogni centromero e possiamo studiare come le sue ripetizioni si sono evolute nel tempo, generando nuove copie che degenerano allontanandosi dal centro.

Queste conoscenze potrebbero aiutare, in particolare, gli oncologi. “Le malattie in cui si presentano problemi nella divisione cellulare possono avere una componente legata a disfunzioni centromeriche. Ora per esempio si potrà paragonare la sequenza centromerica di riferimento con quella delle cellule tumorali”, ragiona lo scienziato. Di grande interesse sono anche le duplicazioni segmentali, che danno origine alle famiglie di geni. Altre componenti ripetitive del genoma sono importanti per la risposta immunitaria e per la costruzione degli organelli cellulari che producono le proteine (ribosomi).

L’accuratezza del genoma pubblicato è altissima: si calcola un errore ogni dieci milioni di coppie di basi. Uno dei trucchi usati è la lettura circolare dei segmenti di DNA, ripetuta più e più volte con un vantaggio addizionale: il tempo di lettura delle basi cambia a seconda delle modificazioni chimiche presenti, che condizionano l’espressione dei geni, quindi insieme alle informazioni sul genoma arrivano anche quelle sul cosiddetto epigenoma.

In totale i nuovi dati hanno evidenziato due milioni di varianti del genoma umano che prima non erano note e informazioni più dettagliate su 622 geni rilevanti dal punto di vista medico (per esempio sul gene per la troponina, una proteina implicata in forme di artrogriposi). Per la cronaca il numero totale dei geni umani al momento è stimato in circa 60.000, di cui quasi 20.000 sono geni “classici” che codificano per proteine, mentre gli altri sono non-codificanti e, presumibilmente, hanno funzioni regolatorie.

Dunque ora abbiamo un perfetto singolo genoma il cui unico difetto è essere aploide, perché ha un solo set di cromosomi raddoppiato. Il percorso verso il genoma diploide è già avviato. Ma il traguardo a cui mirano molti ricercatori del consorzio è il pangenoma: un genoma che possa rappresentare la diversità umana, includendo centinaia di singoli genomi completi. Come possiamo immaginarlo? “Come un grafo, che si apre in corrispondenza dei siti in cui c’è variabilità”, ci dice Formenti mostrandoci figure in cui i singoli genomi sono come tanti strati di diverso colore e in cui la sequenza comune (cogenoma) è interrotta da blocchi di divergenza. “Così dovremmo riuscire a ricostruire una sequenza che vada bene un po’ per tutti, anziché fondarsi su pochi individui geneticamente rappresentativi di popolazioni prevalentemente occidentali”, si augura il bioinformatico.

Per quanto riguarda i costi, produrre un genoma accurato da telomero e telomero non sarà affatto proibitivo. “Se non contiamo gli investimenti fatti negli ultimi vent’anni, che sono serviti a portarci fin qui, un sequenziamento costerà forse 15.000 dollari”, prova a fare i conti Formenti. Poi è tutta una questione di algoritmi: “Al momento si tratta di un processo abbastanza laborioso, ma stiamo lavorando per automatizzarlo”.

Karen Miga, che ora è in forze all’Università della California a Santa Cruz, ha dichiarato che fra dieci anni tutto il lavoro svolto dal consorzio apparirà esageratamente pesante, perché al posto di 100 ricercatori basterà uno studente per sequenziare un genoma da capo a fondo. Speriamo che accada davvero, perché le applicazioni potranno essere tante. Formenti è già coinvolto in un progetto per sequenziare tutti i vertebrati. I genetisti vegetali, dal canto loro, vorrebbero avere a disposizione dei genomi poliploidi ad alta fedeltà. E poi c’è la metagenomica, che studia campioni ambientali in cui si mescolano genomi di microrganismi noti e ignoti. Senza contare i tanti pazienti che aspettano che si concretizzino le promesse della medicina personalizzata. Dal primo genoma sono passati vent’anni e rotti ma c’è da lavorare, e tanto, anche per i prossimi 20.

 

Fonte: Le Scienze

LEGGI TUTTE LE ALTRE NEWS