Enciclopedie estese di elementi di DNA nei genomi umani e di topo
CasaCasa > Notizia > Enciclopedie estese di elementi di DNA nei genomi umani e di topo

Enciclopedie estese di elementi di DNA nei genomi umani e di topo

Jul 07, 2023

Natura volume 583, pagine 699–710 (2020)Citare questo articolo

Accessi 86k

658 citazioni

328 Altmetrico

Dettagli sulle metriche

Una correzione dell'autore a questo articolo è stata pubblicata il 26 aprile 2022

Questo articolo è stato aggiornato

I genomi umani e di topo contengono istruzioni che specificano RNA e proteine ​​e governano i tempi, l’entità e il contesto cellulare della loro produzione. Per delineare meglio questi elementi, la fase III del progetto Encyclopedia of DNA Elements (ENCODE) ha ampliato l'analisi dei repertori cellulari e tissutali della trascrizione dell'RNA, della struttura e modificazione della cromatina, della metilazione del DNA, del looping della cromatina e dell'occupazione da parte di fattori di trascrizione e RNA- proteine ​​leganti. Qui riassumiamo questi sforzi, che hanno prodotto 5.992 nuovi set di dati sperimentali, comprese determinazioni sistematiche sullo sviluppo fetale del topo. Tutti i dati sono disponibili tramite il portale dati ENCODE (https://www.encodeproject.org), inclusi i dati ENCODE1 di fase II e Roadmap Epigenomics2. Abbiamo sviluppato un registro di 926.535 elementi cis-regolatori umani e 339.815 candidati topi, che coprono il 7,9 e il 3,4% dei rispettivi genomi, integrando tipi di dati selezionati associati alla regolazione genetica e costruito un server basato sul web (SCREEN; http:// screen.encodeproject.org) per fornire un accesso flessibile e definito dall'utente a questa risorsa. Nel complesso, i dati e il registro ENCODE forniscono alla comunità scientifica un'ampia risorsa per comprendere meglio l'organizzazione e la funzione dei genomi umani e dei topi.

Il genoma umano comprende un vasto archivio di istruzioni codificate nel DNA che vengono lette, interpretate ed eseguite dalle proteine ​​cellulari e dal macchinario dell'RNA per consentire le diverse funzioni delle cellule e dei tessuti viventi. Il progetto ENCODE mira a delineare in modo preciso e completo i segmenti del genoma umano e del topo che codificano elementi funzionali1,3,4,5,6. Operativamente, gli elementi funzionali sono definiti come caratteristiche di sequenza discrete, ordinate linearmente che specificano prodotti molecolari (ad esempio, geni codificanti proteine ​​o RNA non codificanti) o attività biochimiche con ruoli meccanicistici nella regolazione del gene o del genoma (ad esempio, promotori o potenziatori trascrizionali)5 . A partire dal progetto pilota ENCODE nel 2003 (incentrato su un definito 1% della sequenza del genoma umano4) e estendendosi all'intero genoma in una fase di produzione II iniziata nel 20071, ENCODE ha applicato una serie di tecnologie all'avanguardia saggi artistici per identificare probabili elementi funzionali con crescente precisione in una gamma in espansione di contesti cellulari e biologici. Per sfruttare il valore del topo da laboratorio, Mus musculus, sia per l'analisi genomica funzionale comparativa che per la modellazione della biologia umana, nel 2009 è stato avviato un progetto Mouse ENCODE di portata più limitata6. Una prospettiva di accompagnamento7 fornisce ulteriore contesto per l'evoluzione di ENCODE Progetta e descrive il modo in cui i dati ENCODE vengono utilizzati per chiarire questioni biologiche e biomediche di base che intersecano la struttura e la funzione del genoma.

A partire dal 2012, sia il progetto ENCODE umano che quello murino hanno avviato programmi per ampliare e approfondire i rispettivi sforzi per scoprire e annotare elementi funzionali e per sistematizzare la produzione, la cura e la diffusione dei dati ENCODE con l'obiettivo di dare ampio potere alla comunità scientifica. I dati ENCODE sono serviti come interfaccia tra la sequenza del genoma umano e la sua applicazione alla ricerca biomedica sia per la gamma di caratteristiche biologiche e biochimiche comprese dai test ENCODE sia per l'ampiezza e la profondità con cui questi test sono stati applicati in contesti cellulari e tissutali . ENCODE si è ora espanso su entrambi questi assi (i) incorporando nuovi test come la localizzazione delle proteine ​​leganti l'RNA e il looping della cromatina; (ii) aumentare la profondità alla quale i test attuali come l'immunoprecipitazione e il sequenziamento della cromatina del fattore di trascrizione (ChIP-seq) interrogano le linee cellulari di riferimento; e (iii) raccogliere dati su un intervallo biologico notevolmente ampliato, con particolare attenzione alle cellule e ai tessuti primari. Inoltre, ENCODE ha ora incorporato ed elaborato in modo uniforme i dati sostanziali del Roadmap Epigenomics Project2 conformi agli standard ENCODE (vedi Metodi).

1.64 throughout, and low otherwise./p>2,000 bp for TSS-distal). We defined TSSs as the 5′ ends of all basic transcripts annotated by GENCODE (V24 for human and M18 for mouse). A cCRE was assigned to one of five mutually exclusive groups on the basis of its state and TSS proximity (Box 1): TSS-overlapping with promoter-like signatures (PLS), TSS-proximal with enhancer-like signatures (pELS), TSS-distal with enhancer-like signatures (dELS), not TSS-overlapping and with high DNase and H3K4me3 signals only (DNase–H3K4me3), not TSS-overlapping and with high DNase and CTCF signals only (CTCF-only). Note that this set of seven states and five groups is defined across all biosamples, and therefore is cell-type agnostic. We next define cell type-specific state and group classifications./p>