Beregningsmetoder som brukes til å fylle ut manglende piksler i bilder eller videoer av lav kvalitet, kan også hjelpe forskere med å gi manglende informasjon for hvordan DNA er organisert i cellen, har beregningsbiologer ved Carnegie Mellon University vist.
Å fylle ut denne manglende informasjonen vil gjøre det mulig å lettere studere 3D-strukturen til kromosomer og spesielt underrom som kan spille en avgjørende rolle i både sykdomsdannelse og bestemme cellefunksjoner, sa Jian Ma, førsteamanuensis i CMUs Computational Biology Department.
I en forskningsartikkel publisert i dag av tidsskriftet Nature Communications, Ma og Kyle Xiong, en CMU Ph. D. student ved CMU-University of Pittsburgh Joint Ph. D. Program i Computational Biology, rapporterer at de har brukt sin maskinlæringsmetode på ni cellelinjer. Dette gjorde dem i stand til for første gang å studere forskjeller i romlig organisering knyttet til underavdelinger på tvers av disse linjene.
Tidligere kunne underrom bli avslørt i bare en enkelt celletype lymfoblastoide celler - en cellelinje kjent som GM12878 - som har blitt uttømmende sekvensert til stor kostnad ved hjelp av Hi-C-teknologi, som måler romlig interaktivitet mellom alle regioner i genomet.
"Vi vet nå mye om den lineære sammensetningen av DNA i kromosomer, men i kjernene til menneskelige celler er ikke DNA lineært," sa Xiong. "Kromosomer i cellekjernen er foldet og pakket inn i 3D-former. Denne 3D-strukturen er avgjørende for å forstå cellefunksjonene i utvikling og sykdommer." Underrom er av spesiell interesse fordi de reflekterer romlig segregering av kromosomregioner med høy interaktivitet.
Forskere er ivrige etter å lære mer om sammenstillingen av underrom og hvordan det påvirker cellefunksjonen, sa Ma. Men til nå kunne forskere beregne mønstrene til underavdelinger bare hvis de hadde et Hi-C-datasett med ekstremt høy dekning - det vil si at DNA-et hadde blitt sekvensert i stor detalj for å fange opp flere interaksjoner. Dette detaljnivået mangler i datasettene for andre cellelinjer enn GM12878.
I samarbeid med Ma brukte Xiong et kunstig nevr alt nettverk k alt en denoising autoencoder for å fylle hullene i mindre enn komplette Hi-C-datasett. I datasynsapplikasjoner kan autoenkoderen levere manglende piksler ved å lære hvilke typer piksler som vanligvis finnes sammen og gjøre sin beste gjetning. Xiong tilpasset autokoderen til high-throughput genomikk, ved å bruke datasettet for GM12878 for å trene det til å gjenkjenne hvilke sekvenser av DNA-par fra forskjellige kromosomer som typisk kan samhandle med hverandre i 3D-rom i cellekjernen.
Denne beregningsmetoden, som Ma og Xiong har k alt SNIPER, viste seg å være vellykket i å identifisere underrom i åtte cellelinjer hvis interkromosomale interaksjoner basert på Hi-C-data bare var delvis kjent. De brukte også SNIPER på GM12878-dataene som en kontroll. Men Xiong bemerket at det ennå ikke er kjent hvor mye dette verktøyet kan brukes på alle andre celletyper. Han og Ma fortsetter imidlertid å forbedre metoden, slik at den kan brukes på en rekke cellulære forhold og til og med i forskjellige organismer.
"Vi må forstå hvordan underromsmønstre er involvert i de grunnleggende funksjonene til celler, samt hvordan mutasjoner kan påvirke disse 3D-strukturene," sa Ma. "Så langt, i de få cellelinjene vi har vært i stand til å studere, ser vi at noen underavdelinger er konsistente på tvers av celletyper, mens andre varierer. Det gjenstår mye å lære."
The National Institutes of He alth og National Science Foundation støttet dette arbeidet.