Izazovi u upravljanju podacima u trodimenzionalnim em | strukturna priroda i molekularna biologija

Izazovi u upravljanju podacima u trodimenzionalnim em | strukturna priroda i molekularna biologija

Anonim

teme

  • Objavljivanje podataka i arhiviranje
  • Elektronska mikroskopija

Ovo izvješće opisuje rezultate izazova upravljanja podacima u radionici 3D elektronske mikroskopije. Ključne teme o kojima se raspravljalo uključuju modele podataka, provjeru valjanosti i arhiviranje neobrađenih podataka. Sudionici sastanka složili su se da bi EMDataBank trebao preuzeti vodeću ulogu u rješavanju ovih pitanja, a dogovorene su konkretne akcijske točke koje će značajno utjecati na dostupnost trodimenzionalnih podataka o EM u biologiji i medicini.

EMDataBank (//www.emdatabank.org/) 1 je organizacija koja vodi globalnu mrežu deponiranja i pronalaženja trodimenzionalnih EM (3DEM) karata, molekularnih modela i pridruženih metapodataka. Sastoji se od tri partnera, Protein Data Bank u Europi (PDBe), Istraživačkog kolaboratora za strukturnu bioinformatiku (RCSB PDB) i Nacionalnog centra za makromolekularno snimanje (NCMI). EMDataBank upravlja Bankom podataka elektronske mikroskopije (EMDB) 2, globalnom arhivom 3DEM podataka koja sada sadrži preko 1500 karata i na taj način nudi jedinstvenu perspektivu stanja i razvoja 3DEM polja. U posljednjih nekoliko godina ovo polje je doživjelo brzi rast, o čemu svjedoči brzo rastući broj publikacija i 3DEM izvedenih struktura arhiviranih u EMDB. Pored toga, broj i veličina slika korištenih za dobivanje karata neprestano se povećavaju, potaknuti potragom za većom razlučivošću, a ti će se trendovi vjerojatno nastaviti (Slika 1). Pogled iz ptičje perspektive na trendove i prakse u 3DEM polju može se dobiti putem usluge EMstats 3 (//pdbe.org/emstats/).

Image

Kumulativni broj izdanih karata u EMDB i 3DEM-izvedenim modelima PDB-a prikazan je kao funkcija vremena.

Slika pune veličine

Kako bi razgovarali o rastućim izazovima za pohranu, dijeljenje, prijenos, analizu, gledanje, potvrđivanje i napomenu 3DEM podataka, PDBe i Otvoreno okruženje mikroskopije (OME) organizirali su radionicu, Izazovi upravljanja podacima u elektronskoj mikroskopiji 3D (DMCEM) u Hinxton Hallu, Wellcome Trust Genome Campus, Cambridge, Velika Britanija 5. i 6. prosinca 2011.

Sudionici su uključili stručnjake s uspostavljenim cjevovodima za prikupljanje i obradu 3DEM podataka i na taj način donijeli vrijednu stručnost u pogledu izazova u upravljanju podacima s kojima se susreću na terenu. Nekoliko sudionika sudjelovalo je u inicijativama na razini cijele zajednice za definiranje standarda, konvencija i standarda izvješćivanja za vrednovanje u 3DEM-u, kao dio Radne skupine za elektronsku mikroskopiju za validaciju (EM-VTF) 4 . Također su sudjelovali programeri nekoliko glavnih EM softverskih paketa, uključujući Appion 5, Bsoft 6, EMAN2 (ref. 7), EMEN2 (//blake.bcm.edu/emanwiki/EMEN2/), IMOD 8, MRC 9 i Xmipp 10 . MW je predstavljao dva kolaborativna računska projekta sa sjedištem u Velikoj Britaniji (//www.ccp.ac.uk/), naime dobro uspostavljeni kolaborativni računski projekt broj 4 (CCP4) 11 za makromolekularnu kristalografiju i novoosnovani zajednički računski projekt za elektronske krio- mikroskopija (CCP-EM), te ocrtana iskustva stečena s CCP4 i moguće sinergije s CCP-EM. Troje sudionika sa Sveučilišta u Dundeeju predstavljalo je OME tim koji razvija znanstvene biblioteke za prenošenje slika i aplikacija za upravljanje podacima 12, 13 . PDBe i OME rade zajedno na primjeni OME resursa na 3DEM podatke u EMDB-u, a radionicu je sponzorirao zajednički grant za biotehnologiju i biološke znanosti (BBSRC) koji potiče suradnju između grupa s ekspertizom u rukovanju 3DEM i podacima svjetlosne mikroskopije. Napokon, šest sudionika predstavljalo je EMDataBank.

Prvi dan radionice sastojao se od prezentacija postojećih rješenja i inicijativa za upravljanje podacima i razgovora o 3DEM validaciji. Drugi dan bio je posvećen tematskim raspravama o validaciji, segmentaciji, standardima i formatima i tomografiji. Ciljevi sastanka bili su (i) dobiti povratne informacije o 3DEM modelu podataka koji se trenutno razvija za EMDB; (ii) predložiti konkretne mjere koje bi EMDataBank i Svjetska banka podataka o proteinima (wwPDB 14 ; //wwpdb.org) mogli poduzeti kako bi se pomoglo u provedbi preporuka EM-VTF 4 o poboljšanju kriterija kvalitete korištenih u polju 3DEM i osigurati njihovo široko prihvaćanje; i (iii) razgovarati o mogućim modelima javnog arhiviranja podataka koji vode do konačne 3D mape.

ishodi

Novi model podataka EM

Otkad je 2002. godine uspostavljena arhiva EMDB pri Europskom institutu za bioinformatiku (EBI) (ref. 2), polje 3DEM postiglo je značajan napredak na nizu fronta, uključujući elektronsku tomografiju, automatizaciju i izravne detektore elektrona (Sl. 2), Istodobno je rasla značaj arhive pa je i potreba povezivanja s drugim relevantnim bioinformatičkim izvorima. Iako je EMDB model podataka 2, 15 ažuriran postupno kako bi se prilagodile ovim promjenama i udovoljilo novim zahtjevima, jasno je da su potrebne temeljne promjene u podatkovnom modelu da bi se održao trenutni razvoj i omogućila buduća proširenja i dopune.

Image

Prikazan je reprezentativni primjer svake kategorije: pojedinačna čestica, ljudski αβ-kristalinični 24-mer (EMD-1894, PDB 2YGD); ikosaedar, virus citoplazmatske poliedroze (EMD-5256, PDB 3IZX); spiralni, GMPPCP stabilizirani humani dinamin 1 ΔPRD polimer (EMD-1949, PDB 3ZYS); prosjek tomograma ili subtomograma, radijalni žbice iz Chlamydomonas reinhardtii flagella (EMD-1941); 2D kristal, svinjski želudac H +, K + -ATPaza sa vezanom BeF i SCH28080 (EMD-1831, PDB 2XZB) 24 .

Slika pune veličine

WwPDB i EMDataBank zajedno razvijaju novi sustav taloženja i napomena (D&A), koji će olakšati taloženje i potvrđivanje podataka biomakromolekularne strukture (uključujući rendgensku kristalografiju, NMR spektroskopiju, 3DEM i bilo koju kombinaciju ovih tehnika). Novi sustav smanjit će potrebu za ručnim napomenama i poboljšati kvalitetu, dosljednost i cjelovitost podataka koji se unose u arhivu. S očekivanim životnim vijekom od najmanje deset godina, D&A sustav potaknuo je dizajn novog EMDB modela podataka koji će obuhvatiti važne aspekte različitih 3DEM metodologija (kao što su analiza jednostrukih čestica, tomografija, dvodimenzionalna (2D ) kristalografija itd.) i biti dovoljno fleksibilan da se prilagodi promjenama i još uvijek nepredviđenim budućim kretanjima.

Model podataka implementiran je i održava se u XML shemi Extensible Markup Language za koju postoje razni moćni, industrijski standardni alati za modeliranje. Visoka razina vizualne apstrakcije koju nude ovi alati omogućuje praktičarima 3DEM-a da izmijene shemu i osiguraju da model ima smisla u znanosti. Za integraciju modela u D&A sustav, model će biti preveden u oblik koji sustav interno koristi, format makro-molekularne kristalografske datoteke podataka (mmCIF) koji se proširio za D&A sustav (PDBx) 16 . Tijekom sastanka, mnogi sudionici pružili su povratne informacije o nacrtu modela podataka. Informacije o trenutnoj verziji modela podataka mogu se naći na //pdbe.org/emschema/.

potvrđivanje

Validacija uključuje procjenu pogrešaka i nesigurnosti u rezultatima 3DEM eksperimenta ili njihovu interpretaciju u smislu volumetrijskog ili atomskog modela. Validacija je nužna za pouzdanje u interpretaciji podataka u molekularnom ili staničnom biološkom kontekstu. Četiri su bitna aspekta validacije 3DEM-a s jednim česticama, a to je osiguravanje kvalitete konačne karte, provjera zahtjevane razlučivosti, procjena prikladnosti bilo kojeg modela na karti i procjena kvalitete samih modela.

Analiza nagibnih para 17, 18 pokazala se vrijednim alatom za uspostavljanje ukupne kvalitete karte i poslužitelja za provjeru nagibnih para koji je razvila grupa Rosenthal (//cryoem.nimr.mrc.ac.uk/software/ ) učinila je metodu općenito dostupnom. Kako bi ohrabrio uporabu ove tehnike, EMDataBank će surađivati ​​s grupom Rosenthal na uključivanju podrške za provjeru valjanosti nagiba u novi model podataka EMDB i migriranje poslužitelja na web stranicu PDBe u pripremi za njegovu eventualnu integraciju kao alat za provjeru valjanosti D&A cjevovod.

AR je sugerirao da bi usporedba profila malih kutova raspršivanja rendgenskih zraka (SAXS) 19 sa simuliranim SAXS profilima generiranim iz EM karata bila još jedno sredstvo za utvrđivanje opće ispravnosti karte 20 . Dogovoreno je da će PDBe istražiti izvedivost dodavanja podrške za SAXS profile u EM podatkovnom modelu i uspostaviti internetsku uslugu za generiranje simuliranih SAXS profila iz EM mapa.

Korelacija Fourier-Shell-a (FSC) 21 najčešće je korištena metoda za procjenu razlučivosti karata pojedinih čestica u EMDB-u. Oblik FSC krivulje ovisi o nametnutoj simetriji i maski i o tome jesu li dvije korištene 3D rekonstrukcije obrađene iz zajedničke reference. Rezolucija procijenjena iz krivulje kritično ovisi o primijenjenom kriteriju praga. U idealnom slučaju, FSC krivulja se temelji na dvije potpuno neovisne rekonstrukcije sa svim relevantnim varijablama, uključujući protokol, simetriju, masku i presjek, jasno određene. U praksi to znači izračunavanje dvije neovisne rekonstrukcije, svaka od zasebnih polovica snimljenih podataka. Međutim, upotreba samo polovine čestica može značajno ugroziti postignuću rezoluciju. Alternativa je niskopropusni filtriranje podataka do praga razlučivosti, recimo 15 A, za obradu slike i ponovno uvođenje filtriranih podataka za proračun FSC. Na informacije na prostornim frekvencijama iznad rezolucijskog praga neće utjecati referentna pristranost, a ne očekuje se da će gubitak podataka zbog filtriranja s malim prolazima imati mnogo utjecaja na točnost poravnanja i dodjeljivanje Euler-ugla. Drugo rješenje, koje RH predlaže, je korištenje bilo kojeg postupka za dobivanje dvije rekonstrukcije i izračunavanje krivulje FSC ( norma FSC) od njih, zatim slučajnim skiciranjem podataka o fazama svake čestice iznad određene prostorne frekvencije, ponovno pokretanje postupka i dobivanje nove FSC krivulja (FSC rand ). Ako je FSC rand relativno mali u usporedbi s FSC normom (recimo <25%) u šifriranom prostorno-frekvencijskom području, onda se može sigurno pretpostaviti da prekomjerno prilagođavanje nije problem. Međutim, ako je značajniji, na primjer 50% ili više, oni koji su napravili test možda žele ukloniti prekomjerno uklapanje, primjerice izbjegavajući upotrebu podataka visoke razlučivosti za preciziranje orijentacije i položaja čestica., Uspjeh ovog konzervativnijeg pristupa trebao bi biti otkriven nepostojanjem prekomjerno namještene buke pri visokoj razlučivosti kada se test s nasumičnim fazama visoke rezolucije ponavlja. Dakle, postoji niz protokola koji se mogu slijediti u izračunavanju FSC krivulje koji u načelu nisu vezani za određene softverske pakete. EMDataBank će voditi napore na poboljšanju standarda izvješćivanja za provjeru valjanosti 3DEM-a; Kao prvi korak novi EMDB model podataka obuhvatit će cjelokupnu FSC krivulju i sve relevantne metapodate, uključujući protokol, simetriju, masku i presjek.

Iako se na ovome sastanku pitanje validacije uklapanja modela u karte nije detaljno raspravljalo, jasno je prepoznato kao područje koje zahtijeva više metoda razvoja. Trenutno, osnovna provjera ispravnosti uklapanja modela na kartu pruža PDBe stranice "Vizualna analiza" za pojedinačne unose u EMDB (//pdbe.org/emd-NNNN/analiza, gdje je NNNN četveroznamenkasti EMDB pristupni broj). Na ovim stranicama prikazane su pravokutne površinske projekcije karte i prekrivanja projekcija karata s bilo kojim ugrađenim modelima iz PDB-a (Sl. 3). Također su prikazani grafički prikaz raspodjele gustoće karata i plohe za uključivanje atoma za uklopljene modele. Prekrivanje modela uklopljenog na kartu pokazuje je li model postavljen u isti okvir kao karta, raspodjela gustoće otkriva je li maskiranje korišteno (špic gustoće na nuli često je posljedica maskiranja) i atom -zaključni grafikon pokazuje je li preporučena razina konture razumna.

Image

Stranica za vizualnu analizu unosa EMDB EMD-1831 (//pdbe.org/emd-1831/analiza), struktura želučanog H +, K + -ATPaze svinja s vezanim BeF i SCH28080 (ref. 24). Gornja desna ploča prikazuje ortogonalne površinske projekcije karte. Donja desna ploča prikazuje ortogonalne površinske projekcije karte prekrivene ugrađenim PDB modelom 2XZB (zelena, svi atomi; samo plava, okosnica). Grafikon u gornjem lijevom dijelu prikazuje histogram vrijednosti gustoće, a onaj ispod prikazuje udio atoma modela koji se nalazi u karti kao funkcija razine konture (crvena linija, preporučena razina).

Slika pune veličine

Arhiviranje neobrađenih 3DEM podataka

Neki članovi 3DEM zajednice podržavaju javno arhiviranje neobrađenih podataka povezanih s rekonstruiranom mapom, na primjer, neobrađenih 2D slikovnih podataka ili svih međusobnih koraka, datoteka i parametara kako bi se postigla potpuna „elektronička bilježnica“ 3DEM eksperimenta. Ti bi se podaci mogli upotrijebiti za provjeru konačne karte, a programeri softvera mogli bi ih koristiti za testiranje novih algoritama. Nadalje, deponirani sirovi podaci mogu se ubuduće prerađivati, na primjer u višoj razlučivosti, primjenom poboljšanih tehnika obrade slike ili (posebno u slučaju tomografije) drugačijim fokusom u usporedbi s izvornim taloženjem. Neki sudionici sastanka bili su pozitivno naklonjeni ideji pohrane neobrađenih podataka. Međutim, nekoliko sudionika bili su oprezniji, na temelju vlastitih iskustava s lokalnim arhivima. Oni sugeriraju da bi se izazov arhiviranja neobrađenih podataka na globalnoj razini - u smislu zahtjeva za pohranom, logistike kretanja podataka, a posebno troškova i truda ručnih napomena - mogao pokazati prilično skupo. U tomografiji postoje projekti koji stvaraju 100 gigabajta-1 terabajt, i neobrađenih podataka, i konačnih rekonstrukcija. JRS je sugerirao da bi 3DEM zajednica mogla biti zainteresirana za to kako se zajednica svjetlosne mikroskopije suočila sa sličnim problemima, na primjer, pomoću DataViewer 22, Journal of Cell Biology (JCB).

Postojao je konsenzus da je rutinsko deponiranje sirovih podataka u EMDB preuranjeno, ali da bi bilo korisno uspostaviti bazu podataka testnih slika slika čestica koja se koristi u obradi jednostrukih čestica i nagibnih serija koja se koristi u tomografiji. PDBe i OME će koristiti OMERO 12 za postavljanje takve baze podataka. Baza će pružiti testne podatke za razvojni rad i omogućiti istraga mnogih problema oko arhiviranja neobrađenih podataka koji su gore istaknuti. Nekoliko sudionika sastanka, uključujući BCand GJJ, složili su se dati podatke ovom resursu.

Segmentacija

Segmentacija je proces dijeljenja karte na regije koje se mogu ili ne moraju preklapati i kojima se, u idealnom slučaju, mogu dodijeliti biološki relevantne identifikacije ili napomene. Novi model podataka EMDB poboljšat će postupanje sa segmentacijama i napomenama. Pregled koji je SJL predstavio na sastanku pokazao je da nijedna jedina metoda za predstavljanje segmentacija karata nije superiorna u svakom pogledu, a sve razine binarne segmentacije mogu se postići usporedive razine kompresije. Neke metode mogu se nositi s preklapajućim se regijama, a neke zahtijevaju zasebnu datoteku za svaki segment, dok druge mogu pohraniti sve segmente u jednu datoteku i samo nekoliko ih podržava nebinarnu segmentaciju (obično na štetu učinkovitosti pohrane). Suočeni s velikim brojem opcija za pohranu, sudionici su se složili da će PDBe izraditi specifikaciju kao osnovu za raspravu u zajednici koja uključuje sve programere, EMDataBank i druge.

Tomografija

Iako se rekonstrukcija jednostrukih čestica oslanja na upoređivanje podataka velikog broja molekula, elektronska tomografija, u kojoj se niz slika prikuplja iz uzorka regije pod različitim kutovima nagiba, može se koristiti za dobivanje 3D rekonstrukcije pojedinih makromolekula i za proučavanje 3D organizacija makromolekularnih kompleksa i organela u njihovom rodnom okruženju u stanici. 3D metode računanja s jednim česticama također se mogu primijeniti u kontekstu tomograma za dobivanje prosjeka subtomograma u većoj rezoluciji od samog tomograma.

Broj tomograma deponovanih u EMDB znatno je manji od objavljenog broja; U istraživanju PDBe publikacija časopisa povezanih s tomografijom za razdoblje od 2006. do 2010. godine, utvrđeno je da samo 14% ima pridružene depozite u arhivi EMDB. To je zbog nedostatka konsenzusa u zajednici tomografije o potrebi taloženja i trenutnom EMDB modelu podataka koji neadekvatno opisuje idiosinkrazije tehnike, na primjer, ne razlikuje tomograme i subtomogramske prosjeke. Iako se ovo posljednje pitanje rješava u novom EMDB modelu podataka, prvo pitanje nije tako lako riješiti. EMDataBank će angažirati zajednicu tomografije po tom pitanju organiziranjem tematskih diskusija na sastancima vezanim za 3DEM, kao što su 3DEM Gordon Research Conference i Međunarodni kongres o elektronskoj tomografiji.

Također se raspravljalo i o tome trebaju li stanični tomogrami biti arhivirani u EMDB-u. Teško je definirati oštar prag (na primjer, na temelju veličine ili složenosti) razlikovati makromolekularnu i staničnu tomografsku rekonstrukciju. Stoga se preporučuje da se to ne razlikuje u ovom trenutku i da EMDB treba nastaviti s obje vrste rekonstrukcija. To znači da će novi EMDB model podataka trebati obraditi primjedbe relevantne za obje vrste tomografije. Na primjer, molekularni opis uzorka možda nije moguć ili ima smisla u staničnoj tomografiji, a tehnike pripreme uzoraka se razlikuju.

Standardi i konvencije

Standardi i konvencije za cijelu zajednicu važni su za razmjenu podataka između softverskih paketa i pohranu podataka u javne arhive. 2004. godine bilo je nastojanja na razini cijele zajednice da se definiraju takve konvencije (//rcsb-cryo-em-development.rutgers.edu/), i iako su neki paketi to usvojili u različitim stupnjevima, mnogi od glavnih nisu. U mnogim slučajevima programeri imaju opravdane razloge za prihvaćanje vlasničkih formata; Nakon što su već implementirali puno rutina koristeći ove formate, malo se što može postići promjenom. Kako je JRS naglasio, iskustvo na polju svjetlosne mikroskopije je da nije dovoljno jednostavno definirati standarde i konvencije, već da je zajednici potrebno pružiti zajedničku biblioteku softvera kako bi se omogućila pretvorba podataka u i iz konvencionalnog standarda 13 . OME je to učinio s bibliotekom BioFormats (//www.openmicroscopy.org/site/support/bio-formats/) koja sada također podržava nekoliko 3DEM formata, uključujući Spider (//www.wadsworth.org/spider_doc/spider /docs/image_doc.html), Imagic (//www.imagescience.de/formats.html) i MRC (//www2.mrc-lmb.cam.ac.uk/image2000.html). Također, kako je tvrdio JBH, alati za provjeru valjanosti za ispitivanje parametara karte, procjenu simetrije karte i provjeru orijentacijskih pretvorbi su od ključne važnosti za osiguravanje točnog prijevoda formata podataka. EMDataBank će uspostaviti portal radi pružanja pristupa takvim alatima i promovirat će razvoj novih alata.

JBH je predložio novi format karte koji će biti u mogućnosti obraditi do petodimenzionalnih podataka (kanali, x , y , z i volumeni) i neće biti ograničen naslijeđenim pitanjima koja muče druge formate (često izvedeni iz CCP4 mape format (//www.ccp4.ac.uk/html/maplib.html#description) koji se koristi u makromolekularnoj kristalografiji). Međutim, neki su sudionici tvrdili da je kompatibilnost s CCP4 zahtjev. MW je predložio da se 3DEM zajednica ne bi ometala zahtjevima rendgenske zajednice u definiranju njenih formata. Djelomično je to zato što kristalografi sve češće pohranjuju koeficijente karata i računaju karte što umanjuje važnost karata i formata karata. O tom pitanju nije postignut konsenzus, ali nedavna CCP-EM inicijativa, s bliskim vezama s CCP4 i Collaborative Computing Project for NMR (CCPN) 23, pruža priliku za razvoj formata prihvatljivog za 3DEM programere i podržanog odgovarajućom kristalografijom softver.

Iz perspektive EMDataBank i wwPDB, postoji hitna potreba za rješavanjem pitanja oko standarda i konvencija kako bi se ugradili 3DEM metode provjere u D&A cjevovod. Općenito je dogovoreno da će sudionici prilagoditi svoj softver i prakse standardima koje je EMDataBank predložio i usvojio te bi stoga EMDataBank trebao voditi ovu inicijativu.

Zaključci

  • PDBe će istražiti upotrebu SAXS podataka za provjeru 3DEM karte.

  • EMDataBank će voditi napore na poboljšanju standarda izvješćivanja za provjeru valjanosti 3DEM-a i započeti pružanjem sveobuhvatnog opisa FSC metode u novom EMDB modelu podataka.

  • PDBe i OME će koristiti OMERO za postavljanje baze podataka testnih slika za 3DEM.

  • EMDataBank će voditi napore na razvoju formata datoteke segmentacije s 3DEM zajednicom.

  • EMDataBank će surađivati ​​s elektronsko-tomografskom zajednicom radi rješavanja problema oko deponiranja tomografskih podataka u arhivu EMDB.

  • EMDataBank će uspostaviti portal radi pružanja pristupa alatima za provjeru valjanosti i promovirat će razvoj novih.

  • EMDataBank vodit će napore na definiranju i promociji standarda i konvencija za 3DEM.

primki

Elektronska mikroskopska banka podataka

  • 1831
  • 1894
  • 1941
  • 1949
  • 5256

Banka podataka o proteinima

  • 2XZB
  • 2XZB 3d prikaz
  • 2YGD
  • 3D prikaz 2GGD
  • 3IZX
  • 3IZX 3d prikaz
  • 3ZYS
  • 3ZYS 3d prikaz