Sunteți pe pagina 1din 1

Stanciulescu Alexandra

Biochimie III, grupa 2

Am folosit tool-ul Download and Extract Reads in FASTA/Q format from NCBI SRA pentru
a incarca secventa SRR223496.
Am accesat pagina secventei in baza de date NCBI SRA. Proba ce a fost utilizata pentru
secventiere este albumina serica, ce provine dintr-un tesut uman. Am observat scopul cu care a
fost realizata secventierea in sectiunea Study, apasand pe show Abstract).
Am realizat controlul calitatii, utilizand FASTQC. Am inserat in documentul tema graficul care
arata calitatea medie/nucleotid.
Am decis ca este nevoie sa curat secventele si am utilizat Trimmomatic (Sliding window
trimming, Number of bases to average across 4, Average quality required 25). Am observat ca
zonele rosii sunt mult mai putin evidente, majoritatea nucleotidelor fiind acum cuprinse in
intervalul verde-galben.
Am aliniat la genomul de referinta hg38, utilizand Map with BWA-MEM si am sortat fisierul
de aliniere utilizand SortSam.
Am vizualizat alinierea, utilizand IGV si am ales genomul de referinta hg38. De asemenea, am
ales sa afisez in detaliu regiunea ocupata de gena BRCA1, pe care am scris-o in campul de
rafinare a alinierii. Deoarece nu puteam sa vizualizez exact modul in care s-au aliniat
fragmentele, am dat zoom pentru a identifica o regiune cu acoperire buna (high coverage). Am
atasat snapshot-ul aferent.
Ulterior, am identificat variantele folosind FreeBayes, considerand genomul de referinta hg38.
Am restrictionat analiza variant calling la regiunea care cuprinde gena BRCA1. Astfel, la “Limit
variant calling to a set of regions” am ales “Limit to region” si am completat cromozomul, cu
prima nucleotida din gena la Region Start si ultima nucleotida la Region End. Intervalul pe care
l-am considerat este 43042295-43127483.
Am descarcat fisierul cu extensia vcf care contine variantele si am utilizat VEP pentru a prezice
efectul lor. Am verificat semnificatia clinica a variantelor, in lista de rezultate. Notati variantele
cu semnificatie patologica utilizand codul acestora.
In urma analizei VEP, am obtinut 3 variante procesate, dintre care una este variant missense.
Mutatiile missense presupun schimbarea aminoacidului codificat.
Variantele cu semnificatie patologica sunt: rs80357906 (“pathogenic- factor de risc) si
rs80358044, cat si CS031769 (“likely pathogenic”) (McLaren et al., 2016).