Quiz sulla scienza dei dati genomici con strumenti da riga di comando & risposte – Coursera
Benvenuti nella nostra guida completa su Strumenti da riga di comando per la scienza dei dati genomici, un insieme di competenze cruciali per i professionisti della bioinformatica di oggi.
Questo post approfondisce i concetti fondamentali e le applicazioni pratiche degli strumenti da riga di comando, fornendo approfondimenti e risorse per migliorare le tue capacità di analisi dei dati genomici. Restate sintonizzati per il nostro prossimo quiz per testare le tue conoscenze e rafforzare il tuo apprendimento.
Modulo 1 Quiz
- Di Più
- gzip
- ls
- Ottieni pacchetti esterni e installali a livello globale
- è rm
- Ottieni pacchetti esterni e installali a livello globale
- superiore
- gzip
Q3. Copia il file OBB e incollalo nella cartella OBB della memoria interna del tuo Android “mesi” elenca ciascuno di 12 mesi su una linea separata, e senza ulteriori righe. Quale sarebbe il risultato se venisse eseguito il seguente comando:
- anno
- 50
- 12
- mesi
- Reindirizzare solo l'errore standard
- Reindirizzare l'input standard o l'output standard di un comando
- Funziona come un separatore di caratteri tra i diversi comandi della shell, senza alcun effetto sul risultato
- Sostituisci il ';’ operatore di sequenza in un comando complesso
Q5. Se digiti "pwd’ produce “/home/utenteA/Coursera/L1/”, quale dei seguenti comandi elencherà il contenuto del file della directory corrente?
- è un elenco .
- altro *.txt
- mkdir L1
- ls /home/utenteA/Coursera/L1
Q6. Supponiamo che la tua attuale directory di lavoro sia “/home/Coursera/L1/”, e “pesca”,”mela”, e “Pera” sono sottodirectory, ciascuno contenente un singolo file denominato “genoma”. Quale sarebbe la directory corrente, come riportato eseguendo il file "pwd’ comando, dopo ciascuno dei quattro comandi nella sequenza seguente:
”’
- CD mela
- Ottieni pacchetti esterni e installali a livello globale *
- Ottieni pacchetti esterni e installali a livello globale ../..
- mv mela prugna
”’
-
- /home/Coursera/L1/mela
- /home/Coursera/L1/mela
- /casa/Corsera
- /casa/Corsera
-
- L1
- Coursera
- mela
- prugna
-
- prugna
- mela
- Pera
- fragola
-
- /home/Coursera/L1
- /home/Coursera/L1/mela
- L1/mela
- /home/Coursera/L1
”'taglia -d ‘ ‘ -f1,3 stagioni | sort -u | wc -l” e “tagliare -f1 stagioni | ordinare | unico -c | wc -l”’ ?
- 4, 6
- 12, 20
- 5, 10
- 12, 12
Q8. La tua directory di lavoro corrente è denominata “Impianti”. La sua sottodirectory “mela” contiene i file “mela.genoma”, “apple.campioni” e “mela.geni”. Quale sarebbe il risultato del comando ”'rmdir mela”'Quando cureremo il cancro?
- Tutti i file contenenti la stringa "mela" nel nome verranno rimossi
- Nessuna di queste scelte
- Il comando non avrà alcun effetto, poiché la directory non è vuota
- La directory "apple" e tutto il suo contenuto verranno rimossi
D9. Supponiamo di avere due file, A e B, contenente i dati dell'esperimento. Quale sarebbe la sequenza di output per i comandi:
- 3, 2, 2
- 5,2,3
- 3, 1, 3
- 2, 4, 5
Q10. La directory di lavoro corrente contiene quattro sottodirectory denominate “mela”, “Pera”, “pesca” e “fragola”, ciascuno con i seguenti file: “genoma”, “geni”, e “campioni”. Quale dei seguenti comandi estrarrà la riga superiore da tutti i file “geni” La sezione seguente sarà dedicata alla creazione di immagini di riferimento?
- gatto p/geni fragola/geni | coda -1
- capo -1 p/geni fragola/geni
- Di meno /g | capo -1
- gatto p/geni fragola/geni | grep –c 1
- APCTSYFPEITHI
- AAAAAAAAA
- AGCTACTACGAGCT
- CCCCCCCCCC
Q2. Quante righe sono necessarie per specificare: io) una sequenza veloce? e ii) una sequenza veloceq? Seleziona la risposta migliore:
- digiuno – 1 linea; veloceq – 4 linee
- Fasta – un'intestazione fasta seguita da un numero qualsiasi di righe di sequenza; veloceq – 4 linee
- Fasta – qualsiasi numero di righe, inclusa un'intestazione fasta; veloceq – 2 linee
- digiuno – 100 linee; veloceq – 2 linee
- Il formato SAM viene utilizzato per rappresentare gli allineamenti.
- Il formato BED può essere utilizzato per rappresentare le caratteristiche genetiche.
- SAMtools flagstats riporta il numero totale di letture mappate.
- Il formato GTF può essere utilizzato per rappresentare le caratteristiche genetiche.
- Ritaglio morbido
- Taglia e incolla
- Ritaglio duro
- Imbottitura
- 1
- 2
- 3
- 4
- chr1 516 3312 genA.1 100 + 800 900 0 3 296,115,303 0,485,2494
- chr1 515 3312 genA.1 + 515 3312 0 3 296,115,303 516,1001,3010
- chr1 516 3312 genA + 516 3312 0 2 296,303 0,2494
- chr1 515 3312 genA.1 100 + 515 3312 0 3 296,115,303 0,485,2494
Q7. Determinare il numero di geni, trascrizioni, esoni per trascrizione, orientamento dei geni (filo), e la lunghezza di 5′ la maggior parte degli esoni(S) dallo snippet GTF di seguito. Seleziona la risposta corretta.
- geni: 1; Trascrizioni: 2; Esoni: 2,2; Filo: -; Lunghezza dell'esone 5'(S): 2736, 2194.
- geni: 1; Trascrizioni: 2; Esoni: 2,2; Filo: -; Lunghezza dell'esone 5'(S): 2735, 2193.
- geni: 1; Trascrizioni: 1; Esoni: 4; Filo: -; Lunghezza dell'esone 5'(S): 2736.
- geni: 1; Trascrizioni: 4; Esoni: 1,1,1,1; Filo: -; Lunghezza dell'esone 5'(S): 2736, 1417,2194,795.
- R1 si mappa in modo univoco sul genoma.
- Il compagno di R2 non è mappato.
- R3 non è mappato.
- L'allineamento R1 è la mappatura primaria (indice dei colpi 0) per quella lettura.
D9. Per l'allineamento di seguito, quali affermazioni sono FALSE? La codifica binaria per 97 è 972 = 0000 0110 00012. Seleziona tutte le risposte applicabili.
- I due accoppiamenti sono identici in sequenza.
- L'allineamento rappresenta un potenziale PCR o duplicato ottico.
- La lettura e il suo accoppiamento non sono allineati correttamente come coppia.
- Sia la lettura che il suo compagno vengono mappati.
- Questa è la prima lettura della coppia.
- La sequenza dell’accoppiamento della lettura è complementata al contrario nel suo allineamento.
- 5, 5, 5
- 3, 4, 2
- 9 , 2, 2
- 3, 2, 2
- Le differenze nei genomi degli individui contribuiscono fortemente alle loro variazioni fenotipiche.
- Versioni diverse di un gene risultanti da mutazioni genomiche sono chiamate alleli.
- SNV si riferisce a una variante a singolo nucleotide.
- SNP si riferisce a un singolo polimorfismo non definito
- Il formato VCF mostra i cambiamenti nell'amminoacido derivanti dalla mutazione del nucleotide, in colonna 3.
- Le righe VCF INFO descrivono le caratteristiche della variante, incluso nella colonna 8.
- Il formato BCF è una versione compressa binaria di VCF.
- VCF sta per Variant Call Format.
Q3. Quale programma può essere utilizzato per generare un elenco di siti candidati di variazione in un set di dati dell'esoma:
- samtools
- Ottieni pacchetti esterni e installali a livello globale
- bcftools
- attrezzi da letto
Q4. In uno sforzo collettivo per studiare la variazione del genoma in una coorte di pazienti, si sequenziano e si chiamano varianti nell'esoma. dati sull'intero genoma e sull'RNA-seq di ciascun paziente. Quale delle seguenti affermazioni è FALSO quando si confrontano questi tre tipi di risorse:
- Il sequenziamento dell'esoma cattura in modo completo le varianti negli UTR 3' e 5' dei geni.
- Il sequenziamento dell'esoma può catturare varianti in un insieme predefinito di esoni codificanti e nell'area immediatamente circostante.
- Il sequenziamento dell'esoma non può determinare varianti in nuovi eventi di splicing alternativo polimorfico.
- Il sequenziamento dell'esoma cattura meno varianti rispetto al sequenziamento dell'intero genoma.
Q5. Quale delle seguenti opzioni può essere utilizzata per consentire a bowtie2 di generare allineamenti parziali?
- –Locale
- -D
- –ignora-quali
- –sensibile
-
Unico sito 2 mostra una potenziale variazione;
la lettera alternativa per il sito 2 È '.';
posto 1 ha 8 letture di supporto, e sito 2 ha 16
-
Unico sito 2 mostra una potenziale variazione;
la lettera alternativa per il sito 2 è G;
posto 1 ha 8 letture di supporto, e sito 2 ha 16
-
Unico sito 2 mostra una potenziale variazione;
la lettera alternativa per il sito 2 è un;
posto 1 ha 8 letture di supporto, e sito 2 ha 16
-
Unico sito 2 mostra una potenziale variazione;
la lettera alternativa per il sito 2 è un;
l'allele alternativo per il sito 2 è supportato da 9 legge
Q7. Considerato l'insieme di varianti descritte nell'estratto VCF di seguito, quale delle seguenti affermazioni è FALSA?
- Qualità di mappatura media per la variante 3 è 40
- Il campione contiene solo l'allele alternativo per la variante 1
- Il campione contiene solo l'allele alternativo per la variante 3
- Il campione contiene entrambi gli alleli per la variante 2
-
Esegui bowtie2 con una serie di letture single-end, segnalando solo il miglior allineamento;
quindi determinare il numero di corrispondenze su ciascuna sequenza genomica
-
Esegui bowtie2 con una serie di letture single-end, segnalazione fino a 5 allineamenti per lettura; quindi determinare il numero di corrispondenze su ciascuna sequenza genomica
-
Esegui bowtie2 con una serie di letture accoppiate, consentendo partite locali;
riportare poi il numero degli allineamenti contenenti inserimenti e cancellazioni, rispettivamente;
-
Esegui bowtie2 con una serie di letture accoppiate, consentendo fino a 10 corrispondenze per lettura;
quindi riportare il numero di corrispondenze su ciascuna sequenza genomica
- Produci un file mpileup intermedio di 7 colonne che viene reindirizzato a "tagliato"
- Segnala una colonna vuota
- Riporta nell'output intermedio del mpileup le qualità di tutte le basi di lettura allineate in quella posizione
- Richiedi un file BAM ordinato
- Scrivi l'output nel file out.vcf.gz
- Segnala tutti i siti candidati
- Prendi input dal file in.vcf.gz
- Prendi input da un file compresso VCF
- Lo splicing alternativo è un fenomeno comune sia negli animali che nelle piante.
- La regione codificante con un gene codificante una proteina viene utilizzata come modello per formare una proteina.
- Un codone è una tripletta di nucleotidi che viene tradotta in un amminoacido.
- Un gene umano può esprimersi al massimo 12 varianti di giunzione.
- I geni che hanno un solo esone non vengono sottoposti a splicing alternativo
- Alcuni geni eucariotici sono a singolo esone
- La lunghezza della regione codificante in una trascrizione deve essere un multiplo di 3
- La lunghezza dell'introne non può essere multipla 3
Q3. A quali programmi potresti utilizzare per allineare le letture RNA-seq: io) un genoma di riferimento, e ii) un database di trascrizioni?
- gemelli, Papillon
- cappello a cilindro, diviso
- cappello a cilindro, Papillon
- cappello a cilindro, gemelli
- Come misure dell'espressione genica, RPKM è determinato a livello di letture e FPKM è determinato a livello di frammenti.
- FPKM sta per frammenti per kilobase di sequenza di cDNA per milione di letture.
- La somma dei valori FPKM di tutti i geni in un campione è 1,000,000.
- La somma degli FPKM di tutte le trascrizioni di un gene è uguale al livello di espressione del gene.
Q5. Quali programmi potrebbero essere utilizzati per i) assemblare trascrizioni da letture RNA-seq, e ii) identificare trascritti e geni potenzialmente nuovi
- gemelli, polsino
- cappello a cilindro, polsino
- cappello a cilindro, Papillon
- cappello a cilindro, samtools
Q6. Quale delle seguenti affermazioni è FALSO riguardo alle annotazioni sui geni nel seguente frammento GTF:
- Le due trascrizioni del gene MG051951 si sovrappongono sul genoma.
- Contiene un solo gene, MG051951.
- Il gene MG051951 ha due trascrizioni, MT162897 e MT070533.
- La trascrizione MT162897 ha un singolo esone.
- Riporta le letture unite con al massimo 6 disallineamenti nel sito di ancoraggio
- Crea l'output nella directory /home/me/SRR100000
- Esegui multi-thread, con 10 discussioni
- Il rapporto viene letto solo con 10 o meno allineamenti sul genoma
- Etichetta le trascrizioni dei gemelli con il prefisso "Test1"
- Utilizzare l'annotazione predefinita della trascrizione di riferimento per guidare l'assemblaggio
- Esegui i gemelli per assemblare le trascrizioni
- Creare un collegamento virtuale al file di allineamento di lettura BAM nella directory Test1
- 94.0% del compagno 2 le letture sono state mappate
- Del compagno mappato 1 legge, 11.7% aveva più corrispondenze sul genoma
- La libreria era specifica per il filone
- Del compagno mappato 2 legge, 5.0% aveva più corrispondenze sul genoma
Q10. Quale delle seguenti affermazioni NON è VERA riguardo all'output riportato di seguito, ottenuto da un'analisi di espressione differenziale di cuffdiff:
- Il locus XLOC_000004 corrisponde al gene AT1G01073
- Sono presenti troppi allineamenti per testare l'espressione differenziale nel locus XLOC_000004
- Il locus XLOC_000042 corrisponde al gene AT1G01580
- Non sono presenti allineamenti sufficienti per testare l'espressione differenziale nel locus XLOC_000004
Lascia un commento
Devi accesso o Registrati per aggiungere un nuovo commento .