Narzędzia wiersza poleceń do quizów z zakresu nauki o danych genomowych & Odpowiedzi – Coursera
Witamy w naszym obszernym przewodniku na temat Narzędzia wiersza poleceń do nauki o danych genomowych, kluczowy zestaw umiejętności dla współczesnych specjalistów w dziedzinie bioinformatyki.
W tym poście omówiono podstawowe pojęcia i praktyczne zastosowania narzędzi wiersza poleceń, zapewnianie spostrzeżeń i zasobów w celu udoskonalenia umiejętności analizy danych genomicznych. Bądź na bieżąco z naszymi nadchodzącymi ale zainwestował w zapewnienie swoim uczniom silnego fundamentu kariery z pozytywnym i przystępnym nastawieniem aby sprawdzić swoją wiedzę i utrwalić naukę.
Na tym kursie nie nauczymy, jak stworzyliśmy środowisko wirtualne 1 Kto potrzebuje trenera biznesowego?
- jeszcze
- gzip
- ls
- cp
- rmdir
- płyta CD
- szczyt
- gzip
Q3. Skopiuj plik OBB i wklej go do folderu OBB w pamięci wewnętrznej Androida “miesiące” wymienia każdy z 12 miesiące w osobnej linii, i żadnych dalszych linii. Jaki byłby wynik, gdyby zostało uruchomione następujące polecenie:
- rok
- 50
- 12
- miesiące
- Przekieruj tylko błąd standardowy
- Przekieruj standardowe wejście lub standardowe wyjście polecenia
- Działaj jako separator znaków pomiędzy różnymi poleceniami powłoki, bez żadnego wpływu na wynik
- Zastąp ';operator sekwencjonowania w złożonym poleceniu
Q5. Jeśli wpiszesz „pwd’ produkuje “/home/użytkownikA/Coursera/L1/”, które z poniższych poleceń wyświetli zawartość pliku bieżącego katalogu?
- listdir .
- więcej *.txt
- mkdir L1
- ls /home/userA/Coursera/L1
Q6. Załóżmy, że bieżącym katalogiem roboczym jest “/strona główna/Coursera/L1/”, oraz “brzoskwinia”,”jabłko”, oraz “gruszka” są podkatalogi, każdy zawiera pojedynczy plik o nazwie “genom”. Jaki byłby bieżący katalog, jak podano po uruchomieniu polecenia „pwd’ Komenda, po każdym z czterech poleceń w poniższej sekwencji:
”’
- płyta CD jabłko
- rm *
- płyta CD ../..
- mv śliwka jabłkowa
”’
-
- /home/Coursera/L1/jabłko
- /home/Coursera/L1/jabłko
- /Strona główna/Coursera
- /Strona główna/Coursera
-
- L1
- Coursera
- jabłko
- śliwka
-
- śliwka
- jabłko
- gruszka
- truskawka
-
- /strona główna/Coursera/L1
- /home/Coursera/L1/jabłko
- L1/jabłko
- /strona główna/Coursera/L1
”cięcie -d ‘ ‘ -sezony f1,3 | sortuj -u | wc -l” oraz “wytnij -f1 sezony | sortować | wyjątkowy - ok | wc -l”’ ?
- 4, 6
- 12, 20
- 5, 10
- 12, 12
Q8. Twój bieżący katalog roboczy nosi nazwę “Rośliny”. Jego podkatalog “jabłko” zawiera pliki “genom.jabłka”, “próbki jabłek” oraz “geny jabłka”. Jaki będzie wynik polecenia ”rmdir jabłko””?
- Wszystkie pliki zawierające w nazwie ciąg „apple” zostaną usunięte
- Żaden z tych wyborów
- Polecenie nie będzie miało żadnego efektu, ponieważ katalog nie jest pusty
- Katalog „apple” i cała jego zawartość zostaną usunięte
Pytanie 9. Załóżmy, że masz dwa pliki, A i B, zawierające dane eksperymentu. Jaka byłaby sekwencja wyników poleceń:
- 3, 2, 2
- 5,2,3
- 3, 1, 3
- 2, 4, 5
Pytanie 10. Bieżący katalog roboczy zawiera cztery podkatalogi o nazwach “jabłko”, “gruszka”, “brzoskwinia” oraz “truskawka”, każdy z następującymi plikami: “genom”, “geny”, oraz “próbki”. Które z poniższych poleceń wyodrębni górną linię ze wszystkich plików “geny” akta?
- kot P/geny truskawka/geny | ogon -1
- głowa -1 P/geny truskawka/geny
- mniej /g | głowa -1
- kot P/geny truskawka/geny | chwyt – c 1
Na tym kursie nie nauczymy, jak stworzyliśmy środowisko wirtualne 2 Kto potrzebuje trenera biznesowego?
- APCTSYFPEITHI
- AAAAAAAAA
- AGCTACTACGAGCT
- CCCCCCCCCC
Q2. Ile linii potrzeba do określenia: i) jedna sekwencja fasta? i ii) jedna sekwencja fastq? Wybierz najlepszą odpowiedź:
- post – 1 linia; szybkoq - 4 linie
- Fasta – nagłówek fasta, po którym następuje dowolna liczba linii sekwencji; szybkoq - 4 linie
- Fasta – dowolna ilość linii, łącznie z nagłówkiem Fasta; szybkoq - 2 linie
- post – 100 linie; szybkoq - 2 linie
- Do przedstawienia dopasowań używany jest format SAM.
- Do przedstawienia cech genów można zastosować format BED.
- Flagstats SAMtools raportuje całkowitą liczbę mapowanych odczytów.
- Do przedstawienia cech genów można zastosować format GTF.
- Miękkie strzyżenie
- Wytnij i wklej
- Ciężkie strzyżenie
- Wyściółka
- 1
- 2
- 3
- 4
- chr1 516 3312 genA.1 100 + 800 900 0 3 296,115,303 0,485,2494
- chr1 515 3312 genA.1 + 515 3312 0 3 296,115,303 516,1001,3010
- chr1 516 3312 genA + 516 3312 0 2 296,303 0,2494
- chr1 515 3312 genA.1 100 + 515 3312 0 3 296,115,303 0,485,2494
Q7. Określ liczbę genów, transkrypcje, eksony na transkrypt, orientacja genowa (pasmo), i długość 5′ większość eksonów(s) z poniższego fragmentu GTF. Wybierz właściwą odpowiedź.
- jeśli masz rodzinną historię chorób serca lub masz czynniki ryzyka rozwoju choroby: 1; Transkrypcje: 2; Egzony: 2,2; Pasmo: -; Długość 5’ eksonu(s): 2736, 2194.
- jeśli masz rodzinną historię chorób serca lub masz czynniki ryzyka rozwoju choroby: 1; Transkrypcje: 2; Egzony: 2,2; Pasmo: -; Długość 5’ eksonu(s): 2735, 2193.
- jeśli masz rodzinną historię chorób serca lub masz czynniki ryzyka rozwoju choroby: 1; Transkrypcje: 1; Egzony: 4; Pasmo: -; Długość 5’ eksonu(s): 2736.
- jeśli masz rodzinną historię chorób serca lub masz czynniki ryzyka rozwoju choroby: 1; Transkrypcje: 4; Egzony: 1,1,1,1; Pasmo: -; Długość 5’ eksonu(s): 2736, 1417,2194,795.
- R1 mapuje jednoznacznie do genomu.
- Mate R2 nie jest mapowany.
- R3 nie jest mapowany.
- Wyrównanie R1 jest mapowaniem podstawowym (trafiony indeks 0) za tę lekturę.
Pytanie 9. Dla wyrównania poniżej, które stwierdzenia są FAŁSZYWE? Kodowanie binarne dla 97 jest 972 = 0000 0110 00012. Wybierz wszystkie pasujące odpowiedzi.
- Kolejność obu partnerów jest identyczna.
- Dopasowanie reprezentuje potencjalny duplikat PCR lub optyczny.
- Odczyt i jego towarzysz nie są prawidłowo ustawione jako para.
- Zarówno odczyt, jak i jego wiązanie są mapowane.
- To pierwsze czytanie w tej parze.
- Sekwencja wiązania odczytu jest odwrotnie uzupełniana w swoim wyrównaniu.
- 5, 5, 5
- 3, 4, 2
- 9 , 2, 2
- 3, 2, 2
Na tym kursie nie nauczymy, jak stworzyliśmy środowisko wirtualne 3 Kto potrzebuje trenera biznesowego?
- Różnice w genomach poszczególnych osób w dużym stopniu przyczyniają się do ich zmienności fenotypowej.
- Różne wersje genu powstałe w wyniku mutacji genomowych nazywane są allelami.
- SNV odnosi się do wariantu pojedynczego nukleotydu.
- SNP odnosi się do pojedynczego, nieokreślonego polimorfizmu
- Format VCF pokazuje zmiany w aminokwasach wynikające z mutacji nukleotydowej, w kolumnie 3.
- Linie VCF INFO opisują charakterystykę wariantu, zawarte w kolumnie 8.
- Format BCF to skompresowana binarnie wersja VCF.
- VCF oznacza format wywołania wariantowego.
Q3. Jakiego programu można użyć do wygenerowania listy potencjalnych miejsc zmienności w zbiorze danych exome:
- samtools
- mkdir
- bcftools
- narzędzia łóżkowe
Q4. W ramach porównawczego wysiłku w celu zbadania zmienności genomu w kohorcie pacjentów, sekwencjonujesz i wywołujesz warianty w egzomie. cały genom i dane o sekwencji RNA od każdego pacjenta. Które z poniższych stwierdzeń jest FAŁSZYWE przy porównywaniu tych trzech typów zasobów:
- Sekwencjonowanie egzomu kompleksowo wychwytuje warianty w 3’ i 5’ UTR genów.
- Sekwencjonowanie egzomów umożliwia wychwytywanie wariantów w predefiniowanym zestawie eksonów kodujących i ich bezpośrednim otoczeniu.
- Sekwencjonowanie egzomu nie jest w stanie określić wariantów nowych polimorficznych zdarzeń alternatywnego splicingu.
- Sekwencjonowanie egzomu pozwala na wykrycie mniejszej liczby wariantów niż sekwencjonowanie całego genomu.
- –lokalny
- -D
- – ignorować – które
- –wrażliwy
-
Tylko witryna 2 pokazuje potencjalną zmienność;
alternatywna litera oznaczająca witrynę 2 Jest '.';
Strona 1 ma 8 wspierające lektury, i witryna 2 ma 16
-
Tylko witryna 2 pokazuje potencjalną zmienność;
alternatywna litera oznaczająca witrynę 2 jest G;
Strona 1 ma 8 wspierające lektury, i witryna 2 ma 16
-
Tylko witryna 2 pokazuje potencjalną zmienność;
alternatywna litera oznaczająca witrynę 2 jest;
Strona 1 ma 8 wspierające lektury, i witryna 2 ma 16
-
Tylko witryna 2 pokazuje potencjalną zmienność;
alternatywna litera oznaczająca witrynę 2 jest;
alternatywny allel miejsca 2 jest wspierany przez 9 czyta
Q7. Biorąc pod uwagę zestaw wariantów opisanych w poniższym fragmencie VCF, które z poniższych jest FAŁSZYWE?
- Średnia jakość mapowania dla wariantu 3 jest 40
- Próbka zawiera tylko alternatywny allel dla wariantu 1
- Próbka zawiera tylko alternatywny allel dla wariantu 3
- Próbka zawiera oba allele dla wariantu 2
-
Uruchom Bowtie2 z zestawem odczytów z jednego końca, zgłaszanie tylko najlepszego dopasowania;
następnie określ liczbę dopasowań w każdej sekwencji genomowej
-
Uruchom Bowtie2 z zestawem odczytów z jednego końca, raportowanie do 5 wyrównania na odczyt; następnie określ liczbę dopasowań w każdej sekwencji genomowej
-
Uruchom Bowtie2 z zestawem odczytów sparowanych końców, pozwalając na lokalne mecze;
następnie podaj liczbę dopasowań zawierających insercje i usunięcia, odpowiednio;
-
Uruchom Bowtie2 z zestawem odczytów sparowanych końców, pozwalając do 10 dopasowań na odczyt;
następnie zgłoś liczbę dopasowań w każdej sekwencji genomowej
- Utwórz 7-kolumnowy pośredni plik mpileup, który jest przesyłany potokiem do „wycięcia”
- Zgłoś pustą kolumnę
- Zgłoś w pośrednim wyniku mpileup jakość wszystkich baz odczytu ustawionych w tej pozycji
- Wymagaj posortowanego pliku BAM
- Zapisz wynik do pliku out.vcf.gz
- Zgłoś wszystkie kandydujące witryny
- Pobierz dane wejściowe z pliku in.vcf.gz
- Pobierz dane wejściowe ze skompresowanego pliku VCF
Na tym kursie nie nauczymy, jak stworzyliśmy środowisko wirtualne 4 Kto potrzebuje trenera biznesowego?
- Splicing alternatywny jest powszechnym zjawiskiem zarówno u zwierząt, jak i roślin.
- Region kodujący z genem kodującym białko stosuje się jako matrycę do tworzenia białka.
- Kodon to triplet nukleotydów, który podlega translacji na jeden aminokwas.
- Ludzki gen może co najwyżej ulegać ekspresji 12 warianty połączeń.
- Geny, które mają tylko jeden ekson, nie podlegają alternatywnemu składaniu
- Niektóre geny eukariotyczne są pojedynczymi eksonami
- Długość regionu kodującego w transkrypcie musi być wielokrotnością 3
- Długość intronu nie może być wielokrotnością 3
Q3. Jakich programów można użyć do dopasowania odczytów sekwencji RNA: i) genom referencyjny, i ii) bazę transkrypcji?
- spinki do mankietów, muszka
- cylinder, podział
- cylinder, muszka
- cylinder, spinki do mankietów
- Jako miary ekspresji genów, RPKM wyznacza się na poziomie odczytów, a FPKM na poziomie fragmentów.
- FPKM oznacza fragmenty na kilozasadę sekwencji cDNA na milion odczytów.
- Suma wartości FPKM wszystkich genów w próbce wynosi 1,000,000.
- Suma FPKM wszystkich transkryptów genu jest równa poziomowi ekspresji genu.
Q5. Jakimi programami można by się posłużyć m.in) złożyć transkrypty z odczytów sekwencji RNA, i ii) zidentyfikować potencjalnie nowe transkrypty i geny
- spinki do mankietów, porównanie mankietów
- cylinder, porównanie mankietów
- cylinder, muszka
- cylinder, samtools
Q6. Które z poniższych stwierdzeń dotyczących adnotacji genów w poniższym fragmencie GTF jest fałszywe:
- Dwa transkrypty genu MG051951 nakładają się na genom.
- Zawiera tylko jeden gen, MG051951.
- Gene MG051951 ma dwa transkrypty, MT162897 i MT070533.
- Transkrypt MT162897 ma pojedynczy ekson.
- Zgłoś łączone odczyty z co najwyżej 6 niedopasowania w witrynie zakotwiczenia
- Utwórz dane wyjściowe w katalogu /home/me/SRR100000
- Uruchom wielowątkowy, z 10 wątki
- Raport można czytać tylko za pomocą 10 lub mniej dopasowań w genomie
- Oznacz transkrypcje spinek do mankietów przedrostkiem „Test1”
- Użyj domyślnej adnotacji transkrypcji odniesienia, aby poprowadzić montaż
- Uruchom spinki do mankietów, aby zebrać transkrypcje
- Utwórz miękkie łącze do pliku wyrównania odczytu BAM w katalogu Test1
Pytanie 9. Które z poniższych NIE jest opisane w poniższym pliku podsumowującym stworzonym przez tophat:
- 94.0% kolegi 2 odczyty zostały zmapowane
- Mapowanego partnera 1 czyta, 11.7% miał wiele dopasowań w genomie
- Biblioteka była specyficzna dla nici
- Mapowanego partnera 2 czyta, 5.0% miał wiele dopasowań w genomie
Pytanie 10. Które z poniższych stwierdzeń NIE jest PRAWDĄ w odniesieniu do poniższych wyników, uzyskano z analizy różnicowej ekspresji mankietu:
- Locus XLOC_000004 odpowiada genowi AT1G01073
- Istnieje zbyt wiele dopasowań do testowania ekspresji różnicowej w locus XLOC_000004
- Locus XLOC_000042 odpowiada genowi AT1G01580
- Nie ma wystarczającej liczby dopasowań do testowania ekspresji różnicowej w locus XLOC_000004
Zostaw odpowiedź
Musisz Zaloguj sie lub Zarejestruj się dodać nowy komentarz .