Schrotflinten-Sequenzierung – Wikipedia

Methode zur Sequenzierung zufälliger DNA-Stränge

In der Genetik, Schrotflinten-Sequenzierung ist eine Methode zur Sequenzierung zufälliger DNA-Stränge. Es ist in Analogie zu der schnell expandierenden, quasi zufälligen Schussgruppierung einer Schrotflinte benannt.

Die Kettenabbruchmethode der DNA-Sequenzierung (“Sanger-Sequenzierung”) kann nur für kurze DNA-Stränge von 100 bis 1000 Basenpaaren verwendet werden. Aufgrund dieser Größenbeschränkung werden längere Sequenzen in kleinere Fragmente unterteilt, die separat sequenziert werden können, und diese Sequenzen werden zu der Gesamtsequenz zusammengesetzt.

Es gibt zwei Hauptmethoden für diesen Fragmentierungs- und Sequenzierungsprozess. Das Primer-Walking (oder “Chromosom-Walking”) durchläuft den gesamten Strang Stück für Stück, während die Shotgun-Sequenzierung ein schnellerer, aber komplexerer Prozess ist, der zufällige Fragmente verwendet.

Bei der Schrotflintensequenzierung[1][2] Die DNA wird zufällig in zahlreiche kleine Segmente zerlegt, die mit der Kettenabbruchmethode sequenziert werden liest. Mehrere überlappende Reads für die Ziel-DNA werden erhalten, indem mehrere Runden dieser Fragmentierung und Sequenzierung durchgeführt werden. Computerprogramme verwenden dann die überlappenden Enden verschiedener Lesevorgänge, um sie zu einer kontinuierlichen Sequenz zusammenzusetzen.[1]

Die Shotgun-Sequenzierung war eine der Vorläufertechnologien, die dafür verantwortlich war, die Sequenzierung des gesamten Genoms zu ermöglichen.

Beispiel[edit]

Betrachten Sie zum Beispiel die folgenden zwei Runden von Schrotflinten-Lesevorgängen:

Strand Reihenfolge
Original AGCATGCTGCAGTCATGCTTAGGCTA
Erste Shotgun-Sequenz AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Zweite Schrotflintensequenz AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Wiederaufbau AGCATGCTGCAGTCATGCTTAGGCTA

In diesem extrem vereinfachten Beispiel deckt keiner der Reads die volle Länge der Originalsequenz ab, aber die vier Reads können unter Verwendung der Überlappung ihrer Enden zu der Originalsequenz zusammengesetzt werden, um sie auszurichten und zu ordnen. In der Realität werden bei diesem Prozess enorme Informationsmengen verwendet, die voller Mehrdeutigkeiten und Sequenzierungsfehler sind. Der Zusammenbau komplexer Genome wird zusätzlich durch die große Fülle sich wiederholender Sequenzen erschwert, so dass ähnliche kurze Reads von völlig unterschiedlichen Teilen der Sequenz stammen können.

Viele überlappende Reads für jedes Segment der ursprünglichen DNA sind notwendig, um diese Schwierigkeiten zu überwinden und die Sequenz genau zusammenzusetzen. Um beispielsweise das Humangenomprojekt abzuschließen, wurde der größte Teil des menschlichen Genoms mit 12X oder höher sequenziert Abdeckung; das heißt, jede Base in der endgültigen Sequenz war im Durchschnitt bei 12 verschiedenen Lesevorgängen vorhanden. Trotzdem konnten die derzeitigen Methoden (Stand 2004) für etwa 1% des (euchromatischen) menschlichen Genoms keine zuverlässige Sequenz isolieren oder zusammenstellen.[3]

Gesamtgenom-Shotgun-Sequenzierung[edit]

Geschichte[edit]

Die Shotgun-Sequenzierung des gesamten Genoms für kleine Genome (4000 bis 7000 Basenpaare) wurde erstmals 1979 vorgeschlagen.[1] Das erste Genom, das durch Shotgun-Sequenzierung sequenziert wurde, war das des Blumenkohlmosaikvirus, das 1981 veröffentlicht wurde.[4][5]

Paired-End-Sequenzierung[edit]

Eine breitere Anwendung profitierte von der paarweisen Endsequenzierung, umgangssprachlich bekannt als Doppellauf-Schrotflinten-Sequenzierung. Als Sequenzierungsprojekte begannen, längere und kompliziertere DNA-Sequenzen zu übernehmen, begannen mehrere Gruppen zu erkennen, dass durch die Sequenzierung beider Enden eines DNA-Fragments nützliche Informationen erhalten werden konnten. Obwohl das Sequenzieren beider Enden desselben Fragments und das Nachverfolgen der gepaarten Daten mühsamer war als das Sequenzieren eines einzelnen Endes von zwei verschiedenen Fragmenten, war das Wissen, dass die beiden Sequenzen in entgegengesetzte Richtungen orientiert waren und ungefähr die Länge eines Fragments voneinander hatten ein anderer war wertvoll bei der Rekonstruktion der Sequenz des ursprünglichen Zielfragments.

Geschichte. Die erste veröffentlichte Beschreibung der Verwendung von gepaarten Enden war 1990[6] als Teil der Sequenzierung des humanen HGPRT-Locus, obwohl die Verwendung von gepaarten Enden auf das Schließen von Lücken nach der Anwendung eines traditionellen Shotgun-Sequenzierungsansatzes beschränkt war. Die erste theoretische Beschreibung einer reinen paarweisen Endsequenzierungsstrategie unter der Annahme von Fragmenten konstanter Länge erfolgte 1991.[7] Zu dieser Zeit bestand in der Gemeinschaft Konsens, dass die optimale Fragmentlänge für die paarweise Endsequenzierung das Dreifache der Sequenzleselänge betragen würde. 1995 haben Roach et al.[8] führten die Innovation der Verwendung von Fragmenten unterschiedlicher Größe ein und demonstrierten, dass eine reine paarweise Endsequenzierungsstrategie auf großen Targets möglich wäre. Die Strategie wurde anschließend vom Institut für Genomforschung (TIGR) übernommen, um das Genom des Bakteriums zu sequenzieren Haemophilus influenzae im Jahr 1995,[9] und dann von Celera Genomics, um die Drosophila melanogaster (Fruchtfliege) Genom im Jahr 2000,[10] und anschließend das menschliche Genom.

Ansatz[edit]

Um die Strategie anzuwenden, wird ein DNA-Strang mit hohem Molekulargewicht in zufällige Fragmente zerlegt, größenselektiert (normalerweise 2, 10, 50 und 150 kb) und in einen geeigneten Vektor kloniert. Die Klone werden dann von beiden Enden unter Verwendung des Kettenabbruchverfahrens sequenziert, was zwei kurze Sequenzen ergibt. Jede Folge heißt an Ende lesen oder lese 1 und lese 2 und zwei Lesevorgänge desselben Klons werden als . bezeichnet paare. Da das Kettenabbruchverfahren normalerweise nur Lesevorgänge zwischen 500 und 1000 Basen erzeugen kann, überlappen sich in allen außer den kleinsten Klonen die Paarungspaare selten.

Versammlung[edit]

Die ursprüngliche Sequenz wird aus den Lesevorgängen unter Verwendung einer Sequenzmontagesoftware rekonstruiert. Zuerst werden überlappende Lesevorgänge in längeren zusammengesetzten Sequenzen zusammengefasst, die als bekannt sind contigs. Contigs können miteinander verknüpft werden in Gerüste durch Verfolgen von Verbindungen zwischen Paaren. Der Abstand zwischen den Contigs kann aus den Paarungspositionen abgeleitet werden, wenn die durchschnittliche Fragmentlänge der Bibliothek bekannt ist und ein schmales Abweichungsfenster hat. Abhängig von der Größe der Lücke zwischen den Contigs können verschiedene Techniken verwendet werden, um die Reihenfolge in den Lücken zu finden. Wenn die Lücke klein ist (5-20 kb), dann ist die Verwendung der Polymerase-Kettenreaktion (PCR) erforderlich, um die Region zu amplifizieren, gefolgt von einer Sequenzierung. Wenn die Lücke groß ist (> 20 kb), wird das große Fragment in spezielle Vektoren wie bakterielle künstliche Chromosomen (BAC) kloniert, gefolgt von der Sequenzierung des Vektors.

Vor-und Nachteile[edit]

Befürworter dieses Ansatzes argumentieren, dass es möglich ist, das gesamte Genom auf einmal mit großen Sequenzer-Arrays zu sequenzieren, was den gesamten Prozess viel effizienter macht als traditionellere Ansätze. Kritiker argumentieren, dass, obwohl die Technik große DNA-Regionen schnell sequenziert, ihre Fähigkeit, diese Regionen korrekt zu verknüpfen, verdächtig ist, insbesondere bei Genomen mit sich wiederholenden Regionen. Da Sequenzmontageprogramme immer ausgefeilter werden und die Rechenleistung billiger wird, kann es möglich sein, diese Einschränkung zu überwinden.[citation needed]

Abdeckung[edit]

Die Abdeckung (Read-Tiefe oder -Tiefe) ist die durchschnittliche Anzahl von Reads, die ein gegebenes Nukleotid in der rekonstruierten Sequenz repräsentieren. Es kann aus der Länge des ursprünglichen Genoms berechnet werden (G), die Anzahl der Lesevorgänge (Nein) und die durchschnittliche Leselänge (L) wie

Nein×L/G{displaystyle Nmal L/G}

. Ein hypothetisches Genom mit 2.000 Basenpaaren, das aus 8 Lesevorgängen mit einer durchschnittlichen Länge von 500 Nukleotiden rekonstruiert wurde, weist beispielsweise eine doppelte Redundanz auf. Dieser Parameter ermöglicht es auch, andere Größen abzuschätzen, beispielsweise den Prozentsatz des Genoms, der von Reads abgedeckt wird (manchmal auch Coverage genannt). Eine hohe Abdeckung bei der Schrotflinten-Sequenzierung ist erwünscht, da sie Fehler beim Basisruf und der Montage vermeiden kann. Das Thema der DNA-Sequenzierungstheorie befasst sich mit den Beziehungen solcher Größen.

Manchmal wird unterschieden zwischen Sequenzabdeckung und physische Abdeckung. Sequence Coverage ist die durchschnittliche Häufigkeit, mit der eine Base gelesen wird (wie oben beschrieben). Die physische Abdeckung ist die durchschnittliche Häufigkeit, mit der eine Basis gelesen oder von gepaarten Lesevorgängen überspannt wird.[11]

Hierarchische Shotgun-Sequenzierung[edit]

Bei der Whole Genome Shotgun Sequencing (oben) wird das gesamte Genom zufällig in kleine Fragmente (entsprechend der Größe für die Sequenzierung) zerlegt und dann wieder zusammengesetzt. Bei der hierarchischen Shotgun-Sequenzierung (unten) wird das Genom zunächst in größere Segmente zerlegt. Nachdem die Reihenfolge dieser Segmente abgeleitet wurde, werden sie weiter in Fragmente geschnitten, die für die Sequenzierung geeignet bemessen sind.

Obwohl die Shotgun-Sequenzierung theoretisch auf ein Genom jeder Größe angewendet werden kann, war ihre direkte Anwendung auf die Sequenzierung großer Genome (zum Beispiel des menschlichen Genoms) bis Ende der 1990er Jahre begrenzt, als der technologische Fortschritt die Handhabung der riesigen Mengen praktisch machte komplexer Daten, die in den Prozess eingebunden sind.[12] Historisch wurde angenommen, dass die vollständige Genom-Shotgun-Sequenzierung sowohl durch die schiere Größe großer Genome als auch durch die Komplexität begrenzt ist, die durch den hohen Prozentsatz an repetitiver DNA (mehr als 50% für das menschliche Genom) in großen Genomen hinzugefügt wird.[13] Es war nicht allgemein anerkannt, dass eine vollständige Genom-Shotgun-Sequenz eines großen Genoms zuverlässige Daten liefern würde. Aus diesen Gründen mussten andere Strategien verwendet werden, die die Rechenlast der Sequenzmontage verringerten, bevor die Shotgun-Sequenzierung durchgeführt wurde.[13]

Bei der hierarchischen Sequenzierung, auch bekannt als Top-Down-Sequenzierung, wird vor der eigentlichen Sequenzierung eine physikalische Karte mit niedriger Auflösung des Genoms erstellt. Aus dieser Karte wird eine minimale Anzahl von Fragmenten, die das gesamte Chromosom abdecken, für die Sequenzierung ausgewählt.[14] Auf diese Weise ist ein Minimum an Hochdurchsatz-Sequenzierung und -Assembly erforderlich.

Das amplifizierte Genom wird zuerst in größere Stücke (50-200 kb) geschnitten und unter Verwendung von BACs oder P1-abgeleiteten künstlichen Chromosomen (PAC) in einen bakteriellen Wirt kloniert. Da mehrere Genomkopien zufällig geschert wurden, haben die in diesen Klonen enthaltenen Fragmente unterschiedliche Enden, und mit ausreichender Abdeckung (siehe Abschnitt oben) findet man a finding Gerüst von BAC-Contigs, die das gesamte Genom abdecken, ist theoretisch möglich. Dieses Gerüst heißt a Fliesenpfad.

Ein BAC-Contig, das den gesamten interessierenden genomischen Bereich abdeckt, bildet den Kachelpfad.

Sobald ein Kachelpfad gefunden wurde, werden die BACs, die diesen Pfad bilden, zufällig in kleinere Fragmente zerlegt und können mit der Shotgun-Methode in kleinerem Maßstab sequenziert werden.

Obwohl die vollständigen Sequenzen der BAC-Contigs nicht bekannt sind, sind ihre Orientierungen relativ zueinander bekannt. Es gibt mehrere Methoden, um diese Reihenfolge abzuleiten und die BACs auszuwählen, die einen Kachelpfad bilden. Die allgemeine Strategie beinhaltet die Identifizierung der Positionen der Klone relativ zueinander und die anschließende Auswahl der wenigsten Klone, die erforderlich sind, um ein zusammenhängendes Gerüst zu bilden, das den gesamten interessierenden Bereich abdeckt. Die Reihenfolge der Klone wird durch Bestimmung der Art und Weise ihrer Überlappung abgeleitet.[15] Überlappende Klone können auf verschiedene Weise identifiziert werden. Eine kleine radioaktiv oder chemisch markierte Sonde, die eine sequenzmarkierte Stelle (STS) enthält, kann auf einen Mikroarray hybridisiert werden, auf dem die Klone gedruckt werden.[15] Auf diese Weise werden alle Klone identifiziert, die eine bestimmte Sequenz im Genom enthalten. Das Ende eines dieser Klone kann dann sequenziert werden, um eine neue Sonde zu erhalten, und der Vorgang kann in einer Methode namens Chromosomen-Walking wiederholt werden.

Alternativ kann die BAC-Bibliothek restriktionsverdaut werden. Von zwei Klonen, die mehrere Fragmentgrößen gemeinsam haben, wird gefolgert, dass sie überlappen, weil sie mehrere ähnlich beabstandete Restriktionsschnittstellen gemeinsam enthalten.[15] Dieses Verfahren der genomischen Kartierung wird als Restriktions-Fingerprinting bezeichnet, da es einen Satz von Restriktionsstellen identifiziert, die in jedem Klon enthalten sind. Sobald die Überlappung zwischen den Klonen gefunden wurde und ihre Reihenfolge relativ zum Genom bekannt ist, wird ein Gerüst einer minimalen Teilmenge dieser Contigs, das das gesamte Genom abdeckt, Shotgun-sequenziert.[14]

Da zuerst eine Karte mit niedriger Auflösung des Genoms erstellt wird, ist die hierarchische Shotgun-Sequenzierung langsamer als die Shotgun-Sequenzierung des gesamten Genoms, beruht jedoch weniger stark auf Computeralgorithmen als die Shotgun-Sequenzierung des gesamten Genoms. Der Prozess der umfangreichen BAC-Bibliothekserstellung und der Kachelpfadauswahl macht jedoch die hierarchische Shotgun-Sequenzierung langsam und arbeitsintensiv. Jetzt, da die Technologie verfügbar ist und die Zuverlässigkeit der Daten nachgewiesen ist,[13] Die Geschwindigkeit und Kosteneffizienz der Shotgun-Sequenzierung des gesamten Genoms hat sie zur primären Methode für die Genomsequenzierung gemacht.

Neuere Sequenzierungstechnologien[edit]

Die klassische Shotgun-Sequenzierung basierte auf der Sanger-Sequenzierungsmethode: Dies war die fortschrittlichste Technik zur Sequenzierung von Genomen von etwa 1995 bis 2005. Die Shotgun-Strategie wird auch heute noch angewendet, jedoch mit anderen Sequenzierungstechnologien, wie Short-Read-Sequenzierung und Long-Read-Sequenzierung.

Short-Read- oder “Next-Gen”-Sequenzierung erzeugt kürzere Reads (überall zwischen 25 und 500 bp), aber viele Hunderttausende oder Millionen von Reads in relativ kurzer Zeit (in der Größenordnung eines Tages).[16]

Dies führt zu einer hohen Abdeckung, aber der Montageprozess ist viel rechenintensiver. Diese Technologien sind der Sanger-Sequenzierung aufgrund des hohen Datenvolumens und der relativ kurzen Zeit, die für die Sequenzierung eines ganzen Genoms benötigt wird, weit überlegen.[17]

Metagenomische Shotgun-Sequenzierung[edit]

Reads mit einer Länge von 400-500 Basenpaaren reichen aus, um die Spezies oder den Stamm des Organismus, aus dem die DNA stammt, zu bestimmen, vorausgesetzt, sein Genom ist bereits bekannt, z k-mer-basierte taxonomische Klassifikator-Software. Mit Millionen von Reads aus der Next-Generation-Sequenzierung einer Umweltprobe ist es möglich, einen vollständigen Überblick über jedes komplexe Mikrobiom mit Tausenden von Arten wie der Darmflora zu erhalten. Vorteile gegenüber der 16S rRNA-Amplikon-Sequenzierung sind: nicht auf Bakterien beschränkt; Klassifizierung auf Stammebene, bei der die Amplikon-Sequenzierung nur die Gattung erhält; und die Möglichkeit, ganze Gene zu extrahieren und ihre Funktion als Teil des Metagenoms zu spezifizieren.[18]

Die Sensitivität der metagenomischen Sequenzierung macht sie zu einer attraktiven Wahl für den klinischen Einsatz.[19]

Es betont jedoch das Problem der Kontamination der Probe oder der Sequenzierungspipeline.[20]

Siehe auch[edit]

Verweise[edit]

  1. ^ ein b c Staden, R. (1979). “Eine Strategie der DNA-Sequenzierung unter Verwendung von Computerprogrammen”. Nukleinsäureforschung. 6 (70): 2601–10. mach:10.1093/nar/6.7.2601. PMC 327874. PMID 461197.
  2. ^ Anderson, S. (1981). “Shotgun-DNA-Sequenzierung mit klonierten DNase I-generierten Fragmenten”. Nukleinsäureforschung. 9 (13): 3015–27. mach:10.1093/nar/9.13.3015. PMC 327328. PMID 6269069.
  3. ^ Human Genome Sequencing Consortium, International (21. Oktober 2004). “Abschluss der euchromatischen Sequenz des menschlichen Genoms”. Natur. 431 (7011): 931–945. Bibcode:2004Natur.431..931H. mach:10.1038/natur03001. PMID 15496913.
  4. ^ Gardner, Richard C.; Howarth, Alan J.; Hahn, Peter; Brown-Luedi, Marianne; Hirte, Robert J.; Messing, Joachim (1981-06-25). “Die vollständige Nukleotidsequenz eines infektiösen Klons des Blumenkohlmosaikvirus durch M13mp7-Shotgun-Sequenzierung”. Nukleinsäureforschung. 9 (12): 2871–2888. mach:10.1093/nar/9.12.2871. ISSN 0305-1048. PMC 326899. PMID 6269062.
  5. ^ Doctrow, Brian (2016-07-19). “Profil von Joachim Messing”. Proceedings of the National Academy of Sciences. 113 (29): 7935–7937. mach:10.1073/pnas.1608857113. ISSN 0027-8424. PMC 4961156. PMID 27382176.
  6. ^ Edwards, A; Caskey, T. (1991). „Verschlussstrategien für die zufällige DNA-Sequenzierung“. Methoden: Eine Ergänzung zu Methoden der Enzymologie. 3 (1): 41–47. mach:10.1016/S1046-2023(05)80162-8.
  7. ^ Edwards, A; Voss, H.; Reis, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmermann, J.; Erfle, H.; Caskey, T.; Ansorge, W. (1990). „Automatisierte DNA-Sequenzierung des menschlichen HPRT-Locus“. Genomik. 6 (4): 593–608. mach:10.1016/0888-7543(90)90493-E. PMID 2341149.
  8. ^ Roach, JC; Boysen, C; Wang, K; Haube, L. (1995). „Paarweise Endsequenzierung: ein einheitlicher Ansatz zur genomischen Kartierung und Sequenzierung“. Genomik. 26 (2): 345–353. mach:10.1016/0888-7543(95)80219-C. PMID 7601461.
  9. ^ Fleischmann, RD; et al. (1995). „Whole-Genom-Zufallssequenzierung und Montage von Haemophilus influenzae Rd“. Wissenschaft. 269 (5223): 496–512. Bibcode:1995Sc…269..496F. mach:10.1126/science.7542800. PMID 7542800. S2CID 10423613.
  10. ^ Adams, MD; et al. (2000). “Die Genomsequenz von Drosophila melanogaster” (PDF). Wissenschaft. 287 (5461): 2185–95. Bibcode:2000Sc…287.2185.. CiteSeerX 10.1.1.549.8639. mach:10.1126/science.287.5461.2185. PMID 10731132.
  11. ^ Meyerson, M.; Gabriel, S.; Getz, G. (2010). „Fortschritte beim Verständnis von Krebsgenomen durch Sequenzierung der zweiten Generation“. Natur Bewertungen Genetik. 11 (10): 685–696. mach:10.1038/nrg2841. PMID 20847746.
  12. ^ Dunham, I. Genomsequenzierung. Enzyklopädie der Biowissenschaften, 2005. doi:10.1038/npg.els.0005378
  13. ^ ein b c Venter, JC “Shotgunning the Human Genome: A Personal View.” Enzyklopädie der Biowissenschaften, 2006.
  14. ^ ein b Gibson, G. und Muse, SV Eine Einführung in die Genomforschung. 3. Aufl. S.84
  15. ^ ein b c Lieber, PH Genomkartierung. Enzyklopädie der Biowissenschaften, 2005. doi:10.1038/npg.els.0005353.
  16. ^ Karl, V.; et al. (2009). “Next Generation Sequencing: Von der Grundlagenforschung zur Diagnostik”. Klinische Chemie. 55 (4): 41–47. mach:10.1373/clinchem.2008.112789. PMID 19246620.
  17. ^ Metzker, Michael L. (2010). „Sequenzierungstechnologien – die nächste Generation“ (PDF). Nat Rev Genet. 11 (1): 31–46. CiteSeerX 10.1.1.719.3885. mach:10.1038/nrg2626. PMID 19997069.
  18. ^ Roumpeka, Despoina D.; et al. (2017). “Eine Überprüfung der Bioinformatik-Tools für die Bioprospektion aus metagenomischen Sequenzdaten”. Grenzen in der Genetik. 8: 23. doi:10.3389/fgene.2017.00023. PMC 5337752. PMID 28321234.
  19. ^ Gu, Wei; et al. (2018). “Klinische metagenomische Sequenzierung der nächsten Generation zum Nachweis von Krankheitserregern”. Jährliche Überprüfung der Pathologie: Krankheitsmechanismen. 14: 319–338. mach:10.1146/annurev-pathmechdis-012418-012751. PMC 6345613. PMID 30355154.
  20. ^ Thöndel, Matthäus; et al. (2017). „Auswirkung kontaminierender DNA in Kits zur Amplifikation des gesamten Genoms, die für die metagenomische Shotgun-Sequenzierung zur Infektionsdiagnose verwendet werden“. Zeitschrift für Klinische Mikrobiologie. 55 (6): 1789–1801. mach:10.1128/JCM.02402-16. PMC 5442535. PMID 28356418.

Weiterlesen[edit]

Externe Links[edit]

Dieser Artikel enthält gemeinfreies Material aus dem Dokument National Center for Biotechnology Information: “NCBI-Handbuch”.