Genom

Aus besserwiki.de
Der Chromosomensatz eines Mannes als Karyogramm dargestellt

Das Genom, auch Erbgut eines Lebewesens oder eines Virus, ist die Gesamtheit der materiellen Träger der vererbbaren Informationen einer Zelle oder eines Viruspartikels: Chromosomen, Desoxyribonukleinsäure (DNS = DNA) oder Ribonukleinsäure (RNS = RNA) bei RNA-Viren, bei denen RNA anstelle von DNA als Informationsträger dient. Im abstrakten Sinn versteht man darunter auch die Gesamtheit der vererbbaren Informationen (Gene) eines Individuums.

Die Bezeichnung Genom wurde, nach der durch Thomas Hunt Morgan gelungenen Verknüpfung der Chromosomentheorie der Vererbung mit der durch Wilhelm Johannsen aufgestellten Hypothese von Genen als Erbeinheiten, 1920 von Hans Winkler geprägt. Das Teilgebiet der Genetik, das sich mit der Erforschung des Aufbaus von Genomen und der Wechselwirkungen zwischen Genen befasst, wird als Genomik (englisch genomics) bezeichnet.

Der Sprachgebrauch ist dabei in der Genetik nicht einheitlich. Im ursprünglichen Sinn bezieht sich das Genom nur auf den einfachen monoploiden DNA-Satz. Heute wird auch oft vom Genom allopolyploider Arten (mit mehreren unterschiedlichen Chromosomensätzen, wie z. B. Weizen) gesprochen; manchmal werden die unterschiedlichen Chromosomensätze dann als "Subgenom" unterschieden. Meist wird aber das Kerngenom des Zellkerns unterschieden vom Genom der Zellorganellen, dem mitochondrialen Genom und dem Plastiden-Genom. Auch dies wird allerdings zwischen verschiedenen Autoren nicht einheitlich gehandhabt, so dass auch die Gesamtheit der Erbinformationen als Genom bezeichnet werden kann (was dann mit der Bedeutung des Fachbegriffs Genotyp überlappt).

Nach strenger Auslegung besitzt ein diploider Organismus zwei Genome: ein mütterliches (maternales), von der Mutter ererbtes und ein väterliches (paternales) vom Vater ererbtes, jeweils auf einem Chromosomensatz, ein einzelnes Genom hätte nur jede Gamete. Bei der Genomanalyse können diese aber im Regelfall nicht unterschieden werden, so dass es sich eingebürgert hat, vom Genom eines Individuums zu sprechen. Dieser unklare Bezug auf den diploiden bzw. haploiden Satz führt etwa bei der Bestimmung der Genomgröße manchmal zu Missverständnissen. Oft wird sogar weiter verallgemeinert zum Genom einer Art, etwa dem menschlichen Genom. Dabei wird dann die individuelle Variation der verschiedenen Allele an einem Genlocus, allgemeiner die individuelle Verschiedenheit der individuellen Genotypen, in der Betrachtung vernachlässigt; man spricht vom Referenzgenom.

Ein Beschriftungsdiagramm, das die verschiedenen Teile eines prokaryotischen Genoms erklärt
Abbildung der 46 Chromosomen, aus denen das diploide Genom eines männlichen Menschen besteht (das mitochondriale Chromosom ist nicht dargestellt).

Die Erforschung des Genoms wird als Genomik bezeichnet. Die Genome vieler Organismen wurden sequenziert und verschiedene Regionen annotiert. Das Internationale Humangenomprojekt hat 2004 die Sequenz des Genoms des Homo sapiens veröffentlicht. [1]obwohl in der ursprünglichen "fertigen" Sequenz 8 % des Genoms fehlten, die größtenteils aus sich wiederholenden Sequenzen bestanden.

Dank des technologischen Fortschritts, der die Sequenzierung der vielen repetitiven Sequenzen in der menschlichen DNA ermöglichte, die in der ursprünglichen Studie des Humangenomprojekts nicht vollständig aufgedeckt wurden, konnten Wissenschaftler im März 2022 die erste vollständige Sequenz des menschlichen Genoms vorlegen.

Ursprung des Begriffs

Der Begriff Genom wurde 1920 von Hans Winkler, Professor für Botanik an der Universität Hamburg, Deutschland, geschaffen. Dem Oxford Dictionary zufolge ist der Name eine Mischung aus den Begriffen Gen und Chromosom. Siehe jedoch Omics für eine ausführlichere Diskussion. Es gab bereits einige verwandte Wörter auf -ome, wie Biome und Rhizome, die ein Vokabular bildeten, in das sich Genom systematisch einfügte.

Die Definition des Genoms

Es ist sehr schwierig, eine genaue Definition des Begriffs "Genom" zu finden. In der Regel bezieht sich der Begriff auf die DNA-Moleküle (oder manchmal auch RNA-Moleküle), die die genetische Information in einem Organismus tragen, aber manchmal ist es schwierig zu entscheiden, welche Moleküle in die Definition einzubeziehen sind; beispielsweise haben Bakterien in der Regel ein oder zwei große DNA-Moleküle (Chromosomen), die das gesamte wesentliche genetische Material enthalten, aber sie enthalten auch kleinere extrachromosomale Plasmidmoleküle, die wichtige genetische Informationen tragen. Die in der wissenschaftlichen Literatur gebräuchliche Definition des Begriffs "Genom" beschränkt sich in der Regel auf die großen chromosomalen DNA-Moleküle in Bakterien.

Eukaryontische Genome sind noch schwieriger zu definieren, da fast alle eukaryontischen Arten Kernchromosomen und zusätzliche DNA-Moleküle in den Mitochondrien enthalten. Außerdem verfügen Algen und Pflanzen über Chloroplasten-DNA. In den meisten Lehrbüchern wird zwischen dem Kerngenom und den Genomen der Organellen (Mitochondrien und Chloroplasten) unterschieden, so dass sie sich, wenn sie beispielsweise vom menschlichen Genom sprechen, nur auf das genetische Material im Zellkern beziehen. Dies ist die häufigste Verwendung des Begriffs "Genom" in der wissenschaftlichen Literatur.

Die meisten Eukaryoten sind diploid, d. h. es gibt zwei Kopien von jedem Chromosom im Zellkern, aber das "Genom" bezieht sich nur auf eine Kopie jedes Chromosoms. Einige Eukaryonten haben ausgeprägte Geschlechtschromosomen, wie z. B. die X- und Y-Chromosomen der Säugetiere, so dass die technische Definition des Genoms beide Kopien der Geschlechtschromosomen einschließen muss. Das Standard-Referenzgenom des Menschen beispielsweise besteht aus je einer Kopie der 23 Autosomen sowie einem X- und einem Y-Chromosom.

Sequenzierung und Kartierung

Eine Genomsequenz ist die vollständige Liste der Nukleotide (A, C, G und T für DNA-Genome), aus denen alle Chromosomen eines Individuums oder einer Art bestehen. Innerhalb einer Art ist die überwiegende Mehrheit der Nukleotide zwischen den Individuen identisch, aber die Sequenzierung mehrerer Individuen ist notwendig, um die genetische Vielfalt zu verstehen.

Teil der DNA-Sequenz - Prototypisierung des vollständigen Genoms eines Virus

1976 gelang es Walter Fiers von der Universität Gent (Belgien) als erstem, die vollständige Nukleotidsequenz eines viralen RNA-Genoms (Bakteriophage MS2) zu bestimmen. Im Jahr darauf stellte Fred Sanger die erste DNA-Genomsequenz fertig: Phage Φ-X174, mit 5386 Basenpaaren. Das erste bakterielle Genom, das sequenziert wurde, war das von Haemophilus influenzae, das 1995 von einem Team des Institute for Genomic Research fertiggestellt wurde. Wenige Monate später wurde das erste eukaryotische Genom fertig gestellt: Die Sequenzen der 16 Chromosomen der Hefe Saccharomyces cerevisiae wurden als Ergebnis einer Mitte der 1980er Jahre begonnenen Initiative unter europäischer Leitung veröffentlicht. Die erste Genomsequenz eines Archaeons, Methanococcus jannaschii, wurde 1996 fertiggestellt, ebenfalls durch das Institut für Genomforschung.

Durch die Entwicklung neuer Technologien ist die Sequenzierung von Genomen wesentlich billiger und einfacher geworden, und die Zahl der vollständigen Genomsequenzen nimmt rasch zu. Die US National Institutes of Health unterhalten eine von mehreren umfassenden Datenbanken mit genomischen Informationen. Zu den Tausenden von abgeschlossenen Genomsequenzierungsprojekten gehören die von Reis, einer Maus, der Pflanze Arabidopsis thaliana, dem Kugelfisch und dem Bakterium E. coli. Im Dezember 2013 sequenzierten Wissenschaftler erstmals das gesamte Genom eines Neandertalers, einer ausgestorbenen Menschenart. Das Genom wurde aus dem Zehenknochen eines 130 000 Jahre alten Neandertalers entnommen, der in einer sibirischen Höhle gefunden wurde.

Neue Sequenzierungstechnologien, wie die massive parallele Sequenzierung, haben auch die Aussicht auf die persönliche Genomsequenzierung als Diagnoseinstrument eröffnet, wie sie von Manteia Predictive Medicine vorangetrieben wird. Ein wichtiger Schritt auf dem Weg zu diesem Ziel war die Fertigstellung des vollständigen Genoms von James D. Watson, einem der Mitentdecker der DNA-Struktur, im Jahr 2007.

Während eine Genomsequenz die Reihenfolge jeder DNA-Base in einem Genom auflistet, identifiziert eine Genomkarte die Orientierungspunkte. Eine Genomkarte ist weniger detailliert als eine Genomsequenz und hilft bei der Navigation durch das Genom. Das Humangenomprojekt wurde organisiert, um das menschliche Genom zu kartieren und zu sequenzieren. Ein grundlegender Schritt in diesem Projekt war die Veröffentlichung einer detaillierten Genomkarte durch Jean Weissenbach und sein Team am Genoscope in Paris.

Die Referenzgenomsequenzen und -karten werden weiterhin aktualisiert, um Fehler zu beseitigen und Regionen mit hoher allelischer Komplexität zu klären. Die sinkenden Kosten der Genomkartierung haben dazu geführt, dass Genealogie-Websites diese als Dienstleistung anbieten, so dass man sein Genom bei wissenschaftlichen Crowdsourcing-Projekten wie DNA.LAND am New York Genome Center einreichen kann - ein Beispiel sowohl für die Größenvorteile als auch für die Bürgerwissenschaft.

Virale Genome

Virale Genome sind sehr klein, da in ihnen nur recht wenige Proteine codiert sind und die genetische Information zudem hochgradig verdichtet ist, indem etwa verschiedene Gene überlappen oder manche Abschnitte zugleich in beiden Leserichtungen als Gene fungieren können. Das virale Genom (auch Virom genannt) kann

  • aus der DNA oder RNA bestehen,
  • in mehrere Teile unsegmentiert (monopartit) oder segmentiert (multipartit: bipartit, tripartit, …) vorliegen,
  • die Segmente können linear oder zirkulär geschlossen sein,
  • und doppel- oder einzelsträngig vorliegen (im letzteren Fall mit unterschiedlicher Polarität); in einzelnen Fällen gibt es auch partiell doppelsträngige Genomsegmente.

Eine Besonderheit stellen die Retroviren dar, deren RNA-Genom mittels reverser Transkription in DNA „übersetzt“ und dann (wie auch bei vielen DNA-Viren) in das Wirtsgenom integriert werden kann. Geschieht das in der Keimbahn des Wirtsorganismus, wird das so endogenisierte Virus vererbt. Die Eigenschaften der Genome der Viren sind wichtige Kriterien bei deren Klassifizierung (Virusklassifikation).

Manche Viren und insbesondere Virophagen (Viren, die andere Viren parasitieren) haben mobile genetische Elemente (Transposons, Transpovirons, Polintons). Generell wird deren Gesamtheit auch als Mobilom bezeichnet.

Prokaryotische Genome

Prokaryoten und Eukaryoten haben ein DNA-Genom. Archaeen und die meisten Bakterien haben ein einzelnes zirkuläres Chromosom, einige Bakterienarten haben jedoch auch lineare oder multiple Chromosomen. Wenn die DNA schneller repliziert wird, als sich die Bakterienzellen teilen, können mehrere Kopien des Chromosoms in einer einzigen Zelle vorhanden sein. Wenn sich die Zellen schneller teilen, als die DNA repliziert werden kann, wird die mehrfache Replikation des Chromosoms eingeleitet, bevor die Teilung stattfindet, so dass die Tochterzellen vollständige Genome und bereits teilweise replizierte Chromosomen erben. Die meisten Prokaryoten haben nur sehr wenig repetitive DNA in ihren Genomen. Einige symbiotische Bakterien (z. B. Serratia symbiotica) haben jedoch reduzierte Genome und einen hohen Anteil an Pseudogenen: nur ~40 % ihrer DNA kodiert Proteine.

Einige Bakterien verfügen über zusätzliches genetisches Material, das ebenfalls Teil ihres Genoms ist und in Plasmiden transportiert wird. In diesem Fall sollte das Wort Genom nicht als Synonym für Chromosom verwendet werden.

Eukaryotische Genome

Eukaryotische Genome bestehen aus einem oder mehreren linearen DNA-Chromosomen. Die Anzahl der Chromosomen ist sehr unterschiedlich und reicht von der Springerameise und einem ungeschlechtlichen Fadenwurm, die jeweils nur ein Paar haben, bis zu einer Farnart mit 720 Paaren. Es ist erstaunlich, wie viel DNA das eukaryotische Genom im Vergleich zu anderen Genomen enthält. Die Menge übersteigt sogar den Bedarf an DNA-Protein-kodierenden und nicht-kodierenden Genen, da eukaryotische Genome eine bis zu 64.000-fache Variation in ihrer Größe aufweisen. Dieses besondere Merkmal wird jedoch durch das Vorhandensein von repetitiver DNA und transponierbaren Elementen (TEs) verursacht.

Eine typische menschliche Zelle hat zwei Kopien von jedem der 22 Autosomen, jeweils eine von jedem Elternteil, sowie zwei Geschlechtschromosomen, ist also diploid. Keimzellen wie Eizellen, Spermien, Sporen und Pollen sind haploid, d. h. sie tragen nur eine Kopie jedes Chromosoms. Neben den Chromosomen im Zellkern haben auch Organellen wie die Chloroplasten und Mitochondrien ihre eigene DNA. Von Mitochondrien wird manchmal gesagt, dass sie ihr eigenes Genom haben, das oft als "mitochondriales Genom" bezeichnet wird. Die im Chloroplasten enthaltene DNA wird als "Plastom" bezeichnet. Wie die Bakterien, aus denen sie hervorgegangen sind, haben auch Mitochondrien und Chloroplasten ein zirkuläres Chromosom.

Im Gegensatz zu Prokaryonten, bei denen die Exon-Intron-Organisation von proteinkodierenden Genen zwar vorhanden, aber eher die Ausnahme ist, weisen Eukaryonten diese Merkmale in der Regel in ihren Genen auf, und ihre Genome enthalten unterschiedliche Mengen an repetitiver DNA. Bei Säugetieren und Pflanzen besteht der größte Teil des Genoms aus repetitiver DNA. Gene in eukaryontischen Genomen können mit FINDER annotiert werden.

Kodierende Sequenzen

DNA-Sequenzen, die die Anweisungen zur Herstellung von Proteinen enthalten, werden als kodierende Sequenzen bezeichnet. Der Anteil der kodierenden Sequenzen am Genom ist sehr unterschiedlich. Ein größeres Genom enthält nicht unbedingt mehr Gene, und der Anteil nicht-repetitiver DNA nimmt mit zunehmender Genomgröße bei komplexen Eukaryoten ab.

Zusammensetzung des menschlichen Genoms

Nichtcodierende Sequenzen

Zu den nichtcodierenden Sequenzen gehören Introns, Sequenzen für nichtcodierende RNAs, regulatorische Regionen und repetitive DNA. Nichtcodierende Sequenzen machen 98 % des menschlichen Genoms aus. Es gibt zwei Kategorien repetitiver DNA im Genom: Tandemwiederholungen und eingestreute Wiederholungen.

Tandem-Wiederholungen

Kurze, nicht codierende Sequenzen, die sich Kopf-an-Schwanz wiederholen, werden als Tandemwiederholungen bezeichnet. Mikrosatelliten bestehen aus 2-5 Basenpaar-Wiederholungen, während Minisatelliten-Wiederholungen 30-35 bp lang sind. Tandemrepeats machen etwa 4 % des menschlichen Genoms und 9 % des Fruchtfliegengenoms aus. Tandemwiederholungen können funktionell sein. So bestehen die Telomere bei Säugetieren aus der Tandemwiederholung TTAGGG, die eine wichtige Rolle beim Schutz der Chromosomenenden spielt.

In anderen Fällen können Vergrößerungen der Anzahl von Tandemwiederholungen in Exons oder Introns Krankheiten verursachen. Das menschliche Huntingtin-Gen (Htt) beispielsweise enthält typischerweise 6-29 Tandemwiederholungen der Nukleotide CAG (die für einen Polyglutamin-Trakt kodieren). Eine Erweiterung auf über 36 Wiederholungen führt zur Huntington-Krankheit, einer neurodegenerativen Erkrankung. Es sind zwanzig menschliche Erkrankungen bekannt, die auf ähnliche Tandem-Repeat-Expansionen in verschiedenen Genen zurückzuführen sind. Der Mechanismus, durch den Proteine mit erweiterten Polygulatamintrakten das Absterben von Neuronen verursachen, ist nicht vollständig geklärt. Eine Möglichkeit ist, dass sich die Proteine nicht richtig falten und dem Abbau entgehen, sondern sich in Aggregaten anreichern, die auch wichtige Transkriptionsfaktoren absondern und so die Genexpression verändern.

Tandemwiederholungen werden in der Regel durch Schlupf während der Replikation, ungleiches Crossing-over und Genkonversion verursacht.

Transponierbare Elemente

Transponierbare Elemente (TEs) sind DNA-Sequenzen mit einer bestimmten Struktur, die ihre Position im Genom verändern können. TEs werden entweder als ein Mechanismus kategorisiert, der sich durch Kopieren und Einfügen repliziert, oder als ein Mechanismus, der aus dem Genom herausgeschnitten und an einer neuen Stelle eingefügt werden kann. Im menschlichen Genom gibt es drei wichtige Klassen von TEs, die mehr als 45 % der menschlichen DNA ausmachen; diese Klassen sind die langgestreckten nuklearen Elemente (LINEs), die gestreuten nuklearen Elemente (SINEs) und endogene Retroviren. Diese Elemente haben ein großes Potenzial, die genetische Kontrolle in einem Wirtsorganismus zu verändern.

Die Bewegung von TEs ist eine treibende Kraft der Genomevolution in Eukaryonten, da ihre Einfügung Genfunktionen stören kann, homologe Rekombination zwischen TEs zu Duplikationen führen kann und TEs Exons und regulatorische Sequenzen an neue Orte verschieben können.

Retrotransposons

Retrotransposons kommen vor allem in Eukaryonten, nicht aber in Prokaryonten vor, und Retrotransposons bilden einen großen Teil der Genome vieler Eukaryonten. Retrotransposon ist ein transponierbares Element, das durch ein RNA-Zwischenprodukt transponiert. Retrotransposons bestehen aus DNA, werden aber für die Transposition in RNA transkribiert. Anschließend wird das RNA-Transkript mit Hilfe eines spezifischen Enzyms, der so genannten reversen Transkriptase, zurück in die DNA-Formation kopiert. Retrotransposons, die Reverse Transkriptase in ihrem Gen tragen, können ihre eigene Transposition auslösen, aber die Gene, denen die Reverse Transkriptase fehlt, müssen Reverse Transkriptase verwenden, die von einem anderen Retrotransposon synthetisiert wird. Retrotransposons können in RNA umgeschrieben werden, die dann an einer anderen Stelle im Genom dupliziert wird. Retrotransposons lassen sich in lange terminale Repeats (LTRs) und nicht-lange terminale Repeats (Non-LTRs) unterteilen.

Lange terminale Repeats (LTRs) stammen aus alten retroviralen Infektionen und kodieren daher für Proteine, die mit retroviralen Proteinen verwandt sind, darunter gag (Strukturproteine des Virus), pol (reverse Transkriptase und Integrase), pro (Protease) und in einigen Fällen env (Hüllproteine). Diese Gene werden sowohl am 5'- als auch am 3'-Ende von langen Wiederholungen flankiert. Es wurde berichtet, dass LTRs in den meisten Pflanzengenomen den größten Anteil ausmachen und für die großen Unterschiede in der Genomgröße verantwortlich sein könnten.

Nicht-lange terminale Wiederholungen (Non-LTRs) werden als lange durchsetzte Kernelemente (LINEs), kurze durchsetzte Kernelemente (SINEs) und Penelope-ähnliche Elemente (PLEs) klassifiziert. In Dictyostelium discoideum gibt es ein weiteres DIRS-ähnliches Element, das zu den Non-LTRs gehört. Nicht-LTRs sind in eukaryotischen Genomen weit verbreitet.

Long interspersed elements (LINEs) kodieren Gene für reverse Transkriptase und Endonuklease und sind damit autonome transponierbare Elemente. Das menschliche Genom enthält rund 500 000 LINEs, die etwa 17 % des Genoms ausmachen.

Kurze interspersed Elemente (SINEs) sind in der Regel weniger als 500 Basenpaare lang und nicht autonom, so dass sie für die Transposition auf die von den LINEs kodierten Proteine angewiesen sind. Das Alu-Element ist das häufigste SINE, das in Primaten vorkommt. Es ist etwa 350 Basenpaare lang und nimmt mit rund 1 500 000 Kopien etwa 11 % des menschlichen Genoms ein.

DNA-Transposons

DNA-Transposons kodieren ein Transposase-Enzym zwischen invertierten terminalen Wiederholungen. Wenn es exprimiert wird, erkennt die Transposase die terminalen invertierten Wiederholungen, die das Transposon flankieren, und katalysiert seine Exzision und Wiedereinfügung an einer neuen Stelle. Durch diesen Cut-and-Paste-Mechanismus werden Transposons in der Regel in der Nähe ihrer ursprünglichen Position (innerhalb von 100kb) wieder eingefügt. DNA-Transposons sind in Bakterien zu finden und machen 3 % des menschlichen Genoms und 12 % des Genoms des Fadenwurms C. elegans aus.

Größe des Genoms

Log-Log-Diagramm der Gesamtzahl der annotierten Proteine in Genomen, die bei GenBank eingereicht wurden, als Funktion der Genomgröße.

Die Genomgröße ist die Gesamtzahl der DNA-Basenpaare in einer Kopie eines haploiden Genoms. Die Genomgröße ist von Art zu Art sehr unterschiedlich. Wirbellose Tiere haben kleine Genome, was auch mit einer geringen Anzahl von transponierbaren Elementen zusammenhängt. Fische und Amphibien haben Genome mittlerer Größe, und Vögel haben relativ kleine Genome, aber es wurde vermutet, dass Vögel in der Phase des Übergangs zum Flug einen wesentlichen Teil ihrer Genome verloren haben.  Vor diesem Verlust ermöglicht die DNA-Methylierung eine angemessene Erweiterung des Genoms.

Beim Menschen umfasst das Kerngenom etwa 3,1 Milliarden Nukleotide DNA, die in 24 lineare Moleküle unterteilt sind, von denen das kürzeste 45 000 000 Nukleotide und das längste 248 000 000 Nukleotide umfasst, die jeweils in einem anderen Chromosom enthalten sind. Weder bei den Prokaryonten noch bei den niederen Eukaryonten gibt es eine eindeutige und konsistente Korrelation zwischen morphologischer Komplexität und Genomgröße. Die Genomgröße ist weitgehend eine Funktion der Expansion und Kontraktion repetitiver DNA-Elemente.

Da Genome sehr komplex sind, besteht eine Forschungsstrategie darin, die Anzahl der Gene in einem Genom auf das absolute Minimum zu reduzieren, damit der betreffende Organismus überleben kann. Es gibt experimentelle Arbeiten zu Minimalgenomen für einzellige Organismen sowie zu Minimalgenomen für mehrzellige Organismen (siehe Entwicklungsbiologie). Die Arbeiten finden sowohl in vivo als auch in silico statt.

Unterschiede in der Genomgröße aufgrund von transponierbaren Elementen

Es gibt enorme Größenunterschiede bei Genomen, insbesondere bei den mehrzelligen eukaryotischen Genomen, wie bereits erwähnt. Ein großer Teil davon ist auf die unterschiedliche Häufigkeit transponierbarer Elemente zurückzuführen, die sich entwickeln, indem sie neue Kopien von sich selbst in den Chromosomen erzeugen. Eukaryotengenome enthalten oft viele Tausende von Kopien dieser Elemente, von denen die meisten Mutationen erworben haben, die sie defekt machen.

Hier finden Sie eine Tabelle mit einigen wichtigen oder repräsentativen Genomen. Siehe #See auch für Listen sequenzierter Genome.

Organismus-Typ Organismus Größe des Genoms
(Basenpaare)
Ungefähre Anzahl von Genen Hinweis
Virus Porcines Circovirus Typ 1 1,759 1,8 kB Kleinste Viren, die sich selbständig in eukaryotischen Zellen vermehren.
Virus Bakteriophage MS2 3,569 3,5 kB Erstes sequenziertes RNA-Genom
Virus SV40 5,224 5,2 kB
Virus Phage Φ-X174 5,386 5,4 kB Erstes sequenziertes DNA-Genom
Virus HIV 9,749 9,7 kB
Virus Phage λ 48,502 48,5 kB Wird häufig als Vektor für das Klonen rekombinanter DNA verwendet.
Virus Megavirus 1,259,197 1,3 MB Bis 2013 das größte bekannte virale Genom.
Virus Pandoravirus salinus 2,470,000 2,47 MB Größtes bekanntes virales Genom.
Eukaryotische Organelle Menschliches Mitochondrium 16,569 16,6 kB
Bakterium Nasuia deltocephalinicola (Stamm NAS-ALF) 112,091 112 kB 137 Kleinstes bekanntes nicht-virales Genom. Symbiont von Heuschrecken.
Bakterium Carsonella ruddii 159,662 160 kB Ein Endosymbiont von Blattläusen
Bakterium Buchnera aphidicola 600,000 600 kB Ein Endosymbiont von Blattläusen
Bakterium Wigglesworthia glossinidia 700,000 700Kb Ein Symbiont im Darm der Tsetsefliege
Bakterium - Cyanobakterium Prochlorococcus spp. (1,7 Mb) 1,700,000 1,7 MB 1,884 Das kleinste bekannte Genom eines Cyanobakteriums. Einer der wichtigsten Photosynthesizer auf der Erde.
Bakterium Haemophilus influenzae 1,830,000 1,8 MB Erstes Genom eines lebenden Organismus, das sequenziert wurde, Juli 1995
Bakterium Escherichia coli 4,600,000 4,6 MB 4,288
Bakterium - Cyanobakterium Nostoc punctiforme 9,000,000 9 MB 7,432 7432 offene Leseraster
Bakterium Solibacter usitatus (Stamm Ellin 6076) 9,970,000 10 MB
Amöboid Polychaos dubium ("Amöbe" dubia) 670,000,000,000 670 GB Größtes bekanntes Genom. (Umstritten)
Pflanze Genlisea tuberosa 61,000,000 61 MB Kleinstes erfasstes Genom einer Blütenpflanze, 2014.
Pflanze Arabidopsis thaliana 135,000,000 135 MB 27,655 Erstes sequenziertes Pflanzengenom, Dezember 2000.
Pflanze Populus trichocarpa 480,000,000 480 MB 73,013 Erstes sequenziertes Baumgenom, September 2006
Pflanze Fritillaria assyriaca 130,000,000,000 130 GB
Pflanze Paris japonica (japanische Pflanze, blassblättrig) 150,000,000,000 150 GB Größtes bekanntes Pflanzengenom
Pflanze - Moos Physcomitrella patens 480,000,000 480 MB Erstes Genom eines Mooses sequenziert, Januar 2008.
Pilz - Hefe Saccharomyces cerevisiae 12,100,000 12,1 MB 6,294 Erstes eukaryotisches Genom, das sequenziert wurde, 1996
Pilz Aspergillus nidulans 30,000,000 30 MB 9,541
Fadenwurm Pratylenchus coffeae 20,000,000 20 MB Das kleinste bekannte Tiergenom
Fadenwurm Caenorhabditis elegans 100,300,000 100 MB 19,000 Erstes mehrzelliges Tiergenom sequenziert, Dezember 1998
Insekt Drosophila melanogaster (Fruchtfliege) 175,000,000 175 MB 13,600 Größe variiert je nach Stamm (175-180 MB; Standardstamm ist 175 MB)
Insekt Apis mellifera (Honigbiene) 236,000,000 236 MB 10,157
Insekt Bombyx mori (Seidenspinner) 432,000,000 432 MB 14,623 14.623 vorhergesagte Gene
Insekt Solenopsis invicta (Feuerameise) 480,000,000 480 MB 16,569
Säugetier Mus musculus 2,700,000,000 2,7 GB 20,210
Säugetier Pan paniscus 3,286,640,000 3,3 GB 20,000 Bonobo - geschätzte Genomgröße 3,29 Milliarden bp
Säugetier Homo sapiens 3,117,000,000 3,1 GB 20,000 Homo sapiens - geschätzte Genomgröße von 3,12 Gbp im Jahr 2022

Erste Sequenzierung und Analyse des menschlichen Genoms

Vogel Gallus gallus 1,043,000,000 1,0 GB 20,000
Fisch Tetraodon nigroviridis (Art der Kugelfische) 385,000,000 390 MB Kleinstes bekanntes Wirbeltiergenom mit schätzungsweise 340 Mb - 385 Mb.
Fisch Protopterus aethiopicus (marmorierter Lungenfisch) 130,000,000,000 130 GB Größtes bekanntes Wirbeltiergenom

Genomische Veränderungen

Da alle Zellen eines Organismus aus einer einzigen Zelle hervorgegangen sind, wird davon ausgegangen, dass sie identische Genome haben; in einigen Fällen kommt es jedoch zu Unterschieden. Sowohl der Prozess des Kopierens von DNA während der Zellteilung als auch die Exposition gegenüber Umweltmutagenen können zu Mutationen in Körperzellen führen. In einigen Fällen führen solche Mutationen zu Krebs, weil sie bewirken, dass sich die Zellen schneller teilen und in das umliegende Gewebe eindringen. In bestimmten Lymphozyten des menschlichen Immunsystems entstehen durch V(D)J-Rekombination unterschiedliche genomische Sequenzen, so dass jede Zelle einen einzigartigen Antikörper oder T-Zell-Rezeptor produziert.

Während der Meiose teilen sich die diploiden Zellen zweimal, um haploide Keimzellen zu erzeugen. Während dieses Prozesses führt die Rekombination zu einer Neuordnung des genetischen Materials homologer Chromosomen, so dass jede Gamete ein einzigartiges Genom hat.

Genomweite Reprogrammierung

Bei der genomweiten Reprogrammierung in den primordialen Keimzellen der Maus wird die epigenetische Prägung ausgelöscht, was zur Totipotenz führt. Die Reprogrammierung wird durch aktive DNA-Demethylierung erleichtert, ein Prozess, der den DNA-Basen-Exzisionsreparaturweg einschließt. Dieser Weg wird bei der Löschung der CpG-Methylierung (5mC) in primordialen Keimzellen genutzt. Die Löschung von 5mC erfolgt durch seine Umwandlung in 5-Hydroxymethylcytosin (5hmC), die durch hohe Konzentrationen der Ten-Elven-Dioxygenase-Enzyme TET1 und TET2 angetrieben wird.

Genom-Evolution

Genome sind mehr als die Summe der Gene eines Organismus und weisen Eigenschaften auf, die gemessen und untersucht werden können, ohne dass die Details bestimmter Gene und ihrer Produkte berücksichtigt werden müssen. Forscher vergleichen Merkmale wie Karyotyp (Chromosomenzahl), Genomgröße, Genreihenfolge, Codon Usage Bias und GC-Gehalt, um herauszufinden, welche Mechanismen die große Vielfalt der heute existierenden Genome hervorgebracht haben könnten (für aktuelle Übersichten siehe Brown 2002; Saccone und Pesole 2003; Benfey und Protopapas 2004; Gibson und Muse 2004; Reese 2004; Gregory 2005).

Duplikationen spielen eine wichtige Rolle bei der Gestaltung des Genoms. Die Duplikation kann von der Verlängerung kurzer Tandemwiederholungen über die Duplikation eines Genclusters bis hin zur Duplikation ganzer Chromosomen oder sogar ganzer Genome reichen. Solche Verdoppelungen sind wahrscheinlich grundlegend für die Entstehung genetischer Neuerungen.

Der horizontale Gentransfer wird herangezogen, um zu erklären, warum kleine Teile der Genome zweier Organismen, die ansonsten sehr weit voneinander entfernt sind, sich oft extrem ähneln. Horizontaler Gentransfer scheint bei vielen Mikroben üblich zu sein. Auch bei eukaryotischen Zellen scheint es zu einem Transfer von genetischem Material von ihren Chloroplasten- und Mitochondriengenomen auf ihre Kernchromosomen gekommen zu sein. Jüngste empirische Daten deuten darauf hin, dass Viren und subvirale RNA-Netzwerke eine wichtige Rolle bei der Erzeugung genetischer Neuerungen und der natürlichen Genom-Editierung spielen.

In der Fiktion

Werke der Science-Fiction veranschaulichen die Bedenken hinsichtlich der Verfügbarkeit von Genomsequenzen.

Michael Crichtons Roman Jurassic Park aus dem Jahr 1990 und der darauf folgende Film erzählen die Geschichte eines Milliardärs, der auf einer abgelegenen Insel einen Themenpark mit geklonten Dinosauriern errichtet, was katastrophale Folgen hat. Ein Genetiker extrahiert Dinosaurier-DNA aus dem Blut uralter Moskitos und füllt die Lücken mit DNA moderner Arten, um mehrere Dinosaurierarten zu erschaffen. Ein Chaostheoretiker wird gebeten, sein Gutachten über die Sicherheit der Konstruktion eines Ökosystems mit den Dinosauriern abzugeben, und er warnt wiederholt, dass die Ergebnisse des Projekts unvorhersehbar und letztlich unkontrollierbar sein werden. Diese Warnungen vor den Gefahren der Nutzung genomischer Informationen sind ein Hauptthema des Buches.

Der Film Gattaca aus dem Jahr 1997 spielt in einer futuristischen Gesellschaft, in der die Genome von Kindern so manipuliert werden, dass sie die idealste Kombination von Merkmalen ihrer Eltern enthalten, und in der für jede Person auf der Grundlage ihres Genoms Kennzahlen wie das Risiko von Herzerkrankungen und die voraussichtliche Lebenserwartung dokumentiert werden. Menschen, die außerhalb des Eugenik-Programms gezeugt wurden und als "In-Valids" bekannt sind, werden diskriminiert und auf niedere Berufe verwiesen. Der Protagonist des Films ist ein In-Valid, der versucht, den vermeintlichen genetischen Widrigkeiten zu trotzen und seinen Traum zu verwirklichen, als Weltraumnavigator zu arbeiten. Der Film warnt vor einer Zukunft, in der genomische Informationen Vorurteile und extreme Klassenunterschiede zwischen denen, die sich gentechnisch veränderte Kinder leisten können und denen, die es nicht können, schüren.

Organisation von Genomen

Prokaryoten

Bei den Prokaryoten liegt die DNA als langes, in sich geschlossenes Molekül vor. Daneben können kürzere, ebenfalls in sich geschlossene DNA-Moleküle, sogenannte Plasmide, in variabler Anzahl vorhanden sein. Diese können unabhängig von der Haupt-DNA vervielfältigt und an andere Prokaryotenzellen weitergegeben werden (Konjugation), auch über Artgrenzen hinweg. Sie enthalten in der Regel nur wenige Gene, die zum Beispiel Resistenzen gegen Antibiotika vermitteln.

Prokaryotische Genome sind im Allgemeinen wesentlich kleiner als eukaryotische. Sie enthalten relativ geringe nichtcodierende Anteile (5–20 %) und auch nur wenige oder gar keine Introns.

Organellen

Die Genome der Mitochondrien/Hydrogenosomen und Plastiden sind – soweit vorhanden – wie prokaryotische Genome organisiert (vgl. Endosymbiontentheorie). Die ‚Mitogenome‘ (seltener auch ‚Chondriome‘, mtDNA) und ‚Plastome‘ (cpDNA, seltener ctDNA) enthalten jedoch nur einen geringen Teil der für die Funktion dieser Organellen benötigten Gene, weshalb diese Organellen als „semi-autonom“ bezeichnet werden.

Viroide

Die genomische RNA der Viroide ist zwischen 241 und 401 Nukleotide kurz und enthält viele komplementäre Bereiche, die doppelsträngige Sekundärstrukturen ausbilden. Viroide haben keine zusätzliche Hülle und sind 80 bis 100-fach kleiner als die kleinsten Viren. Sie vermehren sich innerhalb lebender Zellen höherer Pflanzen.

Genomgrößen

Als Genomgröße wird die in einem Genom vorhandene Menge an DNA bezeichnet. Bei Eukaryoten bezieht sich diese Angabe gewöhnlich auf den haploiden Chromosomensatz, dies wird auch als C-Wert bezeichnet. Es wird entweder die Anzahl der vorhandenen Basenpaare (bp) oder die Masse der DNA in der Einheit pg (Pikogramm) angegeben. 1 pg doppelsträngiger DNA besteht aus etwa 0,978·109 bp, also aus knapp einer Milliarde Basenpaaren. Üblich sind auch die Bezeichnungen Kilo-Basenpaar (kbp oder kb) für 1.000 Basenpaare und Mega-Basenpaar (Mbp oder Mb) für eine Million Basenpaare.

Nach neueren Untersuchungen besitzt der Südamerikanische Lungenfisch (Lepidosiren paradoxa) mit 80 pg (7,84 × 1010 bp) das größte bisher bekannte tierische Genom. Ältere, aber wohl ungenauere Untersuchungen zeigen mit etwa 133 pg noch größere Genome, die ebenfalls bei Lungenfischen, allerdings bei der afrikanischen Art Äthiopischer Lungenfisch (Protopterus aethiopicus) gefunden wurden. Mit 0,04 pg (weniger als 50 Millionen Basenpaare) besitzt das zum primitiven Tierstamm Placozoa gehörende, auf Algen lebende, etwa 2 mm große, wenig differenzierte Trichoplax adhaerens das kleinste bisher bekannte tierische Genom. Die Zahl der Basenpaare des Darmbakteriums Escherichia coli ist nur um einen Faktor 10 kleiner. Das kleinste bisher quantifizierte bakterielle Genom besitzt der Blattfloh-Endosymbiont Carsonella ruddii: Sein zirkuläres DNA-Molekül enthält nur knapp 160.000 Basenpaare, in denen sämtliche Informationen gespeichert sind, die er zum Leben braucht.

Beispiele für Genomgrößen
Organismus Genomgröße1 Gene Gendichte2
PSTVd 359 0 0
HIV 9.700
Bakteriophage Lambda (Virus) 50.000
Carsonella ruddii (Blattfloh-Endosymbiont) 160.000 182 1.138
Escherichia coli (Darmbakterium) 4.600.000 4.500 900
Backhefe Saccharomyces cerevisiae 13.000.000 6.000 300
Trichoplax adhaerens (Plattentiere) 40.000.000 11.500 287,5
Caenorhabditis elegans (Fadenwurm) 80.000.000 19.000 200
Acker-Schmalwand Arabidopsis thaliana 100.000.000 25.500 255
Drosophila melanogaster (Taufliege) 200.000.000 13.500 70
Daphnia pulex (Wasserfloh) 200.000.000 31.000 155
Kugelfisch Takifugu rubripes 365.000.000
Gemüsekohl Brassica oleracea 5,99–8,68 × 108 100.000 167-115
Mensch Homo sapiens 3,1 × 109 23.000 7
Teichmolch Triturus vulgaris 2,5 × 1010
Lungenfische Lepidosiren paradoxa 7,8 × 1010
 1in Basenpaaren bzw. Nukleotiden  2Anzahl der Gene pro Millionen Basenpaare

Stand 2020 hat das haploide Genom einer menschlichen Zelle eine Länge von etwa 3,1 Milliarden Basenpaaren. Bei einem diploiden Genom und einer Länge von 0,34 nm pro Basenpaar ergibt sich damit in jedem Zellkern eine Gesamtlänge von gut zwei 2 Metern DNA.

Ein Vergleich der Genomgröße mit der Komplexität und dem Organisationsgrad des Organismus ergibt keinen klaren Zusammenhang. So haben Schwanzlurche größere Genome als Reptilien, Vögel und Säugetiere. Lungenfische und Knorpelfische haben größere Genome als Echte Knochenfische, und innerhalb von Taxa wie den Blütenpflanzen oder Protozoen variiert die Genomgröße in hohem Maß. Dies wird als „C-Wert-Paradoxon“ bezeichnet. Die größte DNA-Menge weisen einfache Eukaryoten wie einige Amöben sowie die Urfarne mit rund einer Billion Basenpaaren auf. Diese Arten enthalten einzelne Gene als tausendfache Kopien und lange, nicht proteincodierende Abschnitte.

Sequenzierte Genome

Die DNA von Genomen verschiedener Organismen, die entweder für die medizinisch-pharmazeutische oder anwendungsorientierte Forschung oder auch für die Grundlagenforschung relevant sind, wurde annähernd vollständig „sequenziert“ (man spricht auch fälschlicherweise vom „Entschlüsseln“), das heißt, ihre Basensequenz wurde ermittelt (per DNA-Sequenzierung, teilweise nach einer Genomamplifikation). Die Basensequenzen werden über das Internet u. a. vom NCBI bereitgestellt.

Übersichten
Einzelne Genome

Pangenom

Das Pangenom bezeichnet die Gesamtheit der Gene in einer Art (Spezies), die eine Fortpflanzungsgemeinschaft darstellt. Das Pangenom umfasst zwei Untergruppen: Das Kerngenom, das die Gene umfasst, die in jedem Mitglied der Spezies vorkommen und das variable (akzessorische) Genom, das die Gene beinhaltet, die nur in einzelnen Mitgliedern der Art vorhanden sind. Das Pangenom wurde zunächst bei Bakterien beschrieben, bei denen ein horizontaler Gentransfer zwischen verschiedenen Organismen häufig vorkommt. Bei Pflanzen wurde das Pangenom erst nach DNA-Sequenzierung des vollständigen Genoms verschiedener Varietäten einer Art nachgewiesen. Der Anteil des variablen Genoms schwankt zwischen 19 % beim Gemüsekohl (Brassica oleracea) und 62 % bei der Gerste (Hordeum vulgare). Es ist zu beachten, dass diese Zahlen durch die Anzahl der sequenzierten Varietäten beeinflusst werden. Ein Vergleich von Nutzpflanzen mit der entsprechenden Wildform zeigt, dass häufig Gene bei der Domestizierung verloren gehen. Da diese Gene für erwünschte Eigenschaften codieren können (z. Bsp. Resistenzgene), ist es von Interesse diese Gene in Nutzpflanzen zurückzuführen (siehe Grüne Gentechnik).