Genom

Ein Genom ist die Gesamtheit der DNA eines Virus, einer Zelle oder eines Organismus.

Das Genom enthält die Informationen, die zur Entwicklung (Ontogenese) der Bau- und Leistungsmerkmale eines Lebewesens oder eines Virus notwendig sind. Diese Informationen sind in der Basensequenz der DNA verschlüsselt. Daneben enthält es Basensequenzen, die strukturelle Bedeutung für die Organisation der DNA haben oder deren Bedeutung noch nicht bekannt ist.

Bei mehrzelligen Organismen ist das Genom die Gesamt-DNA einer Zelle. Das Genom der einzelnen, ausdifferenzierten Zelle ist weitgehend dem Genom der Zygote, aus der sie durch mitotischer Zellteilung entstanden sind, identisch. Es gibt jedoch durch Mutationen und mitotische Rekombinationen kleine Veränderungen.

Bei Organismen mit Kernphasenwechsel unterscheidet sich das Genom der Keimzellen vom Genom der Zygote ebenfalls durch Mutationen sowie durch meiotische Rekombinationen (siehe Meiose).

Inhaltsverzeichnis

Chemische Grundlagen

Die für die Vererbung von Eigenschaften und Merkmalen erforderlichen und auf der Ebene der Zellen und der Individuen weitergegebenen Informationen sind in den Desoxyribonukleinsäuren (DNA, von englisch "desoxyribonucleic acids") enthalten, und zwar in Form von Sequenzen der DNA-Basen Adenin, Guanin, Cytosin und Thymin. Die DNA-Moleküle können in Abschnitte mit kodierenden und nicht-kodierenden Sequenzen eingeteilt werden. Die kodierenden Abschnitte (Gene) enthalten die Erbinformationen für bestimmte Proteine. Daneben gibt es DNA-Abschnitte, die der Genregulation dienen. Pseudogene sind durch Mutationen funktionslos gewordene und vom Organismus nicht mehr abgelesene Gene. Bei Eukaryoten findet durch das alternative Splicing eine Datenkompression statt, so dass die Genomgröße (in Basenpaaren gemessen) kleiner sein kann als die Anzahl der durch das Genom codierten Merkmale.

Bei allen Organismen, die komplexer als Viren sind, gibt es außerhalb der chromosomalen DNA (bei Eukaryoten "Karyom" genannter Teil des Genoms) weitere Genombestandteile in anderen Zellteilen. So finden sich bei Bakterien und Archaebakterien essentielle Plasmide, bei Eukaryoten (Pflanzen, Tiere, Pilze) gibt es selbstständig vererbte DNA-Sequenzen in den Mitochondrien ("Mitochondriom") und Plastiden ("Plastidom"), die aber zum Gesamtgenom der Zellen gehören.

Typische Genomgrößen

Lebewesen Genomgröße (in Basenpaaren) Anzahl der Gene Gendichte (Anzahl der Gene pro Mio. Basenpaare)
λ-Phage 5×104    
Darmbakterium Escherichia coli 4,6×106 4500 900
Bäckerhefe Saccharomyces cerevisiae 2×107 6000 300
Fadenwurm Caenorhabditis elegans 8×107 19000 200
Taufliege Drosophila melanogaster 2×108 13500 70
Kugelfisch Fugu rubripes 3,65×108    
Mensch Homo sapiens sapiens 3×109 30000 10
Molch 4×1010
Ackerschmalwand 1×108 25500 255

Bei Eukaryoten beziehen sich die Zahlenangaben auf den haploiden Chromosomensatz.
Da die Angaben über die Anzahl der Gene in der Literatur noch schwanken (Beispiel Drosophila: 3.000 bis 4.400) sind die Angaben zur Gendichte nur als Richtwerte anzusehen.
Anmerkung 1: Die DNA einer einzelnen menschlichen Zelle ist ca. 1,80 m lang.
Anmerkung 2: Ein Basenpaar hat einen Informationsgehalt von 1 bit, das Genom des Menschen hat einen Informationsgehalt von ca. 400 MByte.

Ein Vergleich der Genom-Größe mit der Komplexität und des Organisationsgrades des Organismus ergibt einen direkten Zusammenhang: Je größer das Genom, um so komplexer ist der Organismus:

thumb|Genom-Größe

Ausnahmen bilden hierbei weniger komplexe Organismen mit hoher DNA-Menge (als „C-Wert-Paradoxon“ bezeichnet): einige Samenpflanzen, die Salamander und urtümliche Fische wie Stör, Hornhecht und Quastenflosser.

Die höchste DNA-Menge weisen einfache Eukaryoten wie einige Amöben und die Urfarne (Psilopsida) mit rund einer Billion Basenpaare auf.

Diese Arten enthalten einzelne Gene als tausendfache Kopien, und lange, nicht-Protein-codierende Abschnitte. Auch im menschlichen Genom kommt ein etwa 300 Basenpaare langes DNA-Stück, die alu-Sequenz in ungefähr 300000 Kopien vor und macht damit 3 % der gesamten DNA aus.

Wird dagegen der Anteil der DNA, die nicht Proteine codiert, betrachtet, ergibt sich eine direkter Zusammenhang zur Komplexität des Organisationsgrades. (Vergleiche dazu die Angaben zur Gendichte in der Tabelle oben):

thumb|Anteil der DNA, die nicht Proteine codiert

Dieser Zusammenhang könnte darin begründet sein, dass diese Sequenzen zahlreiche regulatorische Aufgaben erfüllen. Zur Zeit (März 2005) wird die Möglichkeit diskutiert, dass die Komplexität eines Organismus in Zusammenhang mit der Menge an DNA steht, die zwar keine Proteine codiert, aber dennoch transkribiert, also in RNA übertragen wird. Dabei werden Introns nicht als Reste alter Gene aufgefasst, sondern als Abkömmlinge beweglicher DNA-Abschnitte, vergleichbar mit den heutigen Gruppe-II-Introns. Diese und weitere RNA-Moleküle, die durch Transkription entstehen, und die weder m-, t- oder rRNAs sind, können Teil eines Regulationssystems sein, das neben den Proteinen die Entwicklung eines Organismus steuert. Zum Beispiel sind RNA-Signale an der Markierung des Chromatins beteiligt, wodurch die Genexpression gesteuert wird.

Bestandteile des menschlichen Genoms

Die Zahlen beziehen sich auf den haploiden Chromosomensatz des Menschen ohne mitochondrialer DNA (mtDNA). Mb = 106 Basen

Die Gesamtmenge des menschlichen Genoms beträgt 3.000 Mb, das sind 3·109 Basenpaare.

Gene

Ein Teil des Genoms besteht aus Sequenzen, die in einem Transkription genannten Vorgang in eine RNA übertragen werden. Diese Sequenzen werden auch als Gene bezeichnet.

Protein codierende Gene

Das RNA-Transkript enthält Basensequenzen, welche die Aminosäuresequenz von Proteinen codieren. Die RNA wird dann als mRNA bezeichnet. Bei den Eukaryota ist sie aus Exons und Introns zusammengesetzt und wird in diesem Zustand als prä-mRNA oder hnRNA bezeichnet. Sie wird noch vor der Translation bearbeitet (prozessiert), in dem die nicht-codierenden Introns herausgeschnitten werden. Die mRNA der Prokaryota weist nie Introns auf.

Die Aminosäuresequenzen codierende DNA ist beim Menschen 90 Mb groß, das sind 3 % des Genoms. Das entspricht 25000 Genen, die ungefähr 500.000 Proteine codieren.

Von Genen abstammende Sequenzen

Einige Basensequenzen stammen zwar von Genen ab, das Transkript wird aber nicht in eine Aminosäuresequenz übersetzt. Diese nicht codierende DNA ist 810 Mb groß.

  1. Pseudogene sind veränderte Kopien funktionell aktiver Gene, die deren Expression steuern können.
  2. Introns werden noch im Zellkern der Eukaryoten aus der prä-mRNA herausgeschnitten. Ihre Funktion ist nicht vollständig geklärt. Einige enthalten Erkennungssequenzen für Replikationsfaktoren, die die Aktivität der RNA-Polymerase beeinflussen. Eine häufig geäußerte Vermutung ist, dass durch die zwischen die codierenden Exons eingestreuten Introns die Mutationshäufigkeit in den codierenden Sequenzen herabgesetzt ist. Dagegen spricht aber, dass auch in den Introns hochkonservierte consense-Sequenzen (siehe unten) zu finden sind. Eine andere Vermutung besteht darin, dass durch gelegentlich ungenaues Spleißen der prä-mRNA Eiweiße entstehen, die sich an bestimmten Stellen in nur wenigen Aminosäuren unterscheiden und somit etwas veränderte Eigenschaften aufweisen. Auf die Weise könnte bewerkstelligt werden, dass von einem Enzym-Typ stetes mehrere Versionen bereitgestellt werden, die etwas unterschiedliche Eigenschaften (tum Beispiel im pH- oder Temperatur-Optimum) aufweisen.
  3. Genfragmente entstehen dann, wenn es von einem Gen mehrere Kopien im Genom gibt und eine dieser Kopien durch Mutationen unbrauchbar wird.

RNA-codierende Gene

Das RNA-Transkript enthält Basensequenzen, welche die Basensequenz von RNAs codieren. Diese Moleküle werden auch als ncRNAs (nc von engl. non coding = nicht kodierend) bezeichnet und erfüllen zahlreiche Aufgaben bei der Proteinbiosynthese. Einige davon sind erst vor kurzem bekannt geworden und noch nicht genauer erforscht. Es wird vermutet, dass die ncRNAs molekulare Fossilien aus der RNA-Welt sind (siehe chemische Evolution) und damit von Bedeutung für das Verständnis der Evolution der Lebewesen sind.

  1. tRNAs transportieren Aminosäuren zu den Ribosomen.
  2. rRNAs sind Bestandteile der Ribosomen und erfüllen dort strukturelle und katalytische Aufgaben. ssRNA (ssuRNA, small subunit RNA) ist die RNA für die kleine, lsRNA (lsuRNA, large subunit RNA) die für die große Untereinheit der Ribosomen.
  3. snRNAs sind Bestandteile der Spleißosomen, welche aus der prä-mRNA die Introns herausschneiden.
  4. Ebenfalls ein junges Forschungsgebiet ist die RNA-Interferenz (RNAi), eine weitere Möglichkeit der Regulation der Proteinbiosynthese, wobei kleinere RNA-Moleküle mit Teilen der mRNA reagieren und dadurch in der Regel die Translation verhindern. Solche RNA-Moleküle sind siRNAs (si von engl. short interfering), microRNAs, von welchen das menschlichen Genom mehrere Hundert aufweist. Es gibt auch Interaktionen von RNAs mit der DNA, mit Proteinen und mit niedermolekularen Substanzen.
    1. Mikro-RNA: Manche Introns enthalten zueinander komplementäre Abschnitte, so dass die prä-RNA nach der Transkription Haarnadelschleifen bilden kann. Diese werden durch spezielle Proteine des „Zensursystems“ (ursprünglich ein Abwehr-System gegen virale Doppelstrang-RNA) erkannt und so abgebaut, dass einsträngige RNA-Abschnitte entstehen, die an andere mRNAs binden und somit spezifisch (zielgenau) mRNA zerstören können. (RNA-Interferenz). Für einzelne Moleküle ist ihre Funktion bekannt: Sie sorgen dafür, dass Stammzellen sich nicht differenzieren, und steuern Zellvermehrung und Apoptose (programmierter Zellselbstmord) beim Umbau embryonaler Gewebe.
  5. Antisense-RNA: Die mRNA entsteht am codogenen (Matrizen-) Strang der DNA. Wird auch der komplementäre Strang abgelesen, entsteht eine zur mRNA komplementäre RNA. Verbinden sich mRNA und Antisense-RNA zu einem Doppelstrang, kann kein Protein mehr bei den Ribosomen gebildet werden. Auch dies stellt eine Möglichkeit der Regulation der Proteinbiosynthese dar. Beim Menschen gibt es mindestens 1600 antisense-Gene.
  6. SRP-RNA ist Bestandteil der signal recognition particles, das sind Protein-RNA-Komplexe, welche den zielgerichteten Transport von Proteinen in der Zelle gewährleisten.

Nichtkodierende Sequenzen

Der übrige Teil des Genoms besteht aus Sequenzen, die nicht transkribiert werden. Er wird als extragenische DNA bezeichnet und weist ein Länge von insgesamt 2100 Mb auf.

Davon besteht der größte Teil (1.680 Mb) aus einzelnen, individuellen oder nur selten wiederholten Basensequenzen. Dies sind in der Regel Sequenzen, an welche bestimmte Enzyme binden und dadurch die Replikation und Transkription steuern:

Der Rest der DNA von 420 Mb besteht aus hoch repetitiven Sequenzen.

disseminierte (verstreute) genomweite Wiederholungen

Tandemwiederholungen

Die Anzahl der Wiederholungen variiert von Individuum zu Individuum, die Abweichungen sind vom Verwandtschaftsgrad abhängig. Deshalb sind sie für den genetischen Fingerabdruck geeignet. Die von der Norm abweichende Zahl an Wiederholungen kann Krankheiten auslösen.

Weitere besondere DNA-Sequenzen

Sogenannte Junk-DNA

Mit dem heutigen Wissenstand ist es problematisch, Sequenzen als „bedeutungslos“ oder „junk“ zu bezeichnen. Für den Organismus tatsächlich bedeutungslose Sequenzen dürften im Laufe der Evolution sehr bald verloren gegangen sein. (Siehe die Evolution des Y-Chromosoms).

Repetitive Sequenzen erleichtern den Austausch zwischen homologen Chromsomen während der Meiose (crossing over) und erhöhen damit die genetische Variabilität.

Organisation des Genoms

Sequenzierte Genome im Internet

Mittels der DNA-Sequenzierung wurden annähernd vollständige Genome von verschiedenen Organismen, die entweder für die medizinisch-pharmazeutische oder anwendungsorientierte Forschung oder auch für die Grundlagenforschung relevant sind, entschlüsselt und über das Internet vom NCBI bereitgestellt.

Archaea - http://www.ncbi.nlm.nih.gov/genomes/static/a.html
Bacteria - http://www.ncbi.nlm.nih.gov/genomes/static/eub.html
Escherichia coli (Colibakterien) - http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=562
Eukaryota - http://www.ncbi.nlm.nih.gov/genomes/static/euk.html
Homo sapiens (Mensch) - http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9606
Felis catus (Hauskatze) - http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9685
Mus musculus (Hausmaus) - http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=10090
Drosophila melanogaster (Fruchtfliege) - http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=7227
Arabidopsis thaliana (Ackerschmalwand) - http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=3702
Oryza sativa (Reis) - http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=4530

Literatur

Siehe auch

Genetik - Molekularbiologie - Molekularbiologische Datenbanken - Proteinbiosynthese - DNA-Sequenzanalyse - Gen - Mitochondrium - mtDNA


Kategorie:Genetik Kategorie:Bioinformatik

See also: Genom, Ackerschmalwand, Adenin, Adenosin, Alternatives Splicing, Aminosäure, Amöbe, Antibiotika, Apoptose, Archaea