Am 1.11.1996 wurden die ersten DVD-Spieler in Japan veröffentlicht, im Februar 1997 in den USA, und im Oktober 1998 erfolgte der offizielle Start in Westeuropa.


DVDs haben einen Durchmesser von 12 oder 8 cm und sind 1,2 mm dick; sie können ein- oder zweiseitig sein, sowie auf jeder Seite eine oder zwei Schichten haben. Die so gut wie ausschließlich genutzte 12-cm-Variante hat eine Speicherkapazität von 4,37 – 15,91 Gigabyte (bei der Angabe der Speicherkapazität wird mit Vielfachen von 1024 gerechnet: 1 GB = 1024 Megabyte, 1 MB = 1024 Kilobyte, 1 KB = 1024 Byte, 1 B = 8 Bit), je nach Anzahl der Schichten und Seiten. Eine einseitige DVD mit einer Schicht fasst 4,37 GB, mit zwei Schichten 7,95 GB. Eine zweiseitige mit jeweils einer Schicht kommt auf 8,75 GB, mit einer Schicht auf der einen und zwei auf der anderen Seite auf 12,33 GB, und eine zweiseitige mit zwei Schichten schließlich auf 15,91 GB.

Es heißt, eine einseitige, einschichtige DVD biete Platz für einen Film von 135 Minuten Länge. Diese Angabe ist jedoch mit Vorsicht zu genießen, und zwar aus folgenden Gründen:
Festgelegt sind lediglich eine maximale Datenrate von 9,8 Mbps (Millionen Bit pro Sekunde; bei der Angabe der Datenübertragungsrate in bps wird mit Vielfachen von 1000 gerechnet: 9,8 Mbps = 98000000 Bit pro Sekunde) für die Videospur und von 10,08 Mbps für die Kombination aus Videospur, Audiospur(en) und Subbildern, wie z. B. Untertitel. Audiospuren sind bis zu 8 erlaubt, jede mit bis zu 5.1 Kanälen; Subbilder kann es bis zu 32 geben. Würde die maximale Videodatenrate konstant ausgenutzt, wäre lediglich Platz für einen Film von 62 Minuten Länge.

Stattdessen wird der Film meist so stark komprimiert, dass er auf eine Seite (mit bis zu zwei Schichten) der DVD passt. Hierbei muss auch beachtet werden, wie viele Audiospuren mit wie vielen Kanälen auf der DVD enthalten sind. Je mehr Audiospuren mit vielen Kanälen, desto mehr Speicherplatz brauchen diese, und desto weniger Speicherplatz steht für die Videospur zur Verfügung.

Im Folgenden soll es um Bild und Ton auf der DVD gehen.

Bild


Auflösung
Die auf Video-DVDs gespeicherten Bilder unterscheiden sich in ihrer Auflösung, je nachdem, ob es sich um DVDs aus PAL- bzw. SECAM-Regionen handelt (im folgenden nur als PAL-Regionen/Territorien bezeichnet) oder um solche aus NTSC-Regionen.
Für gewöhnlich findet sich auf PAL-DVDs eine Auflösung von 720*576 Bildpunkten, auf NTSC-DVDs 720*480.
Des weiteren gibt es für PAL-Regionen noch die Auflösungen 704*576, 352*576 und 352*288, sowie für NSTC-Regionen 704*480, 352*480 und 352*240.

Farbe
Farbsystem: Die DVDs selbst verwenden jedoch keines dieser drei Farbsysteme, die Bilder sind im Y‘CbCr-Format gespeichert und werden lediglich in eines der drei Farbformate umgewandelt, wenn der DVD-Spieler über einen Video- oder S-Video-Ausgang angeschlossen wird. Bei SCART-, Komponenten-, DVI- oder HDMI-Anschluss wird das Y‘CbCr-Bild direkt ausgegeben.
Beim Y‘CbCr-Format werden ein Helligkeitsignal und zwei Farbdifferenzsignale gespeichert, nämlich Blau minus Helligkeit und Rot minus Helligkeit; hieraus lassen sich sowohl das blaue, das rote als auch das grüne Signal errechnen.

Farbraum: Verwendet wird der Farbraum nach der ITU (International Telecommunication Union, Internationale Fernmeldeunion)-Empfehlung 709, der lediglich einen Ausschnitt aus allen für das menschliche Auge sichtbaren Farben darstellt. Dieser Farbraum stammt aus den Zeiten des Röhrenfernsehers, da die dort für die Leuchtschicht verwendeten Phosphore für die roten, grünen und blauen Bildpunkte nicht die maximal wahrnehmbare Röte, Grüne und Bläue erreichten.

Farbtiefe: Innerhalb dieses Farbraums sind 16,777216 Millionen Farbabstufungen möglich, da die Bilder mit 8 Bit für jede der drei Grundfarben gespeichert sind. Aus diesen 8 Bit ergeben sich 256 mögliche Abstufungen für jede Grundfarbe (2 hoch 8 = 256), daraus wiederum 16,7 Millionen mögliche Abstufungen insgesamt (256 hoch 3 = 16,777216 Millionen).

Farbunterabtastung: Zudem sind die Bilder mittels einer 4:2:0-Farbunterabtastung gespeichert, was zu einer sowohl horizontal als auch vertikal gegenüber der Helligkeitsauflösung halbierten Farbauflösung führt.
4:2:0 ist dabei folgendermaßen zu verstehen: Die Notation bezieht sich auf ein Feld mit 4 horizontalen und 2 vertikalen Pixeln, also auf 8 Pixel. Für jede der beiden Zeilen werden 4 Helligkeitsinformationen abgetastet, für die erste Zeile jedoch nur 2 Farbinformationen, und für die zweite 0 Farbinformationen; hier werden stattdessen die Farbinformationen der ersten Zeile übernommen. Bei der Farbunterabtastung wird sich zunutze gemacht, dass das menschliche Auge Farbunterschiede weniger genau als Helligkeitsunterschiede wahrnimmt, und sich dadurch Speicherplatz sparen lässt.

Voll- und Halbbilder
Auch als Frames und Fields bezeichnet. Gespeichert sind die Bilder als Halbbilder; das erste Halbbild enthält alle ungeraden Zeilen, das zweite alle geraden.
Für DVDs aus NTSC-Territorien sind es 59,94 Halbbilder pro Sekunde, für solche aus PAL-Territorien 50. Werden DVDs auf einem Bildschirm wiedergegeben, der nur Vollbilddarstellung unterstützt, werden die Halbbilder entweder im DVD-Spieler oder vom Bildschirm zu Vollbildern zusammengesetzt.
Eine wenig genutzte Möglichkeit ist es, 23,976 (NTSC-Territorien) bzw. 24 (PAL-Territorien) Vollbilder zu speichern. Diese werden bei der Ausgabe zu 59,94 (NTSC-Territorien) bzw. 50 (PAL-Territorien) Halbbildern umgerechnet; ohne Umrechnung können sie nicht ausgegeben werden.

Kino- und Videobilder: Generell muss beachtet werden, dass es zwei unterschiedliche Arten von Ausgangsmaterial für die Bilder gibt: Film und Video. Kinofilm verfügt über 24 Vollbilder pro Sekunde, Video über 50 bzw. 59,94 Halbbilder. Beim Kinofilm als Ausgangsmaterial müssen lediglich die zwei zusammengehörigen Halbbilder zu einem Vollbild zusammengesetzt werden, bei Video jedoch muss die fehlende Hälfte der Bildinformationen errechnet werden, da hier nicht zwei Halbbilder jeweils die Hälfte einer aufgenommenen Szene zeigen, sondern zeitlich aufeinanderfolgende Schnappschüsse.
Um vom Kinofilm mit seinen 24 Bildern überhaupt auf 50 bzw. 59,94 Halbbilder pro Sekunde zu kommen, wird folgendes gemacht:
In PAL-Territorien werden 50 Halbbilder pro Sekunde benötigt, also wird zunächst jedes Kino-Vollbild in zwei Halbbilder aufgeteilt; da man damit aber nur 48 Halbbilder pro Sekunde erhält, wird noch das erste Vollbild aus der zweiten Kino-Sekunde in die erste DVD-Sekunde mit hereingenommen (als 2 Halbbilder), am Ende der zweiten DVD-Sekunde finden sich dann schon zwei Bilder aus der dritten Kino-Sekunde, und so weiter. Auf DVDs aus PAL-Territorien läuft ein Film somit 1/25 schneller als im Kino; dies fällt beim Betrachten nicht auf. Allerdings läuft auch die Tonspur ein wenig schneller, wodurch der Ton ein wenig höher wird; wird dies nicht korrigiert, können es feine Ohren durchaus bemerken.
Um auf die 59,94 Halbbilder für NTSC-Territorien zu kommen (für unser Beispiel gehen wir einfach mal von aufgerundeten 60 aus) wird von jedem zweiten Kino-Vollbild das erste DVD-Halbbild zwei mal gezeigt, das ganze sieht dann so aus: Halbbild a von Vollbild 1, b von 1, a von 2, b von 2, nochmal a von 2, a von 3, b von 3, a von 4, b von 4, nochmal a von 4, usw. Durch die ungleichmäßige Wiederholung der Halbbilder kann es zu wahrnehmbarem Ruckeln kommen, besonders bei schnellen Kameraschwenks.

Kompression
Die Bilder auf Video-DVDs sind komprimiert, und zwar mit dem verlustbehafteten MPEG2-Verfahren. Dieses funktioniert so, dass nur durchschnittlich 2 der 30 bzw. 25 Bilder einer Sekunde komplett gespeichert werden, und für die anderen jeweils nur die Veränderungen im Hinblick auf diese zwei Bilder.
Dabei gibt es 3 Arten von Bildern: Intra-Bilder, vorhergesagte Bilder, und bidirektionale Bilder.
Die komplett gespeicherten Bilder heißen Intra-Bilder, oder I-Frames. Weiter unten wird erklärt, wie sie komprimiert werden.
Vorhergesagte Bilder, oder P (predicated)-Frames, enthalten Vektoren im Vergleich mit dem vorherigen I- oder P-Frame. Hierfür werden die Bilder in Blöcke, sogenannte Makro-Blöcke, aufgeteilt, und es wird in benachbarten Bildern geschaut, ob ähnliche Blöcke auftauchen. Diese werden dann nicht komplett gespeichert, sondern es wird ein Vektor gespeichert, der angibt, wie weit sich der Block bewegt hat. Hier werden auch Sättigungs- oder Farbveränderungen gespeichert. Taucht in einem Block etwas komplett neues auf, wird dieser Block wie in einem I-Frame gespeichert.
Bidirektionale Bilder, B-Frames, schauen nicht nur zurück, sondern auch nach vorne. Dadurch muss ein ganz neuer Block nicht komplett gespeichert werden, sondern kann im Hinblick auf den nächsten I- oder P-Frame angegeben werden.
Typischerweise befinden sich zwei B-Frames zwischen einem I- oder P-Frame, bei wie erwähnt meist 2 I-Frames pro Sekunde. Bei den 30 Frames des NTSC-Formats sähe das so aus: I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B .

Nun zur Komprimierung der Intra-Bilder:
Die verlustbehaftete Kompression funktioniert wie die Kompression von JPEG-Bildern und entfernt Details, die vom Auge nicht besonders gut wahrgenommen werden können:
Farbveränderungen (im Gegensatz zu Helligkeitsveränderungen), Helligkeitswerte unter und über bestimmten Schwellenwerten, geringe Veränderungen von Helligkeit oder Farbe (je nach Bereich unterschiedlich, z.B. werden Veränderungen bei Grüntönen stärker wahrgenommen als bei Blautönen), sowie abrupte Helligkeits- oder Farbveränderungen (gegenüber sanften).
Die JPEG-Kompression teilt ein Bild in kleine Blöcke auf und wendet auf diese eine diskrete Kosinus-Transformation (DCT) an. Diese verwandelt räumliche Intensitätswerte in räumliche Frequenzwerte. Dadurch entsteht eine Angabe dessen, wie viele Details sich verändern; die Werte werden von der niedrigsten bis zur höchsten Frequenz angeordnet, wobei die niedrigen Frequenzen große Zahlen ergeben, die hohen kleine. Bereiche mit gleichmäßigen Farben oder wenigen Details erhalten aufgrund ihrer niedrigen räumlichen Frequenz große Zahlen, solche mit ungleichmäßigen Farben oder vielen Details kleine Zahlen.
Die DCT arbeitet zwar verlustfrei, durch Anwendung von Ganzzahlen-Mathematik und Näherungswerten entsteht aber bereits ein gewisser Detailverlust.
Die durch die DCT erhaltenen Werte sind nun allerdings größer als die ursprünglichen Werte, weswegen sie quantisiert werden müssen. Hierbei werden alle Werte durch einen bestimmten Faktor geteilt – z.B. durch 10 – und anschließend zur nächsten ganzen Zahl gerundet. Auch hierbei gehen Details verloren, obwohl die Quantisierungsskala auch angepasst werden kann, also feiner oder gröber gemacht werden kann.
Ein Vorteil der DCT ist jedoch, dass durch die Anordnung der Zahlen von groß nach klein häufig Folgen von gleichen Zahlen auftreten, besonders von Nullen. Hierauf lässt sich nun eine Form der Lauflängenkodierung anwenden.
Bei der Lauflängenkodierung wird nach sich wiederholenden Muster in einem Bild gesucht, und diese werden dann nur einmal gespeichert, und bei jedem weiteren Auftreten durch weitaus weniger komplexe Symbole ersetzt.
Die bei der JPEG-Komprimierung eingesetzte Variante speichert, wie oft nacheinander Nullen auftreten, und die jeweilige Anzahl wird durch ein Symbol aus einer Tabelle ersetzt, die kürzere Symbole für die Anzahlen enthält, die am häufigsten auftreten. Das ganze nennt sich variable Längen-Enkodierung (variable length encoding, VLC).
Die Daten können dadurch mit so gut wie keinen wahrnehmbaren Verlusten auf 1/5 komprimiert werden, und auf 1/10 mit nur wenig wahrnehmbaren Verlusten.

Gespeichert sind die Bilder im 4:3-Format, entweder flach oder anamorph.
Lediglich Bilder mit der Auflösung 352*240 bzw. 352*288 sind mit dem MPEG1-Verfahren komprimiert.

Ton


Für den Ton ist eine Dolby-Digital-Spur verpflichtend, darüber hinaus kann es auch DTS-Spuren geben, sowie PCM- oder MPEG-Spuren. Die letzten beiden werden aber kaum bis gar nicht genutzt, PCM findet sich häufiger bei Musik-DVDs, da es im Gegensatz zu den anderen Verfahren nicht verlustbehaftet komprimiert ist, also eine bessere Klangqualität bietet.

Kompression
Bei der Kompression werden generell gesagt nicht hörbare Töne entfernt. Die Ermittlung dessen, was nicht hörbar ist, basiert auf dreierlei: Empfindlichkeitsschwellen des menschlichen Gehörs, Frequenzmaskierung, sowie zeitlicher Maskierung.

Empfindlichkeitsschwellen: Töne unterhalb einer bestimmten Lautstärke können vom menschlichen Gehör nicht wahrgenommen werden, wobei sich diese Lautstärke je nach Frequenz (Tonhöhe) unterscheidet. Außerdem gilt, dass, je mehr laute Töne zu hören sind, desto weniger leise wahrgenommen werden können.

Frequenzmaskierung: Treten leise Töne zusammen mit lauten Tönen der gleichen Frequenz auf, so können die leisen nicht wahrgenommen werden; sie werden von den lauten maskiert, das heißt verdeckt. Dies gilt auch für leise Töne in benachbarten Frequenzen, wobei laute Töne in bestimmten Frequenzen mehr benachbarte Töne verdecken als in anderen Frequenzen.

Zeitliche Maskierung: Leise Töne können bis zu 200 ms nach und 2 – 3 ms vor einem lauten Ton nicht wahrgenommen werden. Letzteres ist so, da das vom Ohr kommende Signal für das Gehirn ein Kompositum aus Stimuli mit einer Dauer von ca. 200 ms ist. Es werden also Blöcke von ca. 200 ms Dauer übertragen, innerhalb derer ein lauter Ton 2 – 3 ms zuvor auftretende leise Töne maskieren kann; der laute Ton kann also schon begonnen haben, bevor er übertragen wird.

Beim Komprimieren wird nun ein Block von Samples in Frequenzbänder unterschiedlicher oder gleicher Breite zerteilt.
Bei der Ausnutzung der Frequenzmaskierung wird geschaut, wie viel der Ton in benachbarten sowie der eigenen Frequenz maskiert. Signale in anderen Frequenzen, die komplett maskiert werden, können ganz wegfallen; je mehr innerhalb der eigenen Frequenz maskiert wird, desto mehr kann diese komprimiert werden.
Komprimiert wird mittels Quantierung (Teilen und Runden); dabei können jedoch Fehler entstehen, sogenanntes Quantierungsrauschen. Es kann also nur so sehr quantiert werden, wie das Rauschen entweder maskiert wird oder unter der Hörschwelle liegt.
Ebenfalls zum Einsatz kommt der Vergleich von Sample-Blöcken mit vorigen oder folgenden Blöcken, um zu sehen, ob zeitliche Maskierung stattfindet, und das so maskierte (leise Töne oder Rauschen) weggelassen werden kann.
Auch können schwache Töne auf einzelnen Kanälen durch starke Töne auf anderen maskiert, und somit weggelassen, werden. Ebenso müssen Töne, die auf mehreren Kanälen auftreten, nur einmal gespeichert werden. Auch kann die Bandbreite zwischen den Kanälen verschoben werden.
Zu Verlusten kann es kommen, wenn doch ein wenig mehr entfernt wird, als nur das, was nicht hörbar ist; dies kann geschehen, um die Datenrate nierdrig zu halten.

Kanäle, Samplefrequenz, Samplegröße
PCM wird meist als 2-Kanal-Spur eingesetzt, da es aufgrund der fehlenden Kompression zwar gut klingt, jedoch auch viel Speicherplatz beansprucht. Möglich sind bis zu 8 Kanäle. Die Samplefrequenz beträgt 48 oder 96 KHz, die Samplegröße 16, 20 oder 24 Bit.

Dolby Digital bietet bis zu 5.1 diskrete, das heißt unabhängige, Tonspuren, mit Dolby Digital EX kommt eine sechste Spur hinzu, die allerdings aus zwei anderen dekodiert wird, also nicht als unabhängige Tonspur vorliegt. Die Samplefrequenz beträgt 48 KHz, die Samplegröße bis zu 24 Bit.

DTS bietet in der Variante DTS-ES dagegen 6.1 separate Spuren (als pures DTS 5.1), kann die sechste aber alternativ ebenfalls als nicht diskrete beinhalten. Die Samplefrequenz beträgt bei bis zu 5.1 Kanälen 96 KHz, bei bis zu 6.1 Kanälen 48 KHz, die Samplegröße abermals bis zu 24 Bit.

MPEG kann bis zu 7.1 Spuren haben, wird aber so gut wie nicht genutzt. Die Samplefrequenz beträgt 48 KHz, die Samplegröße bis zu 20 Bit.