MuMS:Fragenkatalog1

Aus Tudwiki
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

1. Audio-Techniken, -Formate und Schnittsysteme

1.1. Was versteht man unter den Begriffen Schall, Schalldruck, Frequenzgang, Klirrfaktor und Fourier-Analyse? Folie 6 bis 8

Schall: ... ist die wellenartige, longitudinale Schwingung der Moleküle in einem elastischen Medium

Schalldruck: ... ist Amplitudenabweichung des Drucks vom Normalwert - weiter bezeichnet der Schalldruck auch die Lautstärke eines Schallsignals.

Frequenzgang: ist die grafische Darstellung der Amplitude. Sie wird durch Ua (Ausgangssignal) = f (Ue) (Eingangsignal) beschrieben; f gibt Aufschluss über Nichtlineare Verzerrung, Clipping (Clipping ist ein unerwünschter Übersteuerungseffekt), Zeit- und Frequenzbereich.

Klirrfaktor ...ist das Maß für die Obertöne eines Tones oder anders gesagt sind es nichtlineare Verzerrungen

Fourier-Analyse: Mit Hilfe der Fourier-Transformation werden beliebige periodische Schwingungen in eine Summe von Sinus und Cosinus-Funktionen zerlegt ähnlich der Zerlegung von beliebigen Funktionen in Summe von speziellen Polynomen (Taylorreihen).

So kann eine vorher "unbekannte" Schwingung später einfach durch eine Summengleichung beschrieben werden.

1.2. Welche Bedeutung hat das ADSR-Modell für die Klangerzeugung und was beinhaltet es? Folie 9

Das ADSR Modell ermöglicht es die Entstehung eines Tons zu simulieren. Es besteht im Wesentlichen aus vier Phasen, die zugleich auch seinen Namen bilden:

Attack Phase A: Hier bildet sich z.B. beim Anschlagen einer Taste der Ton und die Lautstärke steigt in sehr kurzer Zeit (3-10ms) auf Ihr Maximum an. Die Oszillationen (Schwingungen) sind noch sehr chaotisch und mit vielen Oberwellen (ganzzahlige Vielfache des Grundtons) versehen.

Decay Phase D: Die unharmonischen Obertöne verschwinden in dieser Phase, womit sich auch die Amplitude (Lautstärke) verringert. Nun kann man den "richtigen" Ton (Wellenform) des Signals erkennen. Nach dem Motto "Der erste Eindruck zählt" sind die Attack Phase und die Decay Phase besonders wichtig für den Klangeindruck.

Sustain Phase S: In dieser Phase ist der eigentliche Ton zu hören, die Wellenform ist nun konstant.

Release Phase R: In dieser Phase klingt der Ton aus, wie z.B. beim Loslassen einer Klaviertaste.

Das ADSR Modell kommt vorwiegend in Synthesizern zum Einsatz um eben z.B. möglichst realistisch Instrumentenklänge zu erzeugen.

1.3. Nennen Sie die für die Digitalisierung analoger Audiosignale geltenden Randbedingungen. Was versteht man in diesem Zusammenhang unter Aliasing, Dithering und Oversampling? Folie 10, 11

Bei der Digitalisierung wird der analoge Amplitudenverlauf, der über die Zeit definiert ist, in regelmäßigen (diskreten) Abständen gespeichert. "So erhält man aus einem vorher zeit- und wertkontinuierlichen Signal ein zeit- und wertdiskretes Digitalsignal."

Wichtigste Randbedingung hierbei ist das "Abtasttheorem von Shannon und Nyquist", welches besagt, dass die Abtastfrequenz größer als die doppelte Signalfrequenz sein muss, da es sonst zu Überlappungen kommt.

Aliasing tritt auf, wenn das Abtasttheorem verletzt wird, dann passiert es, dass Töne die größer als die Hälfte des Abtasttheorems sind als niedrigte Frequenzen interpretiert werden, anstatt als hohe. Sie geben sich sozusagen als jemand anders aus. Daher auch der Begriff "Alias".

Dithering Zu dem analogen Signal wird vor dem digitalisieren noch ein Rauschen hinzugefügt, welches dann die Quantisierungsfehler wieder ausgleicht. Quantisierungsfehler treten durch das Auf- und Abrunden der Messwerte auf.

Oversampling heißt, dass man ein analoges Signal mit höherer Abtastrate diskretisiert, als eigentlich nötig wäre (an dieser Stelle). Durch die höhere Abtastrate kann man schlechtere Antialias- und Rekonstruktionsfilter benutzen, verbraucht aber auch mehr Bandbreite.

1.4. Beschreiben Sie die Funktionsweise folgender Verfahren: CD-DA, DPCM und ADPCM. Grenzen Sie diese voneinander ab. Folie 12, 13

CD-DA: Ist das Format, welches auf CDs benutzt wird. Es basiert auf dem PCM-Format. Die CD hat eine Abtastrate von 44,1 kHz, 16-Bit-Samples und 2 Kanäle.

DPCM: = Differential Pulse Code Modulation - Statt jeweils den ganzen Abtastwert zu übertragen, wird jeweils nur der Unterschied zwischen zwei diskreten Zeitpunkten gespeichert. Allerdings muss man vorher die Anzahl der Bits festlegen, mit denen man den Unterschied übertragen möchte. Wählt man ihn zu klein entstehen Fehler bei zu großen Sprüngen in dem Musikstück. Wählt man in zu groß ist der Vorteiler der Methode gegenüber PCM verloren.

ADPCM: funktioniert fast genauso wie DPCM außer, dass hier der Bitwert variabel immer wieder neu festgelegt wird. Bei leisen Audiosequenzen ist die Einteilung der Abtastwerte fein (also wenige Bit). Bei lauten Stellen wird sie dynamisch an den großen Wertebereich angepasst (also mehr Bit). Ein Problem sind dabei sich in ihrer Lautstärke schnell ändernde Sequenzen. Die Skalierung wird deshalb in kurzen Zeitabschnitten, z.B. alle 30ms neu berechnet.

1.5. Nennen Sie die wichtigsten Mehrkanal-Audio-Formate, insbesondere für DVDs. Was sind deren spezifischen Merkmale? Gehen Sie auf die Kenngrößen, Anwendungsgebiet, Kanalzahl, Quantisierung, Abtastfrequenz und Kompression ein. Folien 14 bis 17

Allgemein wird Mehrkanalsound in folgender Notation angegeben:

Anzahl der diskreten Kanäle . Anzahl der Tieftönerkanäle

(bis 5.1 , auf 7.1 und 6.1 trifft obige Definition nicht mehr richtig zu)

Digital Dolby hat eine Abtastrate von 48 kHz bei einer Quantisierung <= 24 bits. Dolby Digital beschreibt im Wesentlichen ein Mehrkanalformat, welches bis zu 5 diskrete (unabhängige) Kanäle mit einem Frequenzumfang von 3 - 20000 Hz und einem Tieftönerkanal mit 0-120 Hz enthalten kann. Es muss keineswegs immer 5.1 sein, oft wird auch 2.0 verwendet (also normales Stereo). Die Kanäle werden dabei mit einer verlustbehafteten MP3-ähnlichen Kompression versehen (AC3), so dass man im Endeffekt bei 5.1 eine Bitrate von z.B. 384 kbps erreicht.

MPEG Audio: MPEG-1 und MPEG-2 Format hat ebenfalls eine Abtastrate von 48 kHz bei einer Quantisierung von 16 oder 20 bits. Durch eine verlustbehaftete Komprimierung der PCM Daten wird für 5+1 Kanäle eine mittlere Datenrate von 384 kbps erreicht. Theoretisch sind auch 7+1 Kanäle möglich, da man die Frontkanäle von der Stereocodierung von MPEG-1 mitverwenden kann. Das nutzt man jedoch nicht, da die Original-Frontkanäle eine geringere Qualität aufweisen und fast alle Home-Verstärker und Dekoder nur 5 Kanäle unterstützen.

DTS (Digital Theater Systems) Digital Surround ist ebenfalls ein Mehrkanal-Format welches als Konkurrenz zu Dolby Digital entwickelt wurde, und wird verlustbehaftet komprimiert. Für 5.1 erreicht man eine Datenrate von 786 - 1536 kbps.

Auf der DVD kommen Dolby Digital und DTS zum Einsatz. Dolby Digital ist in Europa weitaus populärer als DTS. DTS wird hierzulande eher benutzt, wenn die Qualität des Sounds im Vordergrund steht, denn DTS hat qualitativ bessere Eigenschaften als AC3 (im Wesentlichen erlaubt es höhere Bitraten).

LPCM kommt zum Einsatz, wenn nur Stereoton gewünscht ist (im Wesentlichen also bei alten Filmen, die nicht in Mehrkanalfassungen vorliegen) und Gebühren gespart werden sollen. Manchmal wird es auch verwendet, weil es im Gegensatz zu Dolby Digital und DTS nicht verlustbehaftet ist. Mehrkanal LPCM ist zwar möglich, allerdings wird das wohl höchstens bei Klassik-DVDs eingesetzt, da der Bitratenverbrauch immens ist (über 6 Mbps (!) bei voller Ausschöpfung) und somit für das Bild ja nicht mehr allzu viel Bitrate übrig wäre.

1.6. Beschreiben Sie den prinzipiellen Aufbau einer WAV- oder einer AIFF-Datei. Folie 18, 19

WAV-Datei Hinter WAV verbirgt sich "übergeordnet" das RIFF Dateiformat (Ressource Interchange File Format). In diesem Format werden die verschiedenen Daten gespeichert. Im Falle von WAV sind das RIFF-Header, Format-Chunk, Daten Chunks und evtl. noch andere. Ein Chunk ist nichts anderes als ein Datenblock mit einer vordefinierten Aufgabe. Im Format-Chunk sind u.a. die Länge, das Format, ob Mono oder Stereo, die Kanalzahl und die Sample Rate gespeichert. Im Data-Chunk liegen dann die "wirklichen" Audiodaten (PCM, ADPCM,...)

AIFF wurde von Apple entwickelt. Es besteht aus mindestens einem Format-Chunk (Beschreibt Größe und Format der Datei), einem Common-Chunk (beschreibt die Anzahl der Kanäle, die Zahl der Sample Frames und die Wortbreite der Sound Data Chunks) und mehreren Sounds-Data-Chunks (enthält Sample-Frames, welche die Samples für bis zu 6 Kanäle enthalten können).

1.7. Welche Verfahren der synthetischen Erzeugung von Klang gibt es und wo liegen die Vor- und Nachteile der einzelnen Verfahren? Folien 20 bis 28

Ein Synthesizer erzeugt mit Hilfe von Oszillatoren (erzeugen ein mehr oder weniger obertonreiches Signal, welches dann die Grundfrequenz des Tones bildet), Filtern (damit sich Farbe und spektrale Zusammensetzung des Klangs ändern lassen) und Verstärken (bestimmt den Pegel des Schalls /hierdurch werden neben der Lautstärke auch der zeitliche Verlauf (siehe ADSR) beeinflusst) einen Ton.

Bei der Klangsynthese gibt es einmal die


Additive Synthese: Wie der Namen schon sagt, werden hier verschiedene Töne addiert und somit ist es möglich fast jeden Ton zu erzeugen. Nachteil ist, dass man sehr viele Parameter braucht um einen Ton zu erzeugen, da jeder Teilton von einem Oszillator erzeugt werden muss und mit einer Hüllkurve die Dynamik gesteuert werden muss. Sie ist allerdings heute fast nicht mehr von Bedeutung.

Subtraktive Synthese: Hier erzeugt der Oszillator Grundwellen mit verschieden "angereicherten" Obertönen, welche dann wieder mit steuerbaren Filtern verändert werden. Hier kommt man mit sehr wenigen Parametern aus. Die Synthesizer der ersten Stunde arbeiteten damit.

FM (Frequenzmodulation)-Synthese: Das Trägersignal wird durch ein Modulatorsignal verändert. Hierdurch werden in dem Spektrum des Signals sehr viele neue Obertöne erzeugt. Durch nichtlineare Schwingungen erhält der Klangcharakter seine Fülle. Die Amplitude wird über den Hüllkurvengenerator gesteuert, welcher dadurch das endgültige Klangbild bestimmt. Ein Nachteil ist, dass es keine anschaulichen Zusammenhänge zwischen den Parametern gibt, was die Programmierung erschwert. Natürliche Klangstrukturen sind nur schwer zu erzeugen, was die kommerzielle Nutzung beschränkt.


Sampling-Synthese: Die Nachteile der anderen Verfahren sollen hier dadurch ausgeglichen werden, dass vorher Samples des zu erzeugenden Klangs im Studio aufgenommen werden. Je mehr Samples man zur Verfügung hat, desto besser wird der Klang.

Wavetable-Synthese: Der Synthesizer hat 64 Audio-Kanäle und jeder Kanal besteht aus deinem Oszillator, Tiefpassfilter und 3 Envelope Generatoren. Die Envelope Generatoren bestehen aus Hüllkurven, 4 Phasen des ADSR Modells. Bei der Tonerzeugung sind die Attack Phase besonders wichtig.

Granularsynthese: Ist eine Erweiterung der Wavetable-Synthese. Die starren Töne der Wellenform-Synthese soll durch dynamische Veränderungen erweitert werden. Schallsignale werden in Grains (5-20ms) unterteilt und dann in beliebiger Reihenfolge wieder zu neuen Klängen zusammengesetzt. Hierdurch werden die Wiedergabegeschwindigkeit. Schwierig ist es die richtige Länge für die Grains zu bestimmen, aber bei der experimentellen Klanggestaltung ist es durchaus geeignet.

Acoustic Physical Modeling Hat zum Ziel die möglichst gute Nachahmung von Musikinstrumenten. Nicht der zeitliche Verlauf und die spektrale Zusammensetzung werden nachgebildet, sondern die Entstehungsmechanismen. Es wird versucht schwingende Saiten, Membranen und Luftröhren nachzubilden. Der Zusammenhang zwischen dem was man verändert und was man dann darauf hört ist besonders gut. Man bekommt sehr lebendige und dynamische Klänge. Nachteil ist die hohe Rechenleistung und die vielen unterschiedlichen Parameter.

1.8. Erläutern Sie die Merkmale und Eigenschaften von MIDI. Grenzen Sie davon den XG-Ansatz ab. Folie 29 bis 35

MIDI: Wurde 1981 von der Industrie entwickelt. Es regelt das Zusammenspiel von Geräten, die Musik erzeugen. Folgende Dinge kann Midi: "

  • zentrale Steuerung von Synthesizern und Effektgeräten.
  • Tonerzeugung und auch Kommunikation zwischen den Geräten ( Synchronisation, Geräteeinstellungen u.s.w.)
  • Unterstützung polyphoner Instrumente
  • Übertragung von Tonattributen (z.B. Anschlagdynamik)

" (Kopie aus der Lernumgebung)

Konzept: ist die Verkabelung und asynchrone serielle Schnittstelle, welche als Kommunikationsprotokoll zur Steuerung von und zum Datenaustausch dienen soll. Das Midiformat beschreibt das Instrument, die Noten, die Zeitangaben und die Tonhöhen. Das Format ist extrem kompakt es kommt mit < 1 Kbps aus.

Schnittstelle dient eine serielle, asynchrone unidirektionale Schnittstelle mit einer festen Bitrate 31,25 KBit /s mit einem 5 poligen Stecker. Eine Reihenschaltung sollte nicht mehr als 3 Geräte umfassen.

Nachteile: Im Ruhezustand fließt kein Strom, weshalb die Fehlererkennung bei z.B. einem gebrochenen Kabel schwer ist. Auch ist die Übertragungsraten sehr gering.

XG ist eine Erweiterung des MIDI-Formats. Es ist mindestens 32 stimmig und hat zusätzliche Instrumente. Auf beliebigen MDI-Kanälen kann man Drumsets einsetzen. Auch eine große Anzahl Effekte steht zur Verfügung.

1.9. Betrachtet wird die Ausbreitung von Schall im Raum. Nennen Sie die relevanten Kenngrößen von Schallquellen, die wichtigsten Faktoren, die die Ausbreitung des Schalls beeinflussenden, sowie die Eigenschaften des Raumes und die des Hörers, die Einfluss auf die Schall- und Raumwahrnehmung haben. Folien 36 bis 45

Schallwellen sind temporäre Druck- bzw. Dichteschwankungen in Form von Longitudinalwellen. Sie liegen im Frequenzbereich von 20 HZ - 20 KHz. Die Schallausbreitung folgt den Gesetzen der Wellenausbreitung.

Die Schallgeschwindigkeit ist abhängig von der Temperatur des Mediums. Bei 0°C beträgt die Schallgeschwindigkeit ca. 331 m/s, bei 20°C ca 343 m/s - Wasser: 1480 Holz: 3350 Aluminium 5100

Der Schalldruck ist die Abweichung des Drucks bzw. der Dichte vom Normalwert.

Schall breitet sich geradlinig nach allen Richtungen aus. Bei einer Punkt- bzw Kugelförmigen Schallquelle bilden Flächen gleichen Drucks konzentrische Kreise. In weiterer Entfernung werden die Kugelwellen dann immer mehr zu ebenen Flächen oder Wellen.

Die Schallintensität wird nicht nur durch den Amplitudenwert bestimmt, sondern auch durch den Energiefluss, welcher in Watt gemessen wird.

Wenn sich zwei Schallwellen überlagern (Interferenz) kommt es bei gleicher Phasenlage zur einer Verstärkung und bei entgegengesetzter zur einer Anschwächung.

Bei der Reflexion unterscheiden wir zwei Fälle. Einmal die Reflexion an einer, im Vergleich zur Schallwelle sehr großen Fläche, dann ist der Einfallswinkel gleich dem Ausfallswinkel. Bei rauen Flächen, wenn die Unebenheit größer als die Länge der reflektierenden Welle ist, haben wir eine diffuse Reflektion. Bei jeder Reflexion kommt es zu einer Absorption. Wieviel absorbiert wird, hängt von der Frequenz der Welle ab. Ein Teil der Reflexion wird in Wärme umgewandelt - der andere Teil wird in dem 2. Medium als Schall weitergeleitet.

Beugung: Entscheidend ist die Wellenlänge. Wenn die Abmessungen des Objektes größer als die Wellenlänge sind werden die Wellen blockiert. Ansonsten werden die Schallwellen gebeugt. Bei Öffnungen in einem Gegenstand kann man änliches beobachten. Ist die Öffnung kleiner als die Wellenlänge des Schalls breiten sich der Schall dahinter strahlenförmig aus. Kurz gesagt: hohe Frequenzen können sich schlechter ausbreiten als tiefe.

Bei der Schallausbreitung kann man folgende Dinge unterscheiden:

Direktschall - bezeichnet eine Wellenfront die sich auf kürzesten Weg von der Quelle zum Hörer ausbreitet.

Erstreflektion tritt meistens 30-40ms nach dem Direktschall ein - ab einer Verzögerung von mehr als 100ms nimmt man den Schall als Echo wahr.

Nachhall sind die Schalwellen die schon mehrfach reflektiert wurden - sind sehr dicht aber von geringer Energie.

1.10. Was versteht man unter Head-related Transfer Functions (HRTF)? Gehen Sie bitte auf die Bedeutung für die Wahrnehmung räumlicher Dimensionen und Verhältnisse sowie auf typische Anwendungsgebiete ein. Folien 46 bis 48

Hier wird versucht die Aufnahme auf den Kopf und das Ohr zuzuschneiden, z.B. hören das rechte und das linke Ohr nicht das gleiche. Bei der Aufnahme wird ein Kunstkopf verwendet und in die Gehörgänge werden Mikrofone gesteckt. Nachteil ist hier, dass der Kunstkopf nie wirklich dem Kopf des Endkonsumers entspricht. Lösung wäre hier für jeden eine eigene Version und erstellen. Schwierig ist auch, dass bei dem Hören mit einem Kopfhörer fast keine Reflexionen vorhanden sind und dass sich die Schallquelle immer mit dem Kopf des Hörers dreht. Bei Lautsprechern müsste diese aber wieder genau auf den Kopf ausgerichtet sein.


Anwendungsgebiete:

• Raumklang wie Dolby Digital 5.1 abends per Kopfhörer • Das „Wegbekommen“ des Im-Kopf-Gefühls wenn man Musik per Kopfhörer lauscht • Kunstkopfaufnahmen für Audiophile ;-)

1.11. Nennen Sie gängige Verfahren zur Berechnung von Raumklang und beschreiben Sie die wesentlichen Prinzipien eines Verfahrens. Folie 49 bis 51

Verfahren zur Echtzeitberechnung: Hier werden zuvor genannte Effekte nachgebildet indem man versucht den Raumklang im Voraus zu berechnen. Hier werden die Verfahren Raytracing (Verfolgung von Strahlen und deren Reflektionen) und Radiosity (Berechnung aufgenommener, abgestrahlter Energie an Oberflächen) benutzt.

Image Source Verfahren (ISV) Hier werden die virtuellen Soundquellen durch Spiegelung der Ursprungsquellen unter Berücksichtigung von Absorption erzeugt. Die virtuellen Quellen werden so oft gespiegelt bis die gewünschte Anzahl an Reflexionen vorhanden ist. Hörbar werden aber nur die Quellen gemacht, die vom Benutzer sichtbar sind.

Beamtracing Verfahren (BTV) Hier werden pyramidenförmige Beams erzeugt die dann in Ihrer Summe die ganze Umgebung abdecken. Dieses Verfahren ist besonders für feste Soundquellen geeignet. Nach der ersten Reflexion werden die Beams rekursiv weiterverfolgt und in Subbeams aufgeteilt - so entsteht ein Beamtree. Der Rechenaufwand ist erheblich reduziert gegenüber dem ISV Verfahren. Nachteil ist, dass wenn sich die Position der Schallquelle verändert der gesamte Beamtree neu berechnet werden muss.

1.12. Durch welche Maßnahmen kann bei synthetisch erzeugtem Raumklang der realistische Eindruck verbessert werden? Folien 52 bis 55

Effekte zur Verbesserung des Realismus

Dopplereffekt: Hier wird eine Frequenzverschiebung simuliert durch Bewegung von Schallquelle und Hörendern zu einander.

Windeffekte "Wind ändert die Geschwindigkeit und Dämpfung der Schallausbreitung. Wind in Richtung der Schallquelle scheint die Entfernung der Quelle zu vergrößern, wobei die Tonhöhe unbeeinflusst bleibt. Vereinfachend nimmt man an, dass sich der kugelförmig ausbreitende Schall in Windrichtung verschiebt. Bei Ausbreitung in Windrichtung wird Schall nach unten abgelenkt. Um Windeffekte zu erzeugen (oder auszugleichen) wird die Schallquelle abhängig von Entfernung, Windgeschwindigkeit und -richtung verschoben." (copy Lernumgebung)


Zeitverzögerung bei großer Entfernung, Echos Hier wird der Düsenfliegereffekt ausgenutzt. Das Flugzeug ist schon wieder verschwunden und erst jetzt hört man das Geräuscht. Das kommt daher, dass die Lichtgeschwindigkeit schneller als der Schall ist. Verschärft zur Entfernung eines Düsenfliegers kommt hinzu, dass dieser sich auch noch schnell bewegt. Man versucht diesen Effekt nachzubilden, in dem man Schallquellen getrennt von den grafischen Objekten aufstellt. Man kann diese Zeitverzögerungen nachbilden, indem Schallquellen getrennt von den graphischen Objekten im virtuellen Raum angeordnet werden. Ein künstliches Echo kann man erzeugen, in dem man eine weitere Soundquelle aufstellt, die zeitlich verzögert den gleichen Sound abspielt.

Nahortung: Ab einer Entfernung von mehr als einem Meter sind HRTFs (Head Related Transer Functions) und IDD (Erklärung kommt später - siehe Forum MMS) unabhängig voneinander. Im Nahbereich muss allerdings die Berechnung der Schallsignale sehr genau erzeugen. Hierzu müssen mehrer HRTFs in unterschiedlichen Entfernungen erstellt werden - es müssen soviele sein, dass eine gleichförmige Annäherung möglich ist.

Dämpfung durch Entfernung und Luftabsorption Die Schallausbreitung verbraucht Energie, weshalb die Schallintensität mit der Entfernung abnimmt. "Der Dämpfungseffekt beträgt ca. 6 dB bei Verdopplung der Entfernung. Luft hat zu dem die Eigenschaft, Teile höherer Frequenzen zu absorbieren (Bei Entfernungen > 10 m, werden Frequenzen > 4 kHz absorbiert)." (copy Lernumgebung)

1.13. Beschreiben Sie die prinzipielle Architektur von Audio-Subsystemen. Nennen Sie relevante 3D-Sound APIs und erläutern Sie deren Einbindung in die Architektur. Folien 56 bis 64

Das Audio-Subsystem besteht aus einer DSP-Soundkarte, der Wiedergabetechnologie und einem 3D-Sound API. Dies sind die Mindestanforderungen. Die genauen Anforderungen sind in Level 1 bis Level 3 definiert.

Level 1 :

  • 8 gleichzeitige 3D-Audiostreams mit mehr als 22 kHz bei 16bit sollen in Echtzeit ohne höhrbare Latenz möglich sein.
  • Quellen und Hörer werden mit den x, y, z Koordinaten in einem 3D Raum positioniert.
  • Intensität wird in der Abhängigkeit von der Entfernung zum Hörenden berechnet "
  • Soundquellen und Hörerposition können berechnet werden, der Dopplereffekt ist berücksichtigt. (Der Doppler-Effekt beschreibt die Frequenzänderung bewegter Schallquellen, die aus der Bewegung bezüglich eines Hörers resultiert. Er hilft, Geschwindigkeiten von Geräuschquellen akustisch zu bestimmen.)
  • Hörende besitzt variable Blickrichtung, aus der er Grafik und Klang wahrnimmt
  • Soundquellen können Schall kegelförmig in eine bestimmte Richtung abstrahlen" (copy Lernumgebung Die wichtigsten 3D-Sound APIs sind:
  • High-level: Open Audio Library (OpenAL)
  • Middle-level: Direct Sound 3D, Environmental Audio Extensions (EAX)
  • Low-level: Sensaura, (Aureal A3D), QSound 3D und QM-API (fuer weitere Infos siehe Lernumgebung, wo es ziemlich gut erklärt ist.)

    1.14. Welche Aufgabe hat die IASIG (Audio Special Interest Group)? Was sind die wichtigsten Festlegungen des I3D Katalogs? Welche Bedeutung hat dieser für heutige Audio-Subsysteme und APIs? Folie 57 bis 59

    IASIG stellt Mindestanforderungen für interaktive 3D-Audio-Subsysteme, Standard "I3D"

    - DirectSound3D implementiert I3D Level 2 Parameter

    - OpenAL integriert momentan nur I3D Level 1, setzt (unter windows) auf DirectSound3D auf

    (frech geklaut von Anatols Stoffsammlung)

    1.15. Nennen Sie die bei der MPEG-Audio-Kompression ausgenutzten psychoakustischen Effekte und erläutern Sie diese. Ordnen Sie die Effekte den Level 1 bis 3 zu. Folien 65 bis 68

    Maskierungseffekt: Bei mehreren Geräuschen gleichzeitig überdeckt das eine Geräuch bestimmte Frequenzen des anderen. Diese kann man bei der Kompression weglassen.

    Absolute Hörschwelle oder Ruhehörschwelle Geräusche werden ab einer bestimmten Lautstärke abhängig von der Frequenz nicht mehr wahrgenommen. Diese Geräusche können weggelassen werden.

    Layer 1 - Simultanverdeckung

    Layer 2 - temporäre Verdeckung

    Layer 3 - Level 1 + Level 2, dazu noch "joint stereo" (differentielle Stereokodierung), Huffmann Kodierung, Aufteilung der Frequenzen in Bänder, die gleich viel zur Wahrnehmung beitragen.

    1.16. Beschreiben Sie die Vorgehensweise bei der MPEG-Audio-Kompression und gehen Sie auf das MP3-Verfahren ein. Folie 69 bis 77

    MPEG-1 Audio-Kompression Zuerst werden alle Audio-Signale, die der Mensch nicht wahrnimmt, entfernt. Um festzustellen welche das sind muss zuerst das Spektrum des Signals betrachtet werden. [....] Im letzten Schritt wird noch einmal nach dem Huffman-Coding Verfahren komprimiert. Dieser ersetzt lange aber häuft vorkommende Schnipsel durch kurze und speichert sie als ein Muster ab. Diese Kompression arbeitet verlustfrei.

    MP3 (MPEG-2 Layer 3)

    siehe Lernumgebung - habe heute keine Lust mehr....