Sprecheraufnahmen für Erklärvideos - mit Hörbeispielen

 

Ein Erklärvideo ist oft einer der ersten Berührungspunkte eines potentiellen Kunden mit einem Unternehmen - und somit auch der erste Eindruck. Und in einem Erklärvideo ist es der Sprecher (oder natürlich die Sprecherin...), der dem Betrachter die Inhalte erklärt, sympathisch und vertrauensvoll wirken soll und letztendlich das Unternehmen repräsentiert. Ist der Sprecher unverständlich oder zu leise, gibt es sofort eine Störung in der Kommunikation zwischen dem potentiellen Kunden und dem Unternehmen. Der Betrachter des Videos macht direkt nach Beginn des Videos zwei negative Erfahrungen mit dem Unternehmen oder dem beworbenen Produkt: Er wird gezwungen einzugreifen und die Lautstärke zu erhöhen und er hat den Anfang nicht verstanden. Kein guter Start in ein Verkaufsgespräch… im Worst Case verliert das Unternehmen in dem Moment sogar einen potentiellen Kunden.

Umso erstaunlicher ist es, dass ich bezüglich Sprecheraufnahmen für Erklärvideos immer wieder diese beiden Argumente höre:

  1. „Der Sprecher ist nicht so wichtig wie die Grafiken und Animationen!“
  2. „Die Aufnahme muss nicht so gut klingen - die Leute schauen sich das Video eh nur auf dem Computer oder Smartphone an.“

Doch gerade aus dem eingangs genannten Grund ist der Sprecher in einem Erklärvideo mindestens genau so wichtig wie die grafischen Elemente. Aus dem E-Learning weiß man sogar, dass eine schlechte Tonqualität mehr vom Inhalt ablenkt, als eine schlechte Bildqualität!

Und gerade weil die Leute sich die Videos eh nur auf dem Computer oder Smartphone ansehen, muss die Qualität der Sprecheraufnahme sehr gut sein. Durch die verlustreiche Komprimierung des Video- und Audiosignals auf z.B. YouTube gehen nämlich sehr viele Teile der Originaldateien verloren. Je mehr vorher da war, desto besser klingt das Ergebnis später!

 

Aber wie bekommt man eine technisch hochwertige Sprecheraufnahme, die auch auf einem Smartphone gut verständlich ist?

 

Entscheidend dafür sind neben einem professionellen Sprecher zwei Dinge:

  1. eine hochwertige Aufnahme des Sprechers
  2. eine zweckmäßige Nachbearbeitung der Aufnahme (oft als Editing oder Mastering bezeichnet)

 

>>> FÜR DIE HÖRPROBEN MIT EINEM VORHER-NACHHER VERGLEICH BITTE GANZ NACH UNTEN SCROLLEN <<<

 

Die Aufnahme

Man sollte meinen, dass es eigentlich nicht so schwer sein kann, eine/-n Sprecher/-in aufzunehmen: eine Stimme, ein Mikro, passt schon. Dabei ist eine Sprecheraufnahme mit das herausforderndste überhaupt: Im Gegensatz zu einem Sänger, der von einer Band begleitet wird, kann sich die Sprecherstimme nämlich nicht hinter anderen Signalen verstecken. Die ganze Aufmerksamkeit gehört einzig und allein der Stimme. Und man hört ALLES: Jeden Atmer, jedes Schmatzerchen, jeden verschluckten Laut, jede störende Frequenz im Raum - einfach alles.

 

Für eine saubere Sprecheraufnahme benötigt Ihr neben einem professionellen Sprecher also auch eine hochwertige Aufnahmekette:

 

Die Nachbearbeitung

Auch wenn Ihr eine qualitativ hochwertige Sprecheraufnahme vorliegen habt, gilt für Audio das gleiche wie für Video: erst die Postproduktion vollendet die Aufnahme. Beim Editing oder Mastering der Sprecheraufnahme für Erklärvideos haben sich diese vier optionalen (!) Bearbeitungsschritte in der Reihenfolge bewährt:

  1. DeEssing
    Egal, wie professionell der Sprecher ist, die S-Laute sind oft zu laut. Mit einem DeEsser kann man sie ganz einfach so weit reduzieren, dass es sich wieder natürlich anhört. Hervorragende und einfach einzustellende DeEsser gibt es von Waves oder iZotope.
  2. EQing
    Natürlich kommt es immer auf die Sprecherstimme und die Aufnahme drauf an, aber es gibt bei einer Sprecheraufnahme für Erklärvideos einige Frequenzbereiche, die Ihr grundsätzlich überprüfen könnt (bei Sprecherinnen liegen diese Bereiche etwas höher):
    a)   Alles unter 100 Hz kann man mit einem LowCut 12dB - 18dB wegschneiden, das überträgt eh kein Computerlautsprecher.
    b)   Alles über 12 kHz kann man genau so gut und aus dem selben Grund mit einem 12dB HiCut wegschneiden.
    c)   Der Bereich zw. 200 und 300 Hz mulmt gerne und ist vor allem bei Sprechern, die in einer „selbstgebauten“ Kabine aufnehmen, oft etwas überbetont. Hier kann man bei Bedarf etwas reduzieren, bis ca. 3dB.
    d)   Bei Sprechern, die nicht regelmäßig Stimmbildung machen, oder wenn der Raum nicht akustisch optimiert ist, kann auch der Bereich zw. 400 und 600 Hz etwas überbetont sein. Auch hier kann man um ca. 3dB absenken.
    e)   Manchmal kann man auch den Frequenzbereich zw. 1200 und 1600 Hz etwas reduzieren.
    f)    Entscheidend für die Sprachverständlichkeit eines Sprechers im Erklärvideo ist der Bereich zwischen 2 und 4 kHz. Und hier muss man genau hinhören! Gut ausgebildete Sprecher und vor allem auch Sänger haben in diesem Frequenzbereich oft sehr ausgeprägte Anteile. Manche Mikrofone betonen diesen Frequenzbereich zusätzlich nochmal. Das klingt dann schnell unangenehm. Also kann man auch hier ggf. um ca. 3dB reduzieren. Wenn Ihr dagegen das Gefühl habt, der Sprecher geht etwas unter, kann auch eine leichte Anhebung in diesem Frequenzbereich die richtige Maßnahme sein.
    g)   Wenn Ihr das Gefühl habt, der Sprecher klingt etwas dumpf, was z.B. an der Kabine oder dem vorher angewendeten DeEsser liegen kann, hilft eine Anhebung der Höhen um 1,5dB bis 6dB mit einem sanften HiShelf bei 8 bis 10 kHz.
  3. Komprimierung
    Falls Ihr nicht über einen Hardware-Kompressor aufgenommen habt (was die wenigsten Sprecher machen, wenn Ihr die Aufnahmen direkt vom Sprecher geliefert bekommt), könnt Ihr die Aufnahme jetzt noch etwas komprimieren, damit der Pegel einheitlicher wird und sich die Stimme gut über die Lautsprecher des Computers oder Smartphones durchsetzt. Folgende Einstellungen eignen sich fast immer:

    Ratio: 4:1
    Attack: < 1ms
    Release: 50 - 100 ms
    Threshold: so weit runterdrehen, bis Ihr eine maximale Pegelreduzierung von 6 bis 9 dB erzielt.
    Knee soft oder hart - was besser klingt
  4. Limiting
    Zu guter Letzt fügt Ihr noch einen Limiter ein, um das VO auf die richtige Lautstärke zu bringen und vor Clipping zu schützen. Bei Audiosignalen, die später in verlustreich komprimierte Audiosignale wie mp3 umgewandelt werden - was bei YouTube definitiv der Fall ist - empfiehlt sich ein Limiting auf -1dBFS. Denn durch die Komprimierung kann es zwischen den einzelnen Samples zu Peaks kommen, die um bis zu 1dB höher liegen, als das ursprüngliche Signal. Benutzt auf jeden Fall ein Limiter-Plugin mit True-Peak-Limiting. True Peak limitiert auch genau diese Pegelsprünge zwischen zwei Samples.

 

Finale Maßnahmen

Wenn die Sprecheraufnahme fertig nachbearbeitet ist, sind noch drei weitere Dinge wichtig:

  1. Die angestrebte Lautheit
    Der Sprecher in einem Erklärvideo sollte so laut sein, dass er bei „normaler“ Lautstärke-Einstellung des Wiedergabe-Geräts gut hörbar ist. Eine angenehme online Sprach-Lautstärke liegt bei -13 bis -11 dBFS RMS.
  2. Hintergrundmusik
    Wird in dem Erklärvideo Hintergrundmusik verwendet, sollte mit einem Ducking-Effekt gearbeitet werden, um die Verständlichkeit des Sprechers zu gewährleisten. Ein Ducking-Effekt reduziert den Pegel der Musik immer dann, wenn die Sprecherstimme ertönt. Mit extremen Einstellungen wird dieser Effekt z.B. in der Radio-Werbung angewandt. Ohne Ducking ist die Hintergrundmusik entweder zu leise oder so laut, dass sie den Sprecher teilweise übertönt.
  3. Reality-Check
    Der Konsument sieht und hört sich das Erklärvideo über Computer- oder Smartphone-Lautsprecher an. Also erfolgt auch der letzte Soundcheck über Computer- oder Smartphone-Lautsprecher. Wenn der Sprecher darüber gut klingt, ist alles gut!

 

Hörproben

Hier könnt Ihr Euch beispielhaft drei Sprecheraufnahmen anhören, die mit den oben beschriebenen Schritten bearbeitet wurden. Alle drei Sprecher liefern schon top Qualität aus Ihrem eigenen Studio, trotzdem profitieren die Aufnahmen noch von der Nachbearbeitung.

Die Tracks fangen jeweils mit der unbearbeiteten Sprecheraufnahme an - so wie sie von den Sprechern geliefert wurde - und ich habe sie zusätzlich, wie es in Erklärvideos üblich ist, mit Hintergrundmusik unterlegt. Das Ergebnis: die Stimme ist tendenziell zu leise. Man muss sich schon sehr konzentrieren um ihr folgen zu können. Auch wirken Musik und Sprecher/-in nicht wie eine Einheit, sondern eher wie zwei Elemente die gegeneinander arbeiten. Mal ist die Musik eher zu leise, mal etwas zu laut. Bei der Sprecherin treten die etwas spitzen S-Laute hervor.

Bei der Wiederholung wurde die Sprachaufnahme optimiert und die Musik mit einem sogenannten Duckingeffekt versehen, der die Lautstärke der Musik immer dann etwas reduziert, wenn die Sprecherstimme einsetzt. So erhält man eine optimale Lautheit und Verständlichkeit der Sprecherstimme und Sprecher/-in und Musik wirken wie eine Einheit.

Die Botschaft des Unternehmens wird störungsfrei kommuniziert. Und da der Betrachter nicht durch eine schlechte Tonqualität abgelenkt ist, kann er sich voll und ganz auf das Video konzentrieren!

 

Die drei Hörbeispiele zeigen übrigens auch sehr schön auf, dass die oben beschriebenen Schritte zur Nachbearbeitung auf ganz unterschiedliche Sprecherstimmen anwendbar sind!

 

Vielen Dank an die beiden Sprecher der Hörproben, Robert Voß und Tom Solo

und an die Sprecherin Sabrina Heuer-Diakow.

 

 

Wer sich noch detaillierter mit der Aufnahme von Voice-Overs auseinandersetzen will, dem empfehle ich diese Lektüre: Recording Voiceover von Tom Blakemore


Und wenn Ihr eine Sprecheraufnahme oder -nachbearbeitung benötigt oder auf der Suche nach GEMA-freier Hintergrundmusik für ein Erklärvideo seid, meldet Euch bei mir, wir finden bestimmt eine Lösung ;-)


Kommentar schreiben

Kommentare: 0