Eine Hand hält Kopfhörer in der Hand – ein Symbol für die wachsende Rolle von KI am Mikrofon und die Zukunft digitaler Audioinhalte.

06 März 2025| doi: 10.5281/zenodo.14981911

KI am Mikrofon: Die Stimme der Zukunft?

Digitale Audioinhalte boomen – immer mehr Menschen hören Podcasts, Hörbücher und Hörspiele. Gleichzeitig revolutioniert künstliche Intelligenz (KI) die Produktion und Verbreitung dieser Audioinhalte. KI-gestützte Tools können Stimmen synthetisieren, Texte automatisch vertonen und sogar eigenständig ganze Podcast-Episoden generieren. Doch was bedeutet KI am Mikrofon für die Branche? Welche neuen Möglichkeiten eröffnen sich – und wo liegen die Herausforderungen? Dieser Beitrag beleuchtet die spannendsten Trends und wirft einen Blick auf Gegenwart und Zukunft der KI in der Audiowelt.

Ohren auf! Audio boomt weltweit

Laut Audible Hörkompass 2024 hören 46 % der Deutschen im Alter von 18–65 Jahren regelmäßig Audio-Inhalte. Das sind fast dreimal so viele wie noch 2016. Diese Zahl umfasst sowohl Podcasts als auch Hörbücher und Hörspiele und unterstreicht das starke Wachstum des Audio-Konsums.

Auch andere Studien zeigen, dass Hörformate immer beliebter werden: Rund ein Drittel der deutschsprachigen Bevölkerung ab 14 Jahren nutzt zumindest gelegentlich Podcasts. Besonders zwischen 2020 und 2022 nahm die Nutzung stark zu und hat sich seitdem auf einem hohen Niveau eingependelt. Ein ähnlicher Trend zeigt sich europaweit und in den USA: In vielen europäischen Ländern hören je nach Land etwa 20–30 % der Menschen zumindest hin und wieder Podcasts. In den USA sind die Zahlen für die Podcast-Nutzung noch höher und erreichen Rekordwerte: 47 % der US-Bevölkerung ab 12 Jahren haben 2024 innerhalb des letzten Monats einen Podcast gehört, und 34 % hören wöchentlich Podcasts. Auch Hörbücher werden beliebter – 38 % der US-Erwachsenen haben 2024 mindestens ein Hörbuch im letzten Jahr gehört (2019 waren es ~35 %). Insgesamt ist der Audio-Bereich also ein wachsender Markt, in dem große Teile der Bevölkerung regelmäßig Inhalte konsumieren.

KI-Sprachtools erobern die Hörbuchproduktion

Vor dem Hintergrund dieser Nachfrage entstehen neue Tools, um Audioinhalte schnell und kostengünstig bereitzustellen. Ein prominentes Beispiel für ein solches Tool ist ElevenLabs, ein 2022 gegründetes KI-Sprachsynthese-Unternehmen. ElevenLabs hat im Februar 2025 eine eigene Hörbuch-Plattform namens ElevenReader Publishing gestartet. Über diese Plattform können Autor*innen und Verlage kostenlos Audioversionen ihrer Bücher erstellen. Dafür lädt man ein eBook (z.B. als ePub oder PDF) hoch, wählt aus einer Palette von KI-Stimmen eine Erzählstimme aus – und die KI generiert daraus ein Hörbuch. Anschließend können die fertigen Audiobücher über die ElevenReader-App kostenlos von Nutzer*innen angehört werden. Während der Beta-Phase bezahlt ElevenLabs die teilnehmenden US-Autor*innen sogar dafür, wenn Hörer*innen länger als 11 Minuten in ein AI-generiertes Hörbuch reinhören (1,10 $ pro Nutzer). Das Unternehmen, das bereits mit verschiedenen Geschäftskunden Umsätze erzielt, plant perspektivisch ein Abo-Modell für Hörer*innen sowie einen Marktplatz, auf dem Autor*innen ihre Audiotitel verkaufen können. Die Umsatzbeteiligung soll geringer ausfallen als bei etablierten Plattformen wie Audible oder Apple Books. ElevenLabs zielt zunächst auf Self-Publisher und kleine Verlage ab, um Büchern, die sonst keine Vertonung erhielten, eine Audio-Version zu ermöglichen. Dieses Beispiel zeigt das Potenzial von KI, die Hörbuchproduktion zu demokratisieren: Audiobücher lassen sich schneller und günstiger produzieren, was insbesondere Nischenautor*innen zugutekommt.

Ein relevanter Wettbewerber in diesem Bereich ist Apple. Der Tech-Konzern hat bereits Ende 2022/Anfang 2023 begonnen, in seinem Apple-Books-Service ausgewählte Hörbücher mit KI-Stimmen bereitzustellen. Ohne großes Aufsehen wurde eine ganze Reihe englischsprachiger Titel mit digitalen Stimmen veröffentlicht. Apple wirbt damit, dass diese Stimmen „natürlich klingend“ seien und auf echten Sprechstimmen basieren. Kritiker*innen monierten jedoch, dass die AI-Erzählstimmen bislang nicht die Ausdruckskraft menschlicher Vorleser*innen erreichen und vom Publikum teils skeptisch aufgenommen würden. Dennoch markiert Apples Vorstoß einen wichtigen Trend: Große Plattformen integrieren KI-Narration direkt in ihr Ökosystem. Auch Google bietet Verlagen einen ähnlichen Service an – über Google Play Books können seit 2022 Verlage in einigen Ländern automatisch englische oder spanische E-Books in Hörbücher umwandeln lassen. Dabei stehen Dutzende verschiedener Sprechstimmen (unterschiedlichen Alters, Geschlechts und Akzents) zur Auswahl. Die fertigen Hörbücher können über Google Play verkauft werden, wobei Verlage einen Großteil der Erlöse erhalten. Die Kosten der automatischen Vertonung sind in der Beta-Phase gering oder entfallen vollständig. Google argumentiert für die Nutzung von KI, dass viele Bücher ohne KI gar nicht vertont würden und man Verlagen so einen einfachen, bezahlbaren Einstieg in den Audiomarkt ermöglicht.

Parallel öffnen Distributionsplattformen sich für KI-generierte Inhalte. So hat Spotify im Februar 2025 angekündigt, dass es ab sofort KI-erstellte Hörbücher akzeptiert. Autor*innen können mit ElevenLabs produzierte Hörbuch-Dateien via Spotifys Dienst Findaway Voices auf Spotify veröffentlichen. Digital vertonte Titel werden für Hörer*innen klar gekennzeichnet – in der Beschreibung steht der Hinweis „Dieses Hörbuch wird von einer digitalen Stimme erzählt“. Spotify hatte bereits zuvor eine Unterstützung für von Google Play generierte Hörbücher implementiert. Diese Öffnung großer Plattformen signalisiert, dass KI-Hörbücher marktfähig geworden sind und einem breiten Publikum zugänglich gemacht werden. Wettbewerber wie Amazon’s Audible verfolgen das Thema dagegen noch vorsichtig – Audible erlaubt KI-narratierte Hörbücher Stand 2024 nur eingeschränkt auf seiner Plattform, was zeigt, dass der Markt sich hier noch in der Findungsphase befindet.

KI am Mikrofon

Nicht nur bei Hörbüchern, auch im Podcast-Bereich hält KI Einzug. Ein Beispiel dafür ist Googles experimentelles Projekt NotebookLM. Dabei handelt es sich um ein intelligentes Notiz- und Recherche-Tool, das seit 2024 mit einer besonderen Audio-Funktion aufwartet. NotebookLM kann aus hochgeladenen Dokumenten oder Notizen auf Knopfdruck eine Audio-Zusammenfassung generieren – eine Art Mini-Podcast, der den Inhalt im Gesprächsformat wiedergibt. Diese “Audio Overviews”-Funktion, die Google im September 2024 eingeführt hat, erregte viel Aufmerksamkeit, weil die automatisch generierten Sprecher*innen sehr natürlich klingen und in Tonfall und Tempo echten Podcast-Moderator*innen ähneln. Online teilen Nutzer*innen begeistert Ausschnitte solcher KI-Podcasts, die sie aus eigenen Unterlagen erstellt haben. So kursierte etwa ein von NotebookLM generierter Dialog zweier KI-Moderator*innen, die erschrocken feststellen, dass sie selbst keine Menschen seien – dieser scherzhafte Clip ging auf Reddit viral. Google betont, dass der Mehrwert des Tools darin liege, Content hörbar zu machen, der sonst nicht als Audio verfügbar wäre. So kann man etwa einen umfangreichen Foliensatz oder einen wissenschaftlichen Artikel hochladen und sich vom KI-Assistenten ein mehrminütiges „Podcast“-Format erstellen lassen, das man nebenbei anhören kann. Die Nutzung von NotebookLM ist derzeit kostenlos und erfordert lediglich einen Google-Account. Das Beispiel zeigt, wie KI individuelle Inhalte in personalisierte Audioerlebnisse verwandeln kann. Das funktioniert mit dem firmeninternen Report oder auch Uni-Skripts.

Jetzt den KI-generierten Podcast hören

Die Podcast-Reihe Talking About Platforms – Platform Classics kennzeichnet sich selbst als „AI Generated Series“. In dieser Serie des Talking About Platforms-Podcasts werden wissenschaftliche Aufsätze durch KI-Tools wie NotebookLM zusammengefasst und als kurze Audio-Episoden veröffentlicht. Die Macher nutzen KI sowohl zur inhaltlichen Aufbereitung (für Zusammenfassungen und vereinfachte Erklärungen von Forschungsliteratur) als auch zur automatischen Vertonung. Um das transparent zu machen, enthält jede Folge einen Hinweis, dass der Podcast mittels künstlicher Intelligenz generiert wurde und Inhalte aus wissenschaftlichen Publikationen zieht. Pro Folge synthetisiert die KI den Inhalt eines bestimmten Forschungsartikels und präsentiert ihn in einem erzählerischen Vortragsstil, um ihn zugänglicher zu machen. Die meist 10- bis 15-minütigen Episoden tragen den Titel des jeweiligen Papers und sind klar als KI-Produkt ausgewiesen – inklusive einem Disclaimer zu möglichen Abweichungen und Fehlern der KI). Dieses Projekt zeigt, wie KI Wissenschaftskommunikation neu gestaltet: Komplexe Texte werden automatisiert aufbereitet und als Audio verfügbar gemacht. So entstehen neue Möglichkeiten, akademisches Wissen einem breiteren Publikum zugänglich zu machen.

Die genannten Beispiele – Google NotebookLM und Platform Classics – zeigen, wie KI neue Formate im Audiobereich ermöglicht. Individuelle Inhalte, die früher textbasiert blieben, können nun automatisiert als Audio „zum Leben erweckt“ werden. Dies eröffnet Chancen, z.B. für Bildung (Zusammenfassungen von Lernmaterialien), für Unternehmen (automatisierte Audio-Newsletter oder -Reports) oder für Kreativbranchen (Experimentieren mit neuen Erzählformen). Wichtig bleibt dabei die Transparenz: Hörer*innen müssen klar erkennen können, wenn Inhalte oder Stimmen KI-generiert sind – so wie es Platform Classics konsequent umsetzt. Die klare Kennzeichnung ermöglicht eine fundierte Einordnung der Herkunft und Qualität der vertonten Inhalte und stärkt das Vertrauen in das Format.

Perfekte Imitation? Chancen und Risiken synthetischer Stimmen

Die Sprachsynthese-Technologie hat in den letzten Jahren gewaltige Fortschritte gemacht. Moderne KI-Stimmen klingen heute teils so realistisch, dass sie von menschlichen Sprecher*innen kaum mehr zu unterscheiden sind. Dienste wie ElevenLabs ermöglichen es, mit wenig Aufwand Stimmen zu klonen oder in verschiedenen Sprachen sprechen zu lassen. ElevenLabs unterstützt insgesamt 29 Sprachen und gibt den Nutzern die Möglichkeit, die Stimmlage und Betonung genau anzupassen. Blindtests zeigen,, dass Hörer*innen mitunter tatsächlich Schwierigkeiten haben, KI-Stimmen von echten menschlichen zu unterscheiden. Die KI kann zudem Stimmungen modulieren – von fröhlich über sachlich bis hin zu traurig – was den Hörer*innen ein dynamisches Erlebnis bietet. Diese technologischen Fortschritte bedeuten, dass künftig viele gesprochene Inhalte automatisiert erstellt werden könnten: Nachrichten, Navigation, Kundenhotlines, ja sogar Synchronisation in Filmen oder Serien. Für die Medienbranche und Sprechberufe ist das sowohl eine Chance als auch eine Herausforderung.

Den Chancen der KI-Stimmen wie Skalierbarkeit, Personalisierung, Barrierefreiheit von Inhalten – stehen bedeutende Risiken gegenüber. Hochrealistische synthetische Stimmen können missbraucht werden, um Leute zu täuschen oder Inhalte zu verfälschen. Schon jetzt sind Fälle bekannt geworden, in denen Betrüger*innen mithilfe von künstlicher Intelligenz Stimmen von Familienangehörigen nachahmten, um am Telefon Notlagen vorzutäuschen und Geld zu ergaunern. Laut einer Umfrage haben 25 % der Menschen weltweit schon persönlich einen solchen Voice Deepfake-Betrugsanruf erlebt oder kennen direkt ein Opfer. Die Betrugsmasche funktioniert erschreckend gut, da ein erheblicher Anteil der Angerufenen die künstliche Stimme nicht als solche erkennt. Neben Kriminalität gibt es auch Bedenken hinsichtlich Desinformation: Manipulierte Audiozitate von Politiker*innen oder anderen Persönlichkeiten des öffentlichen Lebens könnten die Verbreitung von Fake News begünstigen. Zugleich sorgt sich die Kreativbranche um Urheberrechte und Arbeitsplätze – z.B. wehrten sich Synchron- und Hörbuchsprecher*innen gegen die unbefugte Nutzung ihrer Stimmen durch KI. In den Verhandlungen der Schauspiel- und Sprecher-Gewerkschaften 2023 (u.a. in Hollywood) wurde daher ein strikter Schutz vor unbefugtem Voice-Cloning gefordert.

Schutz vor Stimmenklau: So werden KI-Stimmen reguliert

Gesetzgeber und Plattformen arbeiten daran, auf die neuen Entwicklungen rund um KI-Stimmen zu reagieren. In der EU steht mit dem AI Act ein Gesetzesrahmen vor der Einführung, der u.a. eine Kennzeichnungspflicht für Deepfakes vorsieht. KI-generierte oder manipulierte Inhalte – seien es Bilder, Videos oder Audios – müssen klar als solche gekennzeichnet werden, damit Konsument*innen nicht getäuscht werden. Solche Transparenzpflichten dürften auch für synthetische Stimmen gelten, insbesondere wenn reale Personen imitiert werden. Große Plattformen wie Spotify setzen ebenfalls bereits auf Transparenz, wenn sie alle KI-narratierten Hörbücher mit einem Hinweis für die Hörer*innen versehen.

In den USA entstehen ebenfalls spezielle Gesetze auf Bundesstaats-Ebene. Ein Beispiel ist der jüngst verabschiedete ELVIS Act in Tennessee, der die Stimm-Imitation von Personen ohne Genehmigung unter Strafe stellt. Erstmals wird damit eine gespaltene (synthetisch erzeugte) Stimme rechtlich wie die tatsächliche Stimme einer Person gleichermaßen als schützenswertes Persönlichkeitsrecht anerkannt. Wer gegen dieses Gesetz verstößt, muss mit zivilrechtlichen Klagen und sogar strafrechtlichen Konsequenzen (z. B. Geldstrafen oder bis zu einem Jahr Haft) rechnen. Auch in anderen US-Bundesstaaten oder Ländern wie China wurden Regelungen erlassen, die den Missbrauch von Deepfake-Stimmen verbiten – etwa in Wahlwerbung oder zur Verleumdung. Zusätzlich haben Behörden wie die US-Telekommunikationsaufsicht (FCC) klargestellt, dass KI-basierte Sprachanrufe ohne Einwilligung als unzulässige Robocalls gelten und verboten sind.

Aus gesellschaftlicher Sicht stellt sich die Frage, wie wir mit den neuen Möglichkeiten umgehen. Die Medienwelt und Gesellschaft stehen vor einem grundlegenden Wandel: Zum einen können KI-Stimmen Medieninhalte vielfältiger und zugänglicher machen – z.B. könnten Nachrichtenportale Artikel automatisiert in Audioform anbieten, oder historische Persönlichkeiten könnten in Dokumentationen mit ihrer „eigenen“ (geklonten) Stimme sprechen. Menschen mit Sehbehinderungen oder Leseschwäche profitieren ebenfalls von immer besseren Vorlese-Stimmen. Zum anderen müssen wir lernen, gehörte Informationen kritischer zu hinterfragen. Hat diese Person das wirklich gesagt oder handelt es sich um einen Deepfake? Möglicherweise werden sich Kennzeichnungen wie akustische Wasserzeichen oder Standardansagen („Diese Aufnahme wurde von einer KI erstellt“) etablieren, um Vertrauen zu schaffen. Für Künstler*innen und Sprecher*innen entstehen neue Berufsfelder, zum Beispiel als Stimmengeber*innen für KI-Systeme. Gleichzeitig wird der Wettbewerbsdruck durch die Technologie steigen. In den kommenden Jahren wird sich zeigen, wie sich ein verantwortungsvoller Umgang mit synthetischen Stimmen entwickeln wird, sodass wir die Vorteile der KI nutzen können, ohne die Risiken zu vergessen.

Fazit

KI-gestützte Audioinhalte sind nicht länger Zukunftsmusik, sondern Teil unseres Alltags. Automatisierte Stimmen lesen uns Bücher vor, fassen Dokumente zu Podcasts zusammen und erweitern die Audio-Landschaft um neue Formate. Diese Entwicklung bringt große Vorteile: Inhalte lassen sich schneller und individueller erstellen und werden für mehr Menschen zugänglich.

Doch mit den neuen Möglichkeiten wachsen auch die Herausforderungen. Es muss klar erkennbar sein, welche Inhalte von Menschen und welche von Maschinen stammen. Transparenz ist entscheidend, um Vertrauen zu wahren. Erste Regularien – von Plattform-Richtlinien bis hin zu Gesetzen – setzen hier an, indem sie die Gefahr von Missbrauch adressieren, stehen aber erst am Anfang.

Für Medien, Kreative und Gesellschaft heißt das: Wir erleben einen Balanceakt zwischen Innovation und Verantwortung. Gelingt er, könnten KI-Stimmen die Audio-Welt bereichern, ohne Glaubwürdigkeit und Kreativität zu untergraben. In jedem Fall lohnt es sich, diesen Diskurs aktiv zu verfolgen – denn die Stimme der KI wird künftig immer öfter in unserem Ohr mitsprechen.

Referenzen

ARD/ZDF-Onlinestudie. (2024). Podcast-Nutzung in Deutschland. ARD/ZDF-Medienkommission. Abgerufen von https://www.ard-zdf-onlinestudie.de

Audible Hörkompass. (2024). Studie zur Nutzung von Hörbüchern und Podcasts in Deutschland. Audible & Kantar. Abgerufen von https://www.audible.de

China Cyberspace Administration. (2024). AI-generated content regulations and deepfake restrictions in China. Abgerufen von https://www.cac.gov.cn

Edison Research. (2024). The Infinite Dial 2024: Podcast & Audiobook Listening Trends in the U.S. Abgerufen von https://www.edisonresearch.com

European Commission. (2024). The AI Act: Regulatory Framework for Artificial Intelligence in the EU. Abgerufen von https://ec.europa.eu/digital-strategy

Federal Communications Commission (FCC). (2024). AI-generated robocalls classified as illegal under U.S. law. Abgerufen von https://www.fcc.gov

Publishers Weekly. (2025, Februar 10). ElevenLabs launches AI-powered audiobook platform to rival Audible & Spotify. Abgerufen von https://www.publishersweekly.com

Spotify Newsroom. (2025). AI-narrated audiobooks now available on Spotify. Abgerufen von https://newsroom.spotify.com

Talking About Platforms Podcast. (2024). Platform Classics Series: AI-generated academic podcasting. Abgerufen von https://www.talkingaboutplatforms.com

TechCrunch. (2023, Dezember 7). Apple’s AI-narrated audiobooks: The next step in digital publishing. Abgerufen von https://www.techcrunch.com

TechRepublic. (2024, Oktober 1). AI-generated voices in media: The rise of digital narration. Abgerufen von https://www.techrepublic.com

Tennessee State Government. (2024). The ELVIS Act: Protecting voice rights in the era of AI cloning. Abgerufen von https://www.tn.gov

Wired. (2024, September 15). Google NotebookLM launches AI-generated podcast summaries. Abgerufen von https://www.wired.com

Dieser Beitrag spiegelt die Meinung der Autorinnen und Autoren und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de