AI lijkt voor de video-industrie grote veranderingen teweeg te gaan brengen. De technologie kan ongeveer de volledige productie uit handen nemen. Eén van de beschikbare oplossingen zijn de Huawei Cloud E³ Media Services, waar we tijdens IBC 2024 zelf mee mogen kennismaken. We bespreken met Jamy Lyu, President Huawei Cloud Media Services daarnaast hoe bedrijven deze technologieën kunnen inzetten.
Voor het maken van een video zijn geen dagen meer nodig, maar nog slechts enkele minuten. De mogelijkheid wordt gegeven door AI. Die technologie laat alleen het schrijven van een script nog over aan de videomaker.
Met dit script gaat AI aan de slag om een video in elkaar te zetten. Opnames zijn niet nodig, want de persoon in de video is AI-gegenereerd. Dat hoeft niet per definitie een denkbeeldig persoon te zijn in de oplossing van Huawei. Zo wordt bijvoorbeeld getoond hoe een persoon die digitaal gegenereerd is het nieuws voorleest. Voor het journaal zijn er van iedere zender enkele vaste gezichten die het nieuws inspreken, de nieuwsankers. Deze taak kan worden overgenomen door AI, waarin het beeld van de nieuwslezer wordt gevormd op basis van vorige uitzendingen. Voor de kijker thuis is het onmerkbaar en blijft alles vertrouwd met de vaste tv-gezichten.
Lipsynchronisatie belangrijkste aspect
Achter de vlekkeloze uitzending gepresenteerd door een AI-gegeneerd persoon, zit nog een element verborgen dat belangrijk is om de video authentiek te doen lijken. Het gaat over het synchroon lopen van het geluid en de mondbewegingen. In een nieuwsuitzending waarin een persoon voor het grootste deel van de tijd recht in de camera zit te praten, is dat uiterst belangrijk. Huawei deelt graag de uitstekende cijfers mee: “We bereiken een accuraatheid van 98 procent.”
De technologie kan ook worden ingezet voor het vertalen van een video. In verschillende talen is het bijvoorbeeld gebruikelijk dat alle series en films die op tv verschijnen overgesproken worden in de landstaal. Met AI is die opdracht zo gebeurd en zal het eindresultaat beter zijn door lipsynchronisatie. De accuraatheid zakt bij vertalingen terug naar 90 procent, maar wie ooit een Amerikaanse film heeft gekeken die in het Duits werd overgesproken, weet dat dit er met dit resultaat niet te klagen valt.
Voorafgaand aan IBC 2024 zitten we samen met Jamy Lyu, President Huawei Cloud Media Services. Zo zien we niet alleen wat het uiteindelijke product levert, maar horen we ook hoe de technologie werkt. Hij vertelt dat de live vertaling werkt op basis van een driestappenplan. In de eerste stap wordt de stem van de spreker gekloond. Daar kan de technologie vervolgens mee aan de slag om de emotie, toon en snelheid van de spreker vast te krijgen. Door deze spraakkenmerken mee te nemen, klinkt de vertaling zo natuurlijk mogelijk. De lipsynchronisatie gebeurt in de laatste stap om de bewegingen van de lippen goed te krijgen met de uitspraak van de woorden in de nieuwe taal.
Jamy Lyu, President Huawei Cloud Media Services. Bron: Huawei
Gepersonaliseerde ervaringen en live vertalingen
Door de snelheid waarmee vertalingen en video’s worden gegeneerd met AI, zijn er meer interessante mogelijkheden. Zo kunnen vertalingen het tempo van een live uitzending bijvoorbeeld goed bijhouden. Volgens Lyu heeft de vertaling een kleine vertraging, van ongeveer zes seconden.
Huawei zou dat bijvoorbeeld inzetten om de live uitzending van het Eurovisiesongfestival real-time te vertalen naar de taal van de kijker. Lyu geeft aan dat er nog meer potentieel zit in deze technologie. “We kunnen het ook toepassen op vergadersystemen. Als ik Chinees spreek, dan zou jij kunnen horen wat ik vertel in het Nederlands met maar een kleine vertraging.”
Samen met de mogelijkheden voor real-time videogeneratie ziet hij kansen voor gepersonaliseerde ervaringen. Bedrijven zouden AI kunnen inzetten om interactieve ervaringen te maken waarbij de video voor iedere klant uniek is. “In de toekomst zullen we niet alleen naar video’s kijken, maar er daadwerkelijk in spelen.” Voor klantenbinding zijn dergelijke gepersonaliseerde ervaringen erg belangrijk. Dat marketeers daarvoor kunnen terugvallen op AI blijkt hier nog maar eens.
Lees ook: CMO’s omarmen GenAI ondanks kennisgebrek
Ter inspiratie in de Benelux
In de demonstraties die we te zien krijgen, wordt er steeds Engels of Chinees gesproken. Mogelijkheden voor vertalingen naar het Nederlands blijken er nog niet te zijn. Het is daarnaast geen prioriteit bij Huawei om daar verandering in te brengen. De beschikbaarheid in onze taal is een langetermijnplan.
Huawei geeft aan dat de moeilijkheid voor het verkrijgen van een goede Nederlandse dataset om de AI te trainen daar de reden voor is. Het open-source-model dat het bedrijf zelf gebruikt om met de computer ontwikkelde stemmen te genereren is getraind op Chinees, Arabisch en Engels. Om de AI-modellen te verbeteren zal het bedrijf in de komende jaren meer lokale partnerships aangaan. Een exacte tijdlijn is er overigens niet.
Voor bedrijven in de Benelux zijn de videomogelijkheden van Huawei dus nog zeer beperkt. Voor bedrijven die zo nu en dan eens een video nodig hebben, zijn er wel mogelijkheden bij andere aanbieders van AI-tools. Zo lanceerden HubSpot en Zoom ook in de laatste weken mogelijkheden om een geschreven script met AI om te zetten in een volledig afgewerkte video. Met deze oplossingen kunnen bedrijven aan de slag om een video te creëren die intern wordt gedeeld of om een podcast met video uit te kunnen geven.
Voor een bedrijf met dergelijke kleine videobehoeften zijn de oplossingen van Huawei te geavanceerd en te duur. Het bedrijf focust zijn oplossing op tv-kanalen en lokale streamingsdiensten, die dagelijks bezig zijn met video. De technologie geeft bedrijven wel verschillende opportuniteiten, wat de technologie van Huawei voornamelijk interessant maakt om eens te kijken wat de toekomst te bieden heeft.
Tip! Zoom AI Companion wordt een digitale assistent die je werk(dag) kent