AI til talegenkendelse omdanner automatisk dine interviewoptagelser til skrift. Her kan du læse om fem forskellige tjenester til formålet. Du får også indblik i fordele og ulemper ved teknologien.
Hvis du nogensinde har prøvet at transskribere en lydfil manuelt, ved du, at det er et møjsommeligt arbejde at omdanne ord efter ord fra tale til tekst.
Men de tider er – måske – forbi.
Kunstig intelligens, som benytter sig af store sprogmodeller, kan klare transskriptionen for dig på kort tid. I visse tilfælde helt gratis.
Og med gængse tekstbehandlingsprogrammer har du sandsynligvis allerede flere transskriptionsservices lige ved hånden.
Det kan næsten ikke blive nemmere.
Men inden du kaster dig i favnen på den kunstige intelligens, skal du vide, at resultatet ikke bliver så præcist som ved en manuel transskription. Samt at du afgiver kontrollen over transskriptionens deltaljeringsniveau til den kunstige intelligens.
Det uddyber jeg senere. Først får du en gennemgang af forskellige muligheder for AI-transskription samt deres specifikke fordele og ulemper.
Tjenester, som du har lige ved hånden
Kunstig intelligens, som kan omsætte tale til tekst, er i de seneste år blevet indbygget i flere gængse tekstbehandlings- og produktivitetsprogrammer.
Microsoft OneNote har en funktion, der hedder Dikter (Dictate, hvis du har en engelsksproget version), og Google Docs har funktionen Indtaling (Voice Typing).
Se Nottas guide til Voice Typing og Microsofts guide til OneNote Dictate.
Begge funktioner omsætter din lydfil til tale i takt med, at du afspiller den. Det vil sige, at lyden først skal ind igennem din computers mikrofon. Skal transskriptionen blive vellykket, kræver det en lydfil af ekstra god kvalitet.
Du kan også slå funktionen til under et interview og få det transskriberet direkte. Men lav lige en test først, og tjek hastigheden af din internetforbindelse.
OneNote Dikter og Google Docs Indtaling transskriberer ord for ord, men tilføjer ingen ekstra informationer om talere og tidspunkter (de såkaldte timestamps).
Fordele ved de tjenester, du har lige ved hånden
- Du har funktionen lige ved hånden og behøver ikke installere nye programmer, oprette dig som bruger eller andet.
Ulemper ved tjenesterne
- Det er ikke muligt uploade lydfiler til transskription. Du skal afspille lydfilerne, mens du har aktiveret transskriptionsfunktionen. Det vil sige, at transskriptionen tager (mindst) lige så længe, som lydfilen varer.
- Kræver lydfiler af ekstra god kvalitet. Få tips til gode lydoptagelser hos Textservice.
- Kræver en stabil internetforbindelse, hvis du transskriberer et interview live med funktionen.
- Markerer ikke automatisk, hvem der taler. Den information skal du selv tilføje, hvis du har brug for den.
- Laver ikke tidsangivelser. Den information skal du selv tilføje, hvis du har brug for den.
Tjenester, som det kræver lidt mere at få adgang til
Er du parat til at investere tid eller penge i det, kan du få transskriptionsløsninger, som overkommer de ulemper, der er nævnt ovenfor.
Med betalingsversionen af Microsoft 365-pakken får du en transskriptionsfunktion, som er indlejret i Word. Det gør det nemt at arbejde videre med transskriptionerne i Word.
OpenAI’s Whisper er gratis at bruge, men ikke så ligetil at installere, hvis ikke du er it-udvikler.
Derimod kræver det ingen særlige kompetencer at få adgang til danskudviklede Good Tape fra Zetland. Men du skal have penge op af lommen, hvis du vil transskribere mere end 3 x 30 minutters lydfil pr. måned. Tjenesten bygger i øvrigt på Whisper, og så lever den op til GDPR-lovgivningen.
Fordele ved de tjenester, det kræver lidt mere at få adgang til
- Transskriberer uploadede lydfiler uden behov for samtidig afspilning af filen.
- Identificerer og markerer de talende på lydfilen. På den måde kan du se, hvornår du taler, og hvornår din interviewperson taler. Hvis du har flere interviewpersoner, kan den også skelne mellem dem, hvilket er en kæmpe fordel ved fokusgrupper.
- Alle udsagn har timestamps, der indikerer, hvor i optagelsen, udsagnet finder sted. Det betyder, at du vil let vil kunne finde frem til et specifikt udsagn i din lydfil.
- Bidrager til tegnsætning i den transskriberede tekst.
Ulemper ved tjenesterne
- Koster penge eller kræver særlige kompetencer at få adgang til.
Giver ikke fejlfri resultater
Før du bryder ud i jubel over udsigten til at slippe for timevis af ensformigt og koncentrationskrævende arbejde foran skærmen, skal du vide, at AI-transskription ikke giver et perfekt resultat.
Tjenesterne er blevet markant bedre til dansk, end de var for bare få år siden. Men der er grænser.
Forskere fra OpenAI skriver, at Whisper fungerer næsten lige så godt som en menneskelig aktør ved transskription af engelsk tale, men er knap så præcis, når det gælder mindre sprog.
Derfor er heller ikke Good Tapes transskriptioner (som bygger på Whisper) fejlfri. Det giver postdoc Sabrina Vitting-Seerup et eksempel på i et tweet.
Du skal selv rette fejlene
Så når du benytter dig af AI-transskription, kan du ikke bare læne dig tilbage og slappe af, mens algoritmerne laver arbejdet for dig.
Du skal være “the human in the loop” og gennemgå de automatisk genererede transskriptioner manuelt. Minut for minut skal du sammenholde lydfilen med transskriptionen og finde og rette uoverensstemmelser.
Det kan – alt efter antallet af fejl – tage timevis. Måske ikke lige så længe, som du ville have brugt på at transskribere alt manuelt. Men ud over, hvad du evt. har betalt for transskription, skal du være villig til selv at investere tid i arbejdet, før du får et brugbart resultat.
Det talte sprog er mere end ord
En anden ting, der er værd at fremhæve om tjenesterne til AI-transskription, er, at de fratager dig en række valg om, hvad og hvordan der skal transskriberes.
Tjenesterne omdanner talte ord til skrevne ord. Men det talte sprog består ikke kun af ord. Det har mange andre facetter: tempo, styrke, toneleje, betoninger, accent, pauser, ikke-verbale indslag osv. Alle disse facetter indeholder betydning, fx om den talendes stemningsleje, som den lyttende afkoder.
Når du selv transskriberer, kan du selv vælge, hvilke facetter ved det talte sprog, du medtager, og hvilke du udelader.
Du kan fx vælge at medtage latterudbrud, fnis, fnys, tøven, suk osv., fordi disse aspekter fortæller dig om interviewpersonens følelsesmæssige reaktioner undervejs i interviewet.
Softwaren tager vigtige beslutninger for dig
Hvis du lader en AI-tjeneste foretage transskriptionen, mister du denne valgmulig. Valget er allerede truffet for dig og kodet ind i programmet.
Inden du kaster dig ud i at bruge AI-transskription, skal du derfor overveje, hvilke informationer du ønsker, at dine transskriptioner skal indeholde. Hvilke informationer er nødvendige for at kunne forstå og fortolke interviewene?
Bagefter skal du undersøge, om en automatisk genereret transskription kan skaffe dig de informationer. Hvis ikke, må du transskribere manuelt – eller finde nogen, som kan gøre det for dig.
Du lærer mest, når du selv transskriberer
En manuel transskription foretaget af dig selv har den fordel, at du lærer dine data rigtig godt at kende.
Hvis du transskriberer en fil, hvor du selv er interviewer, får du også god indsigt i, hvad der i interviewteknisk henseende fungerer godt og mindre godt undervejs i interviewet:
Hvordan fungerer dine spørgsmål? Hvordan fungerer dine reaktioner på interviewpersonens svar? Er der steder, du med fordel kunne have stillet opfølgende spørgsmål?
Det gør dig på sigt til en bedre interviewer.
Valget er dit
I sidste ende er det selvfølgelig din egen beslutning, om du selv vil foretage transskriptionen eller overlade arbejdet til en anden, og om den anden i givet fald skal være et menneske eller en kunstig intelligens.
Jeg håber, at indlægget har givet dig input til at tage den beslutning.
Skriv endelig til mig, hvis der er noget, jeg overser.
P.S. Her i indlægget har jeg omtalt fem AI-tjenester, men der findes mange, mange flere. PCMag har fx en liste over, hvad de anser for at være de bedste transskriptionstjenester i 2024. Vær opmærksom på, at de næppe har testet tjenesternes evne til at gengive dansk tale.
Indlægget er en opdateret version af et tidligere indlæg fra 2021.