Automatisk transskription benytter sig af kunstig intelligens.

Skal du lade kunstig intelligens transskribere dine lydfiler?

AI-drevet software omdanner automatisk dine danske interviewoptagelser til skrift. Inden du kaster dig i favnen på den kunstige intelligens, får du her indblik i fordele og ulemper ved teknologien. 

Opdateret den 20. oktober 2023

Hader du at transskribere kvalitative interviews, eller har du bare ikke tid?

Så er der måske godt nyt til dig:

Der findes software, som kan omdanne længere lydoptagelser af dansk tale til tekst. 

I årevis har den slags programmer kun eksisteret til engelsk og andre verdenssprog. Men kunstig intelligens eller AI gør det langt billigere at udvikle softwaren, så selv små sprog som dansk bliver rentable markeder for firmaerne bag.

De internationale Transcribe by Wreally og Happyscribe var blandt de første til at tilbyde automatisk transskription på dansk. Senest er danskudviklede Good Tape kommet til.

Sådan fungerer auto-transskription

Programmer til auto-transskription benytter sig af AI til talegenkendelse i omsættelsen af tale til skrift. 

Helt konkret fungerer det sådan, at du opretter en profil hos en udbyder, uploader din lydfil og venter et par minutter. Så får du – i hvert fald som førstegangsbruger – gratis adgang til en din transskriberede fil. Hos nogle udbydere er det kun de første minutter af filen, som er gratis. Resten af transskriptionen skal du betale for. 

Som gratisbruger kan du forvente, at omdannelse fra lyd til tale tager op til halvdelen af den tid, din lydfil varer. Er din lydfil 40 minutter lang, skal du altså ca. vente 20 minutter på din transskription.

Nogle programmer identificerer med en vis nøjagtighed de talende på lydfilen. På den måde kan du se, hvor du taler, og hvor din interviewperson taler. Andre gør ikke.

Alle udsagn har time-stamps, der indikerer, hvor i optagelsen, udsagnet finder sted. Det betyder, at du vil let vil kunne finde frem til et specifikt udsagn i din lydfil.

Langt fra perfekt resultat

Men før du bryder ud i jubel over udsigten til at slippe for timevis af ensformigt og koncentrationskrævende arbejde foran skærmen, skal du vide, at programmerne stadig er unge, og talegenkendelsen langt fra er perfekt. 

Det giver transskriptioner med masser af fejl – i værste tilfælde direkte volapyk. Se bare et uddrag fra en automatisk transskription, jeg fik foretaget af Wreally for nylig:

Wreally er en af de services, der tilbyder automatisk transskription.

I transskriptionen er et firmanavn fejlagtigt blevet til “Aars”, “koncernen” blevet til “koncerter”, mange småord er forkerte, og den sidste sætning er transskriberet to gange. Timestamps fungerer heller ikke optimalt i dette uddrag, for de skulle markere, når taleren skifter.

Noget bedre går det hos Good Tape, der her transskriberer samme lydstump:

Good Tape er en af de services, der tilbyder automatisk transskription.

Det betyder ikke, at Good Tapes transskriptioner er fejlfri, som postdoc Sabrina Vitting-Seerup gør opmærksom på i et tweet:

Du skal selv rette fejlene

Når du benytter dig af automatisk transskription, kan du ikke bare læne dig tilbage og slappe af, mens algoritmerne laver arbejdet for dig. 

Du skal gennemgå de automatisk genererede transskriptioner manuelt. Minut for minut skal du sammenholde lydfilen med transskriptionen og finde og rette uoverensstemmelser.

Det kan – alt efter antallet af fejl – tage timevis. Måske ikke lige så længe, som du ville have brugt på at transskribere alt manuelt. Men ud over, hvad du har betalt for transskription, skal du være villig til selv at investere tid i arbejdet, før du får et brugbart resultat. 

Softwaren tager vigtige beslutninger for dig

En sidste ting, jeg vil fremhæve om programmerne til auto-transskription, er, at de fratager dig en række valg om, hvad og hvordan der skal transskriberes. 

Som du kunne se i eksemplet længere oppe, udskriver software til auto-transskription optagede samtaler ord for ord. Men en samtale består ikke kun af ord. Det talte sprog har mange facetter: tempo, styrke, toneleje, betoninger, accent, pauser osv. 

Når du selv transskriberer, kan du selv vælge, hvilke facetter ved det talte sprog du medtager, og hvilke du udelader. 

Du kan fx vælge at medtage latterudbrud, fnis, fnys, tøven, suk osv., fordi disse aspekter fortæller dig om interviewpersonens følelsesmæssige reaktioner undervejs i interviewet.

En automatisk transskription medtager ikke latter og andre følelsesudbrud.

Hvis du derimod bruger automatisk transskription, mister du den valgmulig. Valget er allerede truffet for dig og kodet ind i programmet. 

Inden du kaster dig ud i at bruge transskriptionsprogrammerne, skal du derfor overveje, hvilke informationer du ønsker, at dine transskriptioner skal indeholde. Hvilke informationer har du brug for for at kunne forstå og fortolke interviewene? 

Bagefter skal du undersøge, om en automatisk transskription kan skaffe dig de informationer. Hvis ikke, må du transskribere manuelt.

Dine erfaringer?

Jeg håber, indlægget her kan hjælpe dig med at afgøre, om du skal benytte dig af automatisk transskribering – eller om du selv skal til tasterne. 

Hvordan er dine erfaringer med auto-transskription – eller andre services, der benytter sig af AI? Skriv en kommentar eller send mig en besked.

Læs også

About Charlotte Albrechtsen

Ph.d. og ejer af Tovejs.dk. Har arbejdet med brugerindsigt siden 2002.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *