Automatisk transskription benytter sig af kunstig intelligens.

Skal du lade kunstig intelligens transskribere dine lydfiler?

Nye tjenester omdanner automatisk dine danske interviewoptagelser til skrift. Inden du kaster dig i favnen på den kunstige intelligens, får du her indblik i fordele og ulemper ved teknologien. 

Hader du at transskribere kvalitative interviews, eller har du bare ikke tid?

Så er der måske godt nyt til dig:

Der er kommet software, som kan omdanne længere lydoptagelser af dansk tale til tekst. Langt om længe, vil nogen nok mene. 

I årevis har den slags tjenester kun eksisteret til engelsk og andre verdenssprog. Nu har kunstig intelligens gjort det langt billigere at udvikle softwaren, så selv små sprog som dansk bliver rentable markeder for firmaerne bag.

Transcribe by Wreally og Happyscribe er blandt de første til at tilbyde tjenesten på dansk. 

Sådan fungerer auto-transskription

Tjenester til auto-transskription benytter sig af kunstig intelligens til talegenkendelse i omsættelsen af tale til skrift. 

Helt konkret fungerer det sådan, at du opretter en profil hos en udbyder, uploader din lydfil og venter et par minutter. Så får du – i hvert fald som førstegangsbruger – gratis adgang til en lille del af din transskriberede fil. Alt efter hvilken udbyder du bruger, kan det være de første 1-10 minutter. Resten af transskriptionen skal du betale for. 

Hvis du køber en fuld transskription, kan du forvente at omdannelse fra lyd til tale tager op til halvdelen af den tid, din lydfil varer. Er din lydfil 40 minutter lang, skal du altså ca. vente 20 minutter på din transskription.

Transskriptionerne kan med nogen nøjagtighed identificere de talende på lydfilen. På den måde kan du se, hvor du taler, og hvor din interviewperson taler.

Alle udsagn har time-stamps, der indikerer, hvor i optagelsen, udsagnet finder sted. Det betyder, at du vil let vil kunne finde frem til et specifikt udsagn i din lydfil.

Unge tjenester begår mange fejl

Men før du bryder ud i jubel over udsigten til at slippe for timevis af ensformigt og koncentrationskrævende arbejde foran skærmen, skal du vide, at tjenesterne stadig er unge, og talegenkendelsen er langt fra perfekt. 

Det giver transskriptioner med masser af fejl – i værste tilfælde direkte volapyk. Se bare et uddrag fra en automatisk transskription, jeg fik foretaget for at teste en tjeneste for få dage siden:

Eksempel på automatisk transskription.

Transskriptionen stammer fra et interview om gummigeder. Her er Cat-maskiner blevet til “kaffemaskiner”, 930 er blevet til “Nibble”, mens Cat’erne er blevet til “katteøjne”.

Både interviewer og interviewperson talte med moderat århusiansk accent. Det kan have været et problem for softwaren. Jeg tør slet ikke tænke på, hvordan en transskription af et interview med en ægte vestjyde ville se ud.

Du skal selv rette fejlene

Når du benytter dig af automatisk transskription kan du ikke bare læne dig tilbage og slappe af, mens algoritmerne laver arbejdet for dig. 

Du skal gennemgå de automatisk genererede transskriptioner manuelt. Minut for minut skal du sammenholde lydfilen med transskriptionen og finde og rette uoverensstemmelser.

Det kan – alt efter antallet af fejl – tage timevis. Måske ikke lige så længe, som du ville have brugt på at transskribere alt manuelt. Men ud over, hvad du har betalt for transskription, skal du være villig til at investere et godt stykke tid, før du får et brugbart resultat. 

Softwaren tager vigtige beslutninger for dig

En sidste ting, jeg vil fremhæve om tjenesterne til auto-transskription, er, at de fratager dig en række valg om, hvad og hvordan der skal transskriberes. 

Som du kunne se i eksemplet længere oppe, udskriver software til auto-transskription optagede samtaler ord for ord. Men en samtale består ikke kun af ord. Det talte sprog har mange facetter: tempo, styrke, toneleje, betoninger, accent, pauser osv. 

Når du selv transskriberer, kan du selv vælge, hvilke facetter ved det talte sprog du medtager, og hvilke du udelader. 

Du kan fx vælge at medtage latterudbrud, fnis, fnys, tøven, suk osv., fordi disse aspekter fortæller dig om interviewpersonens følelsesmæssige reaktioner undervejs i interviewet.

En automatisk transskription medtager ikke latter og andre følelsesudbrud.

Hvis du derimod bruger automatisk transskription, mister du den valgmulig. Valget er allerede truffet for dig og kodet ind i tjenesten. 

Inden du kaster dig ud i at bruge transskriptionstjenesterne, skal du derfor overveje, hvilke informationer du ønsker, at dine transskriptioner skal indeholde. Hvilke informationer har du brug for for at kunne forstå og fortolke interviewene? 

Bagefter skal du undersøge, om en automatisk transskription kan skaffe dig de informationer. Hvis ikke, må du transskribere manuelt.

Tjenesterne udvikler sig stadig

Jeg håber, indlægget her kan hjælpe dig med at afgøre, om du skal benytte dig af automatisk transskribering – eller om du selv skal til tasterne. 

Aktuelt ser jeg flest fordele ved det sidste. Men efterhånden som tjenesterne til automatisk transskription udvikler sig, kan balancen måske tippe. 

Hvordan er dine erfaringer med auto-transskription – eller andre tjenester, der benytter sig af kunstig intelligens? Skriv en kommentar eller send mig en mail, hvis du har noget at tilføje. Måske kender du til tjenester, der fungerer bedre end dem, jeg er stødt på?


About Charlotte Albrechtsen

Ph.d. og ejer af Tovejs.dk. Har arbejdet med brugerindsigt siden 2002.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *