Analyse af kvalitative data med generativ AI: to strategier

Du har brug for en strategi, ikke et cheat sheet, før du kaster dig ud i en kompleks analyse af kvalitative data med generativ AI. Ellers risikerer du at prompte i blinde. Her kan du læse om to analysestrategier.

Generativ AI (GAI), der benytter sig af store sprogmodeller, har nogle egenskaber, der gør dem oplagte at bruge i forbindelse med analyse af kvalitative, empiriske data. GAI-chatbots er eminente til at:

  • identificere centrale ord
  • sammenfatte indhold
  • kategorisere indhold.

Hvis du har erfaring med kvalitativ analyse, ved du, at det er netop nogle af de handlinger, man typisk udfører som led i analyseprocessen.

Betyder det, at GAI-chatbots som ChatGPT, Perplexity, Bard eller andre kan overtage det tidskrævende arbejde med at analysere?

Det korte svar er: Nej, kun delvist. Du skal selv styre og deltage i analyseprocessen. Det lange svar får du senere i indlægget.

Du får altså ikke en instant analyse. Men du får en gratis (eller billig) analysepartner eller analyseassistent, som kan løfte en del af analysearbejdet for dig.

Strategi frem for cheat sheet

Det kan være, du nu tænker: “OK, så stik mig et prompt cheat sheet, så jeg kan komme i gang.”

Så må jeg desværre skuffe dig. Jeg kan ikke tilbyde nogen hurtig genvej. 

Når det gælder noget så komplekst som analysearbejde, er du nødt til at skræddersy dine prompts til dit analysemateriale og tænke dem ind i en overordnet analysestrategi. 

Så undgår du til gengæld at prompte i blinde, og du sikrer dig, at du bruger GAI på en måde, der giver mening i forhold til det, du gerne vil opnå. 

Ved at have en strategi for din analyse af kvalitative data med AI undgår du at prompte i blinde.

Selv om brugen af GAI til kvalitativ analyse er et område, der er i sin vorden, begynder der at tegne sig konturerne at nogle analytiske tilgange.

Dem præsenterer jeg dig for to af i de næste afsnit.

Undervejs i min præsentation af strategierne skitserer jeg nogle prompts, som kan være relevante i forbindelse med de enkelte strategier. De endelige prompts vil jeg lade det være op til dig selv at udforme.

Analysestrategi nr. 1: Udforsk data gennem dialog med GAI

Den første strategi går ud på at trække relevante informationer ud af datamaterialet som led i analyseprocessen. Det er en strategi, du kan bruge, når du vil udfolde kompleksiteten i dit datamateriale.

En repræsentant for strategien er Susanne Friese, der er ekspert i kvalitativ analyse. Hun beskriver fremgangsmåden i blogindlægget Looking into the Mirror: Reflection on AI and Human Bias in Research. Det foregår sådan, at researcheren:

  1. forsyner chatbotten med baggrundsviden om undersøgelsen 
  2. uploader datamateriale til chatbotten
  3. stiller specifikke, målrettede spørgsmål til chatbotten om datamaterialet
  4. kritisk evaluerer og fortolker chatbottens respons og reflekterer over evt. biases.

Et eksempel på specifikke, målrettede spørgsmål (eller prompts) under punkt 3 kunne være: “Se på dokument 1-5. Er der overlap mellem dem? Hvad bliver nævnt i flere dokumenter, og hvad bliver kun nævnt i et enkelt dokument?”

Tidlig fase

David L. Morgan fra Portland State University advokerer for en lignende fremgangsmåde i artiklen Exploring the Use of Artificial Intelligence for Qualitative Data Analysis: The Case of ChatGPT.

Han bruger ChatGPT i en tidlig fase af analysen til fx at lave tekstnære resuméer af interviewpersoners brug af bestemte begreber og til at sammenholde forskellige faktorer. Det kunne være med en prompt i denne stil: “Hvad siger interviewpersoner, som er karakteriseret ved X, om Y?”

Chatbottens output indgår i en efterfølgende analyse sammen med researcherens egen afdækning af den implicitte betydning, som er til stede i datamaterialet. Den analyse foretager researcheren uden brug af chatbotten.

Analysestrategi nr. 2: Lad GAI identificere eksisterende kategorier

Den anden strategi går ud på at sortere datamaterialet i nogle fastlagte kategorier. Det er en strategi, der er velegnet, hvis du har brug for at reducere kompleksiteten i et materiale.

Eksponenter for strategien er Tom Hoy og to medforfattere fra research- og innovationsbureauet Stripe Partners. 

Hoy og hans medforfattere ønskede at kategorisere 40.000 brugerkommentarer på en videoplatform, fortæller de i artiklen Grounded models: The future of sensemaking in a world of generative AI. Kategoriseringen skulle danne grundlag for at anbefale specifikke videoer til nye brugere.

I første omgang bad de GAI foretage kategoriseringen. Men de kategorier, som chatbotten fandt frem til, var for generelle og knyttede ikke an til mere grundlæggende vidensbehov.

Derfor interviewede Hoy og hans medforfattere i stedet en række brugere af videoplatformen. Gennem en gammeldags “manuel” analyse af disse interviews, hvor både interviewenes eksplicitte og implicitte plan blev inddraget, fandt forfatterne frem til en række forskellige behovsbaserede kriterier, de kunne kategorisere videoerne ud fra.

Bagefter bad de GAI anvende kriterierne på brugerkommentarerne. 

En strategi, du kan bruge til analyse med AI, er at sortere datamaterialet i nogle fastlagte kategorier.

Større eller mindre skala

Det skal nævnes, at Hoy og hans medforfattere samarbejdede med programmører om at bygge et GAI-miljø, der kunne behandle de mange videoer. De kunne ikke uploade 40.000 kommentarer til fx ChatGPT, og det vil du heller ikke kunne. 

Men fremgangsmåden kan også anvendes i mindre skala. Eneste krav er, at du har dataenheder, som lader sig sammenligne.

Promptteknikken few shot prompting kan gøre kategoriseringen mere præcis. Den går ud på at inkludere nogle eksempler på, hvordan et empirisk materiale skal kategoriseres. Du kan læse mere om teknikken på Prompt Engineering Guide.  

Begræns samtalen til datamaterialet og undgå hallucinationer

Uanset strategi er det vigtigt, at du som researcher sørger for at begrænse chatbotten til det foreliggende datamateriale. Det understreger både Susanne Friese, David L. Morgan og Tom Hoy. 

Det gør du ved at bede om ordrette citater og eksempler fra datamaterialet. På den måde undgår du hallucinationer og bias fra chatbottens træningsdata. 

Som David L. Morgan skriver: 

“The kinds of queries I used with ChatGPT were intended to discover what was in the data, rather than to ask for speculations about the deeper patterns in the data, let alone what the sources were for such patterns.” 

Den bias, som måtte optræde i den respons du får, stammer fra dit eget datasæt. For ja, dine data er biased. Det er et grundvilkår, når du arbejder kvalitativt. Men så længe du kan begrænse bias til dine egne data, kan du udpege og forholde dig til dem.

Derfor bør GAI ikke arbejde på egen hånd

I starten af indlægget lovede jeg dig det lange svar på, hvorfor du ikke kan lade GAI-chatbots om at klare analysen alene. Det kommer her:

GAI chatbots kan have nogle begrænsninger i forhold til at få øje på betydning, som er implicit til stede i dit datamateriale.

Det vil sige den betydning, der så at sige ligger mellem linjerne. Det underforståede og det usagte. Det, der blot antydes. Det, din interviewperson ikke har ord til at sige. Bagvedliggende logikker og ræsonnementer. Tavs viden og kulturelle referencer.

Begrænsningerne omfatter også sproglige spidsfindigheder som ordspil, metaforer, ironi og underdrivelser. 

Du skal være den indfødte

Man kan sammenligne en GAI-chatbot med udlændingen, der opfatter alle de enkelte ord i en vittighed, men ikke nødvendigvis forstår vitsen.

Hvis du lader chatbotten foretage analysen for dig, afskærer du dig sandsynligvis fra en del af det implicitte betydningslag. Et lag, som netop er vigtigt, når du arbejder kvalitativt og typisk gerne vil identificere nuancer, få øje på underliggende strukturer og forstå baggrunden for adfærd og fænomener.

Du må derfor agere den indfødte, der fanger de kulturelle og sproglige nuancer og forstår vitsen. 

Øvelse gør mester

Her i indlægget har du kunnet læse om to strategier til analyse af kvalitative data med generativ AI:

  1. Udforskning af data gennem dialog med GAI med henblik på at udfolde kompleksiteten i dit datamateriale.
  2. Anvendelse af GAI til identificering af fastlagte kategorier for at reducere kompleksiteten i datamaterialet.

Som med så meget andet gælder det også for brugen af GAI til kvalitativ analyse, at øvelse gør mester.

Hvis du og dine kolleger eller dit netværk har brug for et trygt og faciliteret rum, hvor I kan øve jer i kvalitativ analyse med GAI, så kontakt mig gerne.

Læs også

About Charlotte Albrechtsen

Ph.d. og ejer af Tovejs.dk. Har arbejdet med brugerindsigt siden 2002.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *