Nu blir kategoriseringen enklare och snabbare med hjälp av AI

En helt ny metod, där AI och IPTC-kategorisering samspelar. Det gör att Retrievers kunder kan få mer djuplodande analyser och bättre insikter än tidigare. Medieanalytiker Ioanna Lokebratt berättar om metoden.

Vad är IPTC-kategorisering?

– Det är en internationell standard för metadata och taggar som används för att kategorisera nyhetsmaterial. Den började användas under tidigt 90-tal för att underlätta utbytet av nyhetsartiklar mellan nyhetsbyråer och mediehus. IPTC beskriver vad texten handlar om, till exempel sport, politik, miljö eller hälsa. Det finns totalt 1100 IPTC-kategorier. Retriever strävar efter att bygga modeller för de flesta av dem.

Ioanna Lokebratt, medieanalytiker

Hur samverkar IPTC och AI i Retrievers analyser?

– Vi har tränat upp vårt AI-system att kunna hantera den här kategoriseringen för att kunna avgöra vilken IPTC-kategorisering en viss artikel ska hamna i. Vi låter systemet kategorisera allt material istället för att utgå från specifika söktermer. När allt material är kategoriserat analyserar vi den totala mängden. Tidigare var vi begränsade till att jobba med tydliga frågeställningar och manuell kategorisering. Fördelen nu är att vi får större flexibilitet och inte är lika avgränsade till en viss mängd data. Vi skapar dessutom möjligheter till helt nya infallsvinklar i analyserna.

Hur kan systemet lära sig att kategorisera rätt?

– Systemet skickar förslag på kategorisering och vi som är AI-tränare bekräftar eller dementerar att det blivit rätt. När modellen är färdigtränad klarar systemet att urskilja vilken kategori en specifik artikel skall placeras i. Om det redan finns en färdigtränad modell som passar kan vi använda den, annars får vi börja om från start och träna upp systemet manuellt.

Vad har kunderna för nytta av detta?

– Nu kan vi behandla, dra slutsatser och få insikter utifrån betydligt större datamängder än tidigare. Det gör att vi kan få en större helhetsbild och till exempel titta på ämnen som rör en hel bransch, inte bara ett visst företag. Det skapar ett ökat värde för både våra analys- och bevakningskunder.

Vilka kunder passar detta för?

– Det finns många olika kundnyttor. Dels har våra analys- och bevakningskunder stor nytta av detta, men även mediehus kan få hjälp med att kartlägga vilka ämnen kollegor i branschen skriver om och hur mycket. Det är uppgifter som de oftast inte har tillgång till annars.

Retriever har gjort en omfattande analys för TT Nyhetsbyrån. Berätta!

– Vi analyserade vilka som är årets mest omskrivna idrottsprofiler, genom att utgå från specifika personer och se hur mycket som skrivs om dem, men också hur mycket som skrivs om en viss idrott i svensk media. Med hjälp av IPTC och AI har vi kunnat gå igenom hela 18 miljoner artiklar och sett att fotboll är den mest omskrivna idrotten. Vi ser också att till exempel friidrott, ridsport och tennis omskrivs mycket mindre i förhållande till hur många som utövar dem i Sverige, enligt siffror från Riksidrottsförbundet. Vi kan också se att män omskrivs mycket oftare än kvinnor i idrottsartiklar.

Ni har presenterat resultatet för sportchefer på de största svenska mediehusen. Vad tyckte de?

– Vi gör en liknande analys för TT varje år och bjuder in sportchefer för att ta del av resultaten. Med årets nya analys blev det en hel del diskussioner kring resultatet. Varför ser det ut som det gör? Vad kan man dra för slutsatser av det? Sportcheferna tyckte det var intressant att få möjlighet till helt nya infallsvinklar i analysen.