Sammandrag

I det här avsnittet beskriver vi mera i detalj den process vi har använt för att skapa kartan.
När analysen gjordes hade vi samlat in cirka 46 000 artiklar. Det här gjorde vi mellan 18.7 och 14.8. Vi lyssnar fortfarande av artiklar och i skrivande stund har vi samlat in närmare 150 000 artiklar. När visualiseringen nedan gjordes hade vi samlat in ungefär 100 000 artiklar från de 29 analyserade varumärkena.

I den här analysen byggde vi ämneskartan med 46 000 artiklar som samlats in under lite mindre än en månads tid. För att underlätta analysen tog vi med de 17 500 senaste artiklarna från helheten till själva den heuristiska analysen. Våra grafiska verktyg fungerade bra för en mängd på knappa 20 000 artiklar.
Närmare bestämt handlar det aktuella urvalet om artiklar som publicerades mellan 6.8 och 14.8. Det handlar med andra ord om

drygt en vecka i medlet av augusti. I själva genomgången som gjordes manuellt valde vi alltså att analysera artiklar från en kortare period. Vi behövde på grund av det massiva materialet fokusera på en “snapshot” för att kunna överblicka klustren bättre.
Men det är viktigt att påpeka att alla de 46 000 artiklarna har påverkat hur kartan ser ut. Modellen för kartan baserar sig med andra ord på material från cirka en månads tid.
För att maskinellt skapa en representation av vad en artikel hand- lar om och vad textens betydelse är, det vill säga för ge artiklarna ett numeriskt värde som representerar innehållets semantiska betydelse, utnyttjar vi så kallade djupa artificiella neuronät. I den här analysen använde vi ett verktyg som Google nyligen har publicerat och som de har “förhandstränat”, med stora mängder av texter.
Som inlärningsmaterial har de använt texter från Wikipedia, webbnyheter, frågesvar sajter och diskussionsforum. Utöver de här datakällorna har de även förstärkt inlärningsprocessen med data från Stanford Natural Language Inference (SNLI) korpus (Bowman et al., 2015).
Algoritmen som används hör till samma familj som de populära word embedding algoritmerna, men till skillnad från dem kan det här verktyget tolka hela meningar och begränsar sig alltså inte till enskilda ord. Vi var förvånade över hur väl det här fungerade jämfört med tidigare tester av äldre algoritmer på marknaden.

Maskinöversättning

En utmaning är att Googles modell är byggd på engelska och ef- tersom vårt material innehåller artiklar även på svenska och finska behövde vi lösa det.
Den lösning vi valde var att maskinöversätta de svenska och finska artiklarna till engelska. Maskinöversättningens algoritmer har gått framåt med stormsteg under de senaste åren, även om det fortfarande finns rum för förbättring. Vi valde att utnyttja Google Clouds översättningsteknologier.
I vårt fall är översättningen inte ämnad för direkt kommunika- tion människor emellan, vilket gjorde metoden aning mer förlåtande. I själva verket överraskade även det här oss hur bra det fungerade.
Som inmatning för algoritmerna övervägde vi olika strategier för hur semantiska betydelsen kunde analyseras för hela artiklar, men det visade sig att bara genom att mata in rubriken kommer man mycket långt.
I största delen av fallen visade sig det här tillräckligt bra för att ringa in ämnet. Därför valde vi att nöja oss med rubrikerna. Det är trots allt så attoftastkodar man in detviktigaste i rubriken. Dessutom är trenden att rubrikerna blir allt längre. Så det fungerar relativt väl. Det finns enstaka fall av exempelvis ledartexter eller sporttexter, som innehåller symboliska fraser eller ironi. De här fraserna kan modellen självklart inte tolka och placerar dem därför på fel plats på kartan.
Den sentence embedding-algoritm som vi använde producerar en bild av meningen som består av en vektor med 512 element. Med andra ord handlar det om en position eller en punkt i en hyperrymd. Med hyperrymd avses en rymd som har fler dimensioner än tre, och

i det här fallet alltså hela 512 stycken. Likheten och olikhet mellan olika artiklar representeras av avståndet mellan punkterna.
En rymd med 512 dimensioner är självfallet omöjligt att gestalta grafiskt. Därför används så kallade dimensionsreduceringsalgoritmer för att minska antalet dimensioner.
En klassisk metod som är populär kallas för Principal Component Analysis (PCA). Den används ofta när förhållandena mellan de olika dimensionerna eller variablerna är lineära. PCA har många fördelar, den är tolkningsbar och den producerar en deterministisk modell som kan användas för att prognostisera dimensioner från en input som modellen inte sett tidigare. PCA fungerar inte lika bra med problem där variablernas förhållanden inte är lineära.

Artiklarna bildade kluster på en karta

De senaste åren har t-SNE (eller t-distributed Stochastic Neighbor Embedding utvecklat av Laurens van der Maaten) blivit populär för problem där förhållandena mellan variablerna är mer komplexa.
I vår analys har vi utnyttjat t-SNE. Den producerar ofta impo- nerande resultat, men har även ett antal nackdelar. För att få bättre klustrering väljer t-SNE att fokusera på lokala avstånd mellan punk- terna. Det leder till att globala avstånd så gott som helt försvinner från representationen.
Det betyder till exempel i vårt fall att artiklar som ligger mot- satta mot varandra inte är semantiskt maximalt olika. Därmed kan man heller inte tolka in betydelser i de olika axlarna.Man kan därför inte säga att x- axeln respektive y-axeln skulle representera något

specifikt semantiskt. Däremot kan man tolka att artiklar som ligger nära varandra sannolikt handlar om liknande saker.
En annan nackdel är att t-SNE inte är deterministisk. Varje gång man vill inkludera nya artiklar i modellen behöver man köra ut en helt ny modell, vilket leder till att varje ny körning ger en ny karta. Med andra ord om det finns ett kluster med till exempel innehåll om bilar, kommer det klustret att återskapas även i nästa version av kartan när nya artiklar bifogats, men klustret kommer att hittas på en ny plats på kartan vilket gör att den manuella analysen blir arbetsdryg. Speciellt när antalet artiklar är flera tiotusentals.
Att reducera en hyperrymd med 512 dimensioner till två är själv- fallet inte utan risker eftersom information per definition går förlorad. Det man dock vinner på metoden är att informationen går att gestalta visuellt på ett sätt som en människa kan förstå.
Skulle man till exempel vilja bygga en modell som försöker för- utspå åldern för en viss artikel på basis av innehållet i den – något som skulle kräva att man också hade åldersdata per enskild artikel – så skulle man självfallet inte behöva reduktionen, utan kunna använda alla 512 dimensioner som signal.
I vår analys kombinerar vi artificiell intelligens med manuell analys och det gjorde att vi måste processa materialet till en form som är förståelig för en människa.
Gällande informationen som gick förlorad på grund av reduktio- nen kan vi säga att målsättningen endast var att skapa en representa- tion där ämnesmässigt liknande artiklar skulle samlas nära varandra på vår karta.
I de algoritmer som vi har använt prioriteras uttryckligen prox- imiteten. t-SNE ignorerar däremot globala avstånd. Med andra ord

är endast artiklar som ligger nära varandra en meningsfull signal. Av- ståndet mellan cellerna blir dock mer eller mindre mer meningslöst att tolka (eller i vinklarna mellan dem för den delen).
Därmed har som sagt till exempel x-axeln ingen semantisk bety- delse i vår metod.Andra dimensionsreduktionsmetoder och algoritmer kan dock erbjuda det här (exempelvis PCA).
Men om artiklarna placerar sig nära varandra på kartan handlar de sannolikt om samma ämnen. I den här undersökningen är det utfallet tillräckligt för att kunna göra en analys.
För att skapa hexagonerna, som alltså representerar tätheten av unga läsare på ett visst område, räknade vi medeltalet för andelen unga läsare för alla de artiklar som träffar den hexagonen. Om området hade färre än 50 artiklar valde vi att inte rita ut hexagonen. Också det här är en approximation.
Eftersom vi inte direkt kan mäta användning av artiklar fungerar åldersprofilen för varumärket som en proxy for användningen. För att vara helt precis mäter vi publiceringsbeslut som görs på varumärkens redaktioner, inte läsarnas intressen. Samtidigt är det inte ett orimligt antagande att besulten reflekterar åtminstone aggregerat läsares beteende. Numera används data allt mer som stöd för publicistiska beslut och hur användningen av innehållet korrelerar med besluten är även en affärsangelägenhet. Omvänt även om det redaktionerna skulle vara helt omedvetna om publikens beteende, bör man kunna anta att varumärkets läsarprofil samlats kring redaktionens ämnesval eftersom de också reflekterar läsarnas intressen.

Info

Skribent(er)