Info

Skribent(er)

3.5 Tolkningen av resultatet

Själva tolkningen av materialet gjordes alltså huvudsakligen från körningen av materialet med nyheter och artiklar från de 29 under- sökta medierna, publicerade den andra veckan i augusti 2018, även om modellen som skapade kartan baserar sig på material från en längre tidsperiod.
Arbetsmetodiken var att manuellt gå igenom kluster för kluster. I varje större kluster kartlade vi även enskilda artiklar och gick in för att läsa dem. Med den här genomläsningen av enskilda artiklar ville vi försäkra oss om att artikeln verkligen handlade om det ämne som fanns i klustret. I och med att den automatiserade textanalysen, som vi använde, enbart känner igen ord och språk kunde enskilda artiklar hamna på fel ställe på vår karta.
Exempelvis rubriker som enbart bestod av en metafor om väder, men de facto behandlade ekonomi eller sport, hamnade därför i ett kluster med artiklar om väder. Men de här artiklarna visade sig snabbt vara undantag. Samstämmigheten med det det datagenererade visade sig överlag vara mycket hög.
Efter att vi hade gått igenom alla kluster några gånger och bildat oss vår egen uppfattning om resultatet bjöd vi in tre nyhetsproffs från tre olika mediehus för att delta i en workshop kring materialet. De tre personerna har en lång erfarenhet av att jobba med utgivning av nyheter och också av att på daglig basis följa med det egna mediehusets mätningar av lästa artiklar bland olika åldersgrupper.
Vi presenterade metodiken för dem och gav dem materialet för att de skulle komma med sin egen analys. Det här gjorde vi utan att delge dem de tolkningar vi hade gjort. På det här sättet ville vi försäkra

oss om att vi inte hade blivit blinda för våra egna tolkningar och hade “börjat se det vi ville se” i klustren. Det visade sig att tolkningarna på de avgörande och större områdena stämde överens med de tolkningar vi själva hade gjort.
Avslutningsvis jämförde vi resultaten med den första större kör- ningen av material som gjordes på basis av artiklar som de undersökta medierna hade publicerat i slutet av juli 2018. Det här gjorde vi för att se om vi hittade samma kluster som i den huvudsakliga körningen i augusti.
Det fanns vissa variationer i de båda körningarna. Det var själv- fallet andra enskilda nyheter som kunde bilda kärnan i ett kluster då och delvis också andra personer som råkade vara särskilt aktuella under just den tidsperioden, men klustren och anhopningarna av ämnen och helheter stämde väl överens med körningen i augusti.
Alla resultat och alla slutsatser av resultaten speglar vi dessutom mot de egna erfarenheterna vi har från de mediehus vi jobbat i och med. Många av de kluster som vi hittade i den här undersökningen har vi även sett indikationer på i de tidigare arbeten och utredningar vi har gjort under de senaste åren inne i olika mediehus.
Vi vågar med andra ord påstå att sannolikheten är hög att vi har kunnat kartlägga de huvudsakliga ämnesområden som lockar till sig unga läsare.
Utgångspunkten är dock enbart de ämnesval och prioriteringar som de undersökta utgivarna har gjort. Vi har med andra ord inte kunnat erbjuda alternativa ämnen eller kategorier att ta ställning till. Det betyder i sin tur att det även kan finnas andra områden av nyhe- ter som inte syns i den här undersökningen, dvs så kallade “tomma fläckar” på kartan.

Det är även viktigt att understryka att våra resultat måste ses mot den nyhetsagendan som förekom under den tidsperioden vi gjorde vår analys.
Vi vill ännu också understryka att vi rör oss på en generell nivå. Vi har inte data på enskilda användare från de 29 undersökta varu- märkena. Det kan finnas avsevärda skillnader i användningen inom varumärkena och det är signaler vi inte kan uppfatta med den befint- liga datan. Vi har därför försökt kompensera det här med att använda en tillräckligt stor volym av artiklar för att försäkra oss om en hög sannolikhet.
I det följande kapitlet redovisar vi för våra resultat.

3.1 I korthet

Vi har valt ut 29 nyhetsvarumärken, lyssnat av dem och samlat allt de publicerat under en tidsperiod på en ungefär en månad (i slutet av sommaren och början på hösten 2018).
Vi har utnyttjat algoritmer för att skapa en ämneskarta där artiklarna placeras så de som handlar om samma ämnen placerar sig nära varandra. Den enda innebörden som ska utläsas från placeringen på kartan är att artikeln sannolikt handlar om liknande ämnen som övriga artiklar på samma plats på kartan. Med andra ord ska man inte tolka att till exempel x-axeln i sig har någon betydelse.
Efter att vi har skapat kartan har vi delat upp den i ett antal celler. För varje cell har vi räknat ut en sannolik åldersfördelning på basis av de artiklar som har publicerats i den cellen För att räkna en sannolik åldersfördelning har vi använt data för de olika varumärkenas åldersfördelning.
I de följande avsnitten i det här kapitlet redogör vi för vilka de utvalda varumärkena är och så går vi i detalj in på hur metoden rent tekniskt har sett ut. Trots att vi har försökt göra den tekniska beskriv- ningen så begriplig som möjligt kräver den dock vissa förkunskaper i maskininlärning och algoritmer.
För er som inte är intresserade av den tekniska beskrivningen av metoden rekommenderar vi att ni går vidare till kapitel 4.

3.2 Val av nyhetsmedier

Vi valde ut sammanlagt 29 olika varumärken, som står för såväl en geografisk som profilmässig mångfald. Bland de undersökta medier- na finns internationella, amerikanska, brittiska, svenska, finska och finlandssvenska.
Strävan var att välja varumärken som både har unga som en tydligt uttalad målgrupp och varumärken som siktar på att nå en bred skara av läsare. Ambitionen med det här är att se hur de olika varumärkena placerar sig i förhållande till varandra men även att via de “unga va- rumärkena” skapa tydligare riktmärken för var de unga läsarna med högre sannolikhet rör sig.
Vi valde uttryckligen varumärken som åtminstone själva definie- rar sig via nyheter. I skaran av de här 29 olika varumärkena varierar dock definitionen på nyheter. Det som är en nyhet i Ladbible (t.ex. om en känd rappare som berättare på sitt Instagram-konto om att han ska avtjäna ett straff) är alla gånger inte en prioriterad nyhet i exempelvis The Guardian.
Men vår ambition var att få in uttryckligen mångfald i källorna i typen av nyheter och via det stora antalet källor och artiklar under- söka vilka ämnen som med störst sannolikhet lockar de unga läsarna. Nedan följer en kortpresentation av de undersökta varumärkena.
Samt åldersfördelningen på varumärkena (se metoden för åldersbe- stämningen i kapitel 3.3.).


Aftonbladet, som är en svensk kvällstidning med en stark digital närvaro. Var bland de förs- ta av de större varumärkena i Norden att satsa stort digitalt.


Dagens Nyheter, som är Sveriges största dag- stidning. Har en spridning i hela landet men fokus ligger på Stockholm. Gick tidigt in för en betallösning på sin webbplats.


BBC News, som är den del av det brittiska public service-bolaget som producerar och dis- tribuerar nyheter i tv, radio och på internet. Har en stark internationell närvaro.


Expressen, som är en svensk kvällstidning. Är tillsammans med Aftonbladet de två största aktörerna på den svenska digitala nyhetsmark- naden. Har på senare tid profilerat sig starkt med video och sina tv-sändningar.


Buzzfeed, som är ett amerikanskt varumärke specialiserat på nyheter och nöje. Startade med fokus på nöje men har under de senaste åren profilerat sig starkt inom bland annat politik.


CNN, som står för Cable News Network är ett amerikanskt bolag med fokus på tv. CNN har en stark internationell närvaro och har under de senaste åren allt mer profilerat sig via sin webbplats.


Fox News, som är ett amerikanskt bolag med fokus på tv-sändningar dygnet runt. Har även en stark digital närvaro med fokus på politik, ekonomi och sport. Har en klart konservativ och republikansk profil i sin rapportering.


Hufvudstadsbladet, som är den största svenskspråkiga dagstidningen i Finland. Största delen av läsarna finns i Helsingfors med omne- jd. Var en av de första dagstidningen i Norden som började ge ut en digital kvällsupplaga.


Helsingin Sanomat, som är både Finlands och Nordens största dagstidning. Huvudsätet finns i Helsingfors men spridningen är natio- nell. Är det enda tidningshuset som lockar en miljonpublik digitalt i Finland.


NPR, som står för National Public Radio är ett icke-kommersiellt amerikanskt varumärke. Huvudsätet är i Washington men har verk- samhet i hela USA. Fokus i utgivningen ligger på politik och kultur.


Huffington Post, som är ett amerikanskt digitalt varumärke. Från att ha börjat som ett bloggforum är HuffPost idag en stor nyhetssajt med starkt fokus på politik och en tät dialog med läsarna.


New York Times, som är ett amerikanskt varumärke med sitt huvudkontor i New York. Har en stark internationell profil och är en global föregångare digitalt bland tidningshusen.


Ilta-Sanomat, som är Finlands största kvälls- tidning. Har under de senaste åren förskjutit sin verksamhet mot den digitala utgivningen och är idag den ledande kommersiella aktören digitalt i Finland.

Ladbible, som är ett brittiskt digitalt varumärke med fokus på viralt innehåll. Tyngdpunkten i utgivningen ligger på nyheter och underhållning för en yngre publik. Grafen saknas men följs av 50% av 18-24 åriga män i Storbritannien.


Mic, som är ett amerikanskt digitalt varu- märke med starkt fokus på millenniegenera- tionen. Innehållet varierar från tung politik och stora samhälleliga orättvisor till underhållning. En förskjutning från text till video har skett un- der de senaste åren.


Omni, som är en svensk digital tjänst som sammanfattar nyheter från andra källor. Omni skriver korta notiser och sammandrag och länkar till de mer heltäckande nyheterna och artiklarna.


Reddit News, som är en amerikansk social nyhetstjänst. Användaren skapar innehållet via antingen eget material eller länkar till ny- heter från andra källor.


Refinery29, som är ett amerikanskt digitalt varumärke med unga kvinnor som sin uttalade målgrupp. Innehållet kretsar kring allt från livsstil, karriär till politiska nyheter.


SVT, som står för Sveriges Television är det största av de tre public service-bolagen i Sverige. Fokus ligger fortfarande på utgivning i tv (lineär och on demand), men under de se- naste åren har man även utökat sin nyhetsut- givning i textform.


Reuters, som är en internationell nyhetsbyrå med sitt huvudsäte i London. Reuters dis- tribuerar nyheter på tolv olika språk och har 17 olika varianter på sin webbplats beroende på land och språk.


The Economist, som är en brittisk tidskrift med tonvikt på ekonomi och politik i sin bev- akning. Den största marknaden för varumär- ket finns i USA. I sin digitala utgivning ligger fokus förutom på nyheter även på en ansenlig mängd analyser och kommentarer.


Svenska Dagbladet, som är den näst största rikstäckande och prenumererade dagstidningen i Sverige. Har sitt huvudkontor i Stockholm. Använder liksom Dagens Nyheter en betal- modell för sitt digitala innehåll.


The Guardian, som är brittisk dagstidning grundad i Manchester men som numera har sitt huvudkontor i London. Den digitala närvaron är bred både i ämnen och spridning. Webbplatsen har fyra versioner: en internationell, en brittisk, en amerikansk och en australisk.


Svenska Yle, som är den svenskspråkiga delen av public service-verksamheten i Finland. Har i sin verksamhet förskjutit tyngdpunkten mot det digitala i sin distribution av nyheter och är nu den största digitala aktören på svenska i den finländska nyhetsvärlden.


Unilad, som är ett brittiskt digitalt varumärke med fokus på virala nyheter. Fokus ligger på underhållning, teknologi och lättare nyheter. Utgivningen vilar på video och kortare texter.


Vasabladet, som är den näst största dagstid- ningen på svenska i Finland. Fokus i bevak- ningen ligger på Österbotten som även utgör täckningsområdet. Använder en betalmodell för största delen av sitt digitala innehåll.


Vice News, som är ett amerikanskt varumärke med en global verksamhet. Fokus ligger på poli- tik och aktualiteter, som ofta produceras som kortare videor med ett dokumentärt grepp. På webbplatsen blandas kortare videon med texter.

 


Vox, som är ett amerikanskt digitalt varu- märke specialiserat på att sammanfatta och förklara nyheter. Ämnesmässigt täcker man allt från politiska nyheter till kultur och hälsa.


Yle Uutiset, som är den finskspråkiga nyhets- avdelningen inom public service. Målet är att vara heltäckande beträffande ämnen och ut- givning. En klar förskjutning mot en digital utgivning i text har skett under de senaste åren. Är nu en av de ledande aktörerna även på det här området i Finland.

3.3 Åldersfördelningen och metoderna

Vi skapade en ämneskarta där liknande eller identiskt innehåll samlas på samma områden på kartan. När artiklarna sedan är placerade på kartan uppskattade vi områdets åldersprofil.
I de bästa av världar gör man den här analysen på basis av de enskilda artiklarnas åldersprofiler, men eftersom den här informa- tionen inte är offentlig valde vi att göra en approximation med hjälp av demografidata som finns tillgänglig på varumärkesnivå.
Det betyder att vi betraktar den andel som de analyserade va- rumärkena har av sina användare som är under 35-åringar. De här siffrorna bildar sedan en sannolikhet för att den enskilda artikeln har lästs av just den profilen. När vi sedan räknar medeltalet av alla artiklar som publicerats just på det området på innehållskartan får vi en aggregerad bild av hur rimligt det är att innehåll som publiceras just på det området intresserar gruppen som vi är intresserade av.
Det måste dock understrykas att det här är en uppskattning på basis av den data som finns tillgänglig, med mer detaljerad data kan bilden självfallet förändras. Det här tillvägagångssätten missar interna profilskillnader inom det enskilda varumärket. Det vill säga om en viss typ av innehåll på exempelvis Hufvudstadsbladet konsekvent attraherar en yngre publik, uppfattar den här metodologin inte den signalen. Men däremot syns det i modellen om de varumärken som har en yngre profil också publicerar artiklar på det området. Så vårt antagande är att det här mönster kommer fram i helhetsbilden.
Gällande varumärkens åldersprofiler är det data som är förvånans- värt svår att hitta offentligt. För att kunna jämföra ett stort antal olika varumärken använder vi därför i den här analysen så kallad proxydata.

Facebook erbjuder data om åldersfördelningen för deras an- vändares intressen i deras kampanjplaneringsverktyg. Eftersom en så stor del av populationen använder Facebook, även unga, så beslöt vi att använda just den åldersprofil som Facebook rapporterar för varumärken i vår analys.

Andel under och över 35-åriga användare enligt varumärke i hela USA, Storbritannien, Finland och Sverige. Enligt vår uppfattning viktar Facebook inte åldersprofilerna enligt land, vilket betyder att USA med så stor popula-

tion dominerar siffran när det gäller de engelskspråkiga varumärkena, medan förstås de nordiska språken begränsar användarna. källa: Facebooks Audi- ence Insight, Various syftar här på data som samlats från olika källor. Källor- na är Digiday, Wall Street Journal, Verto Analytics, Schibsted Media Group. (https://www.vertoanalytics.com/chart-week-tracking-news-reader-demo- graphics/ https://digiday.com/media/not-5-charts-state-gawker-media/ https://blogs.wsj.com/cmo/2015/08/12/comcast-invests-200-million-in-vox- media-valuing-digital-media-firm-at-1-billion/ http://annonswebb.schibsted.se/sv/brands/svd-176/audience http://annonswebb.schibsted.se/sv/brands/aftonbladet-20/audience http://annonswebb.schibsted.se/sv/brands/omni-173/audience)

Vi har gjort ett antal jämförelser med offentlig och icke offentlig data. Några av benchmarkprofilerna ses i figuren ovan. Med hjälp av de här jämförelserna vågar vi anta att Facebooks åldersfördelning korrelerar, till och med överraskande väl, med den åldersfördelning som varumärkena själva har att tillgå.
En annan fördel är att Facebook för närvarande har en unik posi- tion.När de uppger användare handlar det på riktigt om Facebook-an- vändare och därmed riktiga personer som registrerat sig för tjänsten.
Stora delar av mediebranschen har fortfarande inte möjlighet att rita en bild av riktiga personer, utan är tvungna att uppskatta användning på en viss apparat, webbläsare eller motsvarande. Även till skillnad från många tjänster som kräver inloggning, exempelvis webb tv-applikationer, är Facebook-användningen så gott som alltid knuten till en person.
Här behöver vi dock vara medvetna om att a) variationen av hur de enskilda varumärkenas åldersfördelning korrelerar med Facebooks

åldersfördelning kan vara stor och b) Facebooks data finns till för deras syften att sälja annonsprodukter och vi har inga garantier för att data inte reflekterar det här syftet.

Processen i korthet

I det här avsnittet går vi djupare in på hur materialet för analysen byggdes tekniskt.

Processen för att skapa ämneskartan och analysen har sett ut så här:

1) Vi läste av de ovannämnda varumärkena genom att utnyttja olika metoder och tekniska källor. Här ingår allt från så kallad web scraping, rss-distribution och publikation av artiklar på Twitter.
2) Vi samlade rubrikerna för alla artiklar som publicerades under en given tidpunkt. Om artiklarna var skrivna på finska eller svenska översatte vi dem till engelska.
3) Vi skapade en modell som ger en numerisk representation av rubrikens semantiska betydelse genom att placera den på en punkt i en hyperrymd med 512 dimensioner.
4) Vi reducerade dimensionerna till två för att kunna rita ämneskartan.
5) Vi aggregerade artiklarnas andel av unga läsare och skapade en så kallad heatmap med hexagoner. Ju rödare cellen, det

vill säga hexagonen är, desto mer sannolikt representerar området ett ställe där man hittar många unga läsare.
6) Vi gjorde en heuristisk analys av de hexagoner som ser ut att innehålla mycket unga läsare och de som ser ut att innehålla få unga läsare.

Andel uppskattade användare under 35 åriga enligt varumärke. Uppgjord enligt den metod som vi redogör för ovan, källa Facebooks Audience Insights (här hela världen) samt de andra källorna.

3.4 Processen och algoritmerna

I det här avsnittet beskriver vi mera i detalj den process vi har använt för att skapa kartan.
När analysen gjordes hade vi samlat in cirka 46 000 artiklar. Det här gjorde vi mellan 18.7 och 14.8. Vi lyssnar fortfarande av artiklar och i skrivande stund har vi samlat in närmare 150 000 artiklar. När visualiseringen nedan gjordes hade vi samlat in ungefär 100 000 artiklar från de 29 analyserade varumärkena.

I den här analysen byggde vi ämneskartan med 46 000 artiklar som samlats in under lite mindre än en månads tid. För att underlätta analysen tog vi med de 17 500 senaste artiklarna från helheten till själva den heuristiska analysen. Våra grafiska verktyg fungerade bra för en mängd på knappa 20 000 artiklar.
Närmare bestämt handlar det aktuella urvalet om artiklar som publicerades mellan 6.8 och 14.8. Det handlar med andra ord om

drygt en vecka i medlet av augusti. I själva genomgången som gjordes manuellt valde vi alltså att analysera artiklar från en kortare period. Vi behövde på grund av det massiva materialet fokusera på en “snapshot” för att kunna överblicka klustren bättre.
Men det är viktigt att påpeka att alla de 46 000 artiklarna har påverkat hur kartan ser ut. Modellen för kartan baserar sig med andra ord på material från cirka en månads tid.
För att maskinellt skapa en representation av vad en artikel hand- lar om och vad textens betydelse är, det vill säga för ge artiklarna ett numeriskt värde som representerar innehållets semantiska betydelse, utnyttjar vi så kallade djupa artificiella neuronät. I den här analysen använde vi ett verktyg som Google nyligen har publicerat och som de har “förhandstränat”, med stora mängder av texter.
Som inlärningsmaterial har de använt texter från Wikipedia, webbnyheter, frågesvar sajter och diskussionsforum. Utöver de här datakällorna har de även förstärkt inlärningsprocessen med data från Stanford Natural Language Inference (SNLI) korpus (Bowman et al., 2015).
Algoritmen som används hör till samma familj som de populära word embedding algoritmerna, men till skillnad från dem kan det här verktyget tolka hela meningar och begränsar sig alltså inte till enskilda ord. Vi var förvånade över hur väl det här fungerade jämfört med tidigare tester av äldre algoritmer på marknaden.

Maskinöversättning

En utmaning är att Googles modell är byggd på engelska och ef- tersom vårt material innehåller artiklar även på svenska och finska behövde vi lösa det.
Den lösning vi valde var att maskinöversätta de svenska och finska artiklarna till engelska. Maskinöversättningens algoritmer har gått framåt med stormsteg under de senaste åren, även om det fortfarande finns rum för förbättring. Vi valde att utnyttja Google Clouds översättningsteknologier.
I vårt fall är översättningen inte ämnad för direkt kommunika- tion människor emellan, vilket gjorde metoden aning mer förlåtande. I själva verket överraskade även det här oss hur bra det fungerade.
Som inmatning för algoritmerna övervägde vi olika strategier för hur semantiska betydelsen kunde analyseras för hela artiklar, men det visade sig att bara genom att mata in rubriken kommer man mycket långt.
I största delen av fallen visade sig det här tillräckligt bra för att ringa in ämnet. Därför valde vi att nöja oss med rubrikerna. Det är trots allt så attoftastkodar man in detviktigaste i rubriken. Dessutom är trenden att rubrikerna blir allt längre. Så det fungerar relativt väl. Det finns enstaka fall av exempelvis ledartexter eller sporttexter, som innehåller symboliska fraser eller ironi. De här fraserna kan modellen självklart inte tolka och placerar dem därför på fel plats på kartan.
Den sentence embedding-algoritm som vi använde producerar en bild av meningen som består av en vektor med 512 element. Med andra ord handlar det om en position eller en punkt i en hyperrymd. Med hyperrymd avses en rymd som har fler dimensioner än tre, och

i det här fallet alltså hela 512 stycken. Likheten och olikhet mellan olika artiklar representeras av avståndet mellan punkterna.
En rymd med 512 dimensioner är självfallet omöjligt att gestalta grafiskt. Därför används så kallade dimensionsreduceringsalgoritmer för att minska antalet dimensioner.
En klassisk metod som är populär kallas för Principal Component Analysis (PCA). Den används ofta när förhållandena mellan de olika dimensionerna eller variablerna är lineära. PCA har många fördelar, den är tolkningsbar och den producerar en deterministisk modell som kan användas för att prognostisera dimensioner från en input som modellen inte sett tidigare. PCA fungerar inte lika bra med problem där variablernas förhållanden inte är lineära.

Artiklarna bildade kluster på en karta

De senaste åren har t-SNE (eller t-distributed Stochastic Neighbor Embedding utvecklat av Laurens van der Maaten) blivit populär för problem där förhållandena mellan variablerna är mer komplexa.
I vår analys har vi utnyttjat t-SNE. Den producerar ofta impo- nerande resultat, men har även ett antal nackdelar. För att få bättre klustrering väljer t-SNE att fokusera på lokala avstånd mellan punk- terna. Det leder till att globala avstånd så gott som helt försvinner från representationen.
Det betyder till exempel i vårt fall att artiklar som ligger mot- satta mot varandra inte är semantiskt maximalt olika. Därmed kan man heller inte tolka in betydelser i de olika axlarna.Man kan därför inte säga att x- axeln respektive y-axeln skulle representera något

specifikt semantiskt. Däremot kan man tolka att artiklar som ligger nära varandra sannolikt handlar om liknande saker.
En annan nackdel är att t-SNE inte är deterministisk. Varje gång man vill inkludera nya artiklar i modellen behöver man köra ut en helt ny modell, vilket leder till att varje ny körning ger en ny karta. Med andra ord om det finns ett kluster med till exempel innehåll om bilar, kommer det klustret att återskapas även i nästa version av kartan när nya artiklar bifogats, men klustret kommer att hittas på en ny plats på kartan vilket gör att den manuella analysen blir arbetsdryg. Speciellt när antalet artiklar är flera tiotusentals.
Att reducera en hyperrymd med 512 dimensioner till två är själv- fallet inte utan risker eftersom information per definition går förlorad. Det man dock vinner på metoden är att informationen går att gestalta visuellt på ett sätt som en människa kan förstå.
Skulle man till exempel vilja bygga en modell som försöker för- utspå åldern för en viss artikel på basis av innehållet i den – något som skulle kräva att man också hade åldersdata per enskild artikel – så skulle man självfallet inte behöva reduktionen, utan kunna använda alla 512 dimensioner som signal.
I vår analys kombinerar vi artificiell intelligens med manuell analys och det gjorde att vi måste processa materialet till en form som är förståelig för en människa.
Gällande informationen som gick förlorad på grund av reduktio- nen kan vi säga att målsättningen endast var att skapa en representa- tion där ämnesmässigt liknande artiklar skulle samlas nära varandra på vår karta.
I de algoritmer som vi har använt prioriteras uttryckligen prox- imiteten. t-SNE ignorerar däremot globala avstånd. Med andra ord

är endast artiklar som ligger nära varandra en meningsfull signal. Av- ståndet mellan cellerna blir dock mer eller mindre mer meningslöst att tolka (eller i vinklarna mellan dem för den delen).
Därmed har som sagt till exempel x-axeln ingen semantisk bety- delse i vår metod.Andra dimensionsreduktionsmetoder och algoritmer kan dock erbjuda det här (exempelvis PCA).
Men om artiklarna placerar sig nära varandra på kartan handlar de sannolikt om samma ämnen. I den här undersökningen är det utfallet tillräckligt för att kunna göra en analys.
För att skapa hexagonerna, som alltså representerar tätheten av unga läsare på ett visst område, räknade vi medeltalet för andelen unga läsare för alla de artiklar som träffar den hexagonen. Om området hade färre än 50 artiklar valde vi att inte rita ut hexagonen. Också det här är en approximation.
Eftersom vi inte direkt kan mäta användning av artiklar fungerar åldersprofilen för varumärket som en proxy for användningen. För att vara helt precis mäter vi publiceringsbeslut som görs på varumärkens redaktioner, inte läsarnas intressen. Samtidigt är det inte ett orimligt antagande att besulten reflekterar åtminstone aggregerat läsares beteende. Numera används data allt mer som stöd för publicistiska beslut och hur användningen av innehållet korrelerar med besluten är även en affärsangelägenhet. Omvänt även om det redaktionerna skulle vara helt omedvetna om publikens beteende, bör man kunna anta att varumärkets läsarprofil samlats kring redaktionens ämnesval eftersom de också reflekterar läsarnas intressen.