Chapitre 3 Exploration


Maintenant que nous sommes armés de nos données, nous allons enfin pouvoir les manipuler et les explorer. J’avoue c’est une des étapes que j’affectionne le plus. J’aime comparer cela au déballage d’un cadeau: l’excitation jusqu’au dénouement. La préparation et le nettoyage des données ont du bon aussi. Cela me permet de me constituer une liste de questions, ce qui est primordial pour l’exploration. Que voulons-nous savoir? Quelles questions se pose notre audience? Comment au mieux puis-je le représenter? L’approche suivante tente de répondre à une série de questions par variable. Commençons par les catégories.

Pour visualiser les graphiques correctement, vous pouvez faire un click droit et les ouvrir dans un nouvel onglet.

3.1 Catégorie

3.1.1 Quelle est la date de publicatiion du premier post ?

pub_date
2008-05-27 21:00:00

La date semble être le 27 mai 2008. J’ai un vague souvenir de ce moment. Nous avions lancé l’agence moins d’un an auparavant et je me vois encore découvrir pour la première fois adada dans nos anciens bureaux. Plus de 10 ans. Beaucoup de choses se sont passées depuis.

3.1.2 Quel est le rythme des publications par catégorie ?

Les 3 catégories en top position sont : créa, communiqués et carrières. C’est intéressant de constater qu’entre 2013 et 2017, le rythme de rédaction est moins important. Cela semble correspondre aussi à la période où Jérome travaille chez Maison Moderne (2014 - 2018). Voyons cela plus précisément sur un graphique à facette. J’ai tracé 2 lignes correspondant à la période citée plus haut.

Nous voyons effectivement que la production d’articles publiés durant la période entre les 2 verticales jaunes est plus faible. Ce qui sous-entend que durant cette période, l’activité d’adada était moins importante. La catégorie “marque” semble être une des plus récentes. Comparons maintenant l’âge des catégories.

Table 3.1: Age des catégories
pub_date category
2008-05-27 category-crea
2009-08-24 category-communiques
2009-09-20 category-carrieres
2010-03-21 category-concours-dagences
2011-03-28 category-online
2011-07-19 category-medias
2011-09-26 category-interviews
2014-03-31 category-visite
2016-09-07 category-marques
2017-11-15 category-vie-dagence
2018-01-08 category-markcom
2019-01-27 category-trouver-un-freelance
2019-10-10 category-tarifs-medias-luxembourg
2019-10-30 category-offres-demploi

Les 3 dernières catégories, trouver un freelance, tarifs medias luxembourg et offres d’emploi ont été créées en 2019. (Note de Jerome: la catégorie “offres d’emploi” ne date pas de 2019 mais d’une année antérieure.)

3.1.3 Quel est le volume des publications par année ? (top 5 catégories)

Nous observons que le nombre de publications publiées en 2015 (50) est le plus bas et en 2019 (455) le plus haut. Nous pouvons également observer 29 articles sans date avec la valeur NA pour l’année.

3.2 Agences

Ce volet met en évidence les agences citées dans les titres d’articles. Comme nous l’avons vu plus haut, le listing à été réalisé manuellement en identifiant chaque agence mentionnée.

3.2.1 Combien d’agence répertoriées ?

#> [1] 71

71 agences sont répertoriées dans notre liste.

3.2.2 Quelle répartition des posts avec et sans mention par année ?

Nous observons une répartition plus importante d’articles avec mention de nos 71 agences en début de vie du blog que lors des 2 dernières années. Il serait intéressant de voir en moyenne le trafic généré par ces postes vis-à-vis des postes sans mention d’agence.

3.2.3 Quel volume d’articles par agence (top 10) ?

Binsfeld remporte la mise avec 128 articles suivit de Mikado et de l’Agence VOUS.

3.2.4 Quelle évolution du volume d’articles par agence (top 5)?

L’agence VOUS cumule le plus d’articles jusqu’en 2013 pour prendre la 3?me place en fin 2019 avec 106 articles. Concept Factory a une moins forte accélération sur les 2 dernières années comme illustré sur le graphe suivant. Binsfeld cumule 128 articles les mentionnant.

3.3 Clients

Nous allons maintenant aborder les clients avec quelques questions qui me semblent intéressantes à aborder.

3.3.1 Quel client a été le plus mentionné sur le site ?

POST est la première marque la plus mentionnée avec 36 publications avec mention (pour rappel, notre vecteur comporte 330 clients). Éditons le graphique pour comparer les mentions en isolant le groupe “other”.

Intéressant de voir adada en 4e position et l’essentiel en 9e position avec 17 mentions. Mais qu’en est-il de la relation agence et client? Quel client est le plus cité par agence?

3.3.2 Top mention client par agence ?

Table 3.2: Mention par agence
agency client n
agence_vous bgl bnp paribas 16
binsfeld enovos 13
mikado_publicis orange 13
concept_factory tango 12
comed essentiel 5
idp losch 5
nvision bofferding 5
apart bcee 4
betocee post 4
betocee rosport 4
moast cactus 4
moast createam 4
moskito yellow.lu 4
plan_k moutarderie 4
takaneo kpmg 4
vanksen axa 4
wili ville de dudelange 4
fish_and_chips auchan 3
lola tango 3
noosphere losch 3

L’agence VOUS et BGL BNP Paribas sont le premier binôme avec 16 mentions suivi par BINSFELD et ENOVOS. Tiens TANGO est le client le plus nomé par LOLA et MIKADO PUBLICIS… et si nous regardions les liaisons des clients avec les agences?

Pour faire ce graphique nous allons utilser le package tidygraph et ggraph. Je ne vais pas rentrer dans le détail de chaque graphe, cela serait trop long. Néanmoins, je vais composer au fur-et-à mesure notre graphique.

3.3.3 Quelles interactions entre les agences et les clients ?

3.3.3.1 Placer les agences

3.3.3.2 Définir la taille des agences selon le nombre de connexion.

La taille des noeuds ou sommets (node) est déterminée par le nombre d’arêtes (edges) sortantes. Plus une agence a des liaisons avec des titres de pages mentionnant un client plus sa taille sur le graphe sera élevée. concept factory remporte la mise avec le plus de clients référencés.

3.3.3.3 Ajoutons les clients

3.3.3.4 Ajoutons les arêtes (edges) aux sommets (nodes)

Et bien, cela en fait des références.

3.3.4 Rendre la visualisation des réseaux interactive

Pour rendre le graphique interactif, nous allons utiliser le package visNetwork. Ce package utilise vis.js et est basé sur les htmlwidgets. La taille des edges est calculé en fonctions du node client d’arrivée. Plus le node client a de connexions (degrés) plus l’épaisseur est élevée.

3.3.5 Quelle est la distribution des degrés client / agence (nombre de connexion)

Dans l’étude des graphes et des réseaux, il est commun de visualiser la distribution des degrés par sommets (cf. noeuds ou node). Pour cela, je transforme ma table pour comptabiliser les connexions sortantes pour les agences (agence -> client) et les connexions entrantes pour les clients (client <- agence).

L’histogramme nous montre que pour les agences, le nombre de connexions sortantes (vers les clients) se site entre 1 et 40 connexions avec une absence de noeuds entre 20 et 30 connexions. Passé les 30 connexions, nous retrouvons quelques noeuds avec un grand nombre de connexions.

Il faut distinguer les agences avec le plus grand nombre de connexions des agences avec le plus d’articles publiés. En effet, nous pourrions retrouver une agence avec quelques connexions, mais avec un volume de post élevé (5, 10 ou 20 articles mentionnant le même client.) Pour vérifier cela, nous allons créer une table comportant par agence/client le nombre d’articles et leur degré (nombre de connexions).

3.3.6 Y a-t-il une corrélation entre le degré d’un noeud et le nombre de publication ?

Nous observons une corrélation positive, c’est-à-dire que plus le nombre de publications pour l’agence est élevé plus le nombre de connexions augmente. Calculons la valeur de notre coefficient de la régression linéaire en jaune et dont la pente est inférieure à 1.

Table 3.3: Régression linéaire
entity_type intercept coeff
agency 2.5445932 0.3154301
client 0.8585339 0.2329407

Que nous disent ces valeurs ? Et bien le modèle nous indique que par article supplémentaire, une agence obtient 0.31 degré en plus. Il faut donc 3.22 (1/0.31) articles pour avoir un degré supplémentaire. Et qu’un client est mentionné par une nouvelle agence tous les 4.38 (1/0.22) articles.

3.3.7 Quel est le taux de mention client unique par post ?

Si nous prenons le degré du noeud (NDLR: nbr. connexions) et nous rapportons cela aux nombres de posts, nous avons un taux de mention unique de client par publication. Plus ce taux se rapproche de 1 plus l’agence mentionne de clients différents par post. Pour simplifier, si à chaque article (post ou publication) l’agence mentionne un nouveau client, l’agence (ou noeud) augmente d’un degré. Si ce comportement est systématique (disont 10 articles au total avec 10 mentions de client différent), le résultat de ce rapport sera de 1.

Table 3.4: Mention Rate
entity_type entity degree total_pub unique_mention_rate rank
agency cropmark 10 10 1.00 1
agency gotcha 2 2 1.00 1
agency lightbulb 1 1 1.00 1
agency bunker_palace 9 11 0.82 2
agency skill_lab 9 11 0.82 2
agency bizart 16 22 0.73 3
agency push_the_brand 8 11 0.73 3
agency 101_studios 10 14 0.71 4
agency graphisterie_générale 6 9 0.67 5
agency takaneo 11 17 0.65 6
agency nvision 14 22 0.64 7
agency dechmann 13 21 0.62 8
agency accentaigu 5 8 0.62 8
agency a3com 9 15 0.60 9
agency moskito 17 29 0.59 10
agency moast 7 12 0.58 11
agency groupe_get 5 9 0.56 12
agency comed 30 59 0.51 13
agency h2a 13 26 0.50 14
agency mefa 1 2 0.50 14
agency kosmo 1 2 0.50 14
agency concept_factory 39 83 0.47 15
agency apart 6 13 0.46 16
agency vanksen 34 75 0.45 17
agency lola 14 32 0.44 18
agency human_made 4 9 0.44 18
agency plan_k 20 48 0.42 19
agency wili 14 33 0.42 19
agency idp 13 32 0.41 20
agency fish_and_chips 4 10 0.40 21
agency explose 4 10 0.40 21
agency noosphere 15 38 0.39 22
agency interact 5 13 0.38 23
agency mad_about_soul 4 11 0.36 24
agency mad_about 4 11 0.36 24
agency shine_a_light 2 6 0.33 25
agency georges 1 3 0.33 25
agency vidale_gloesener 1 3 0.33 25
agency antidote 1 3 0.33 25
agency betocee 5 16 0.31 26
agency mikado_publicis 32 110 0.29 27
agency knewledge 2 7 0.29 27
agency advantage 5 18 0.28 28
agency binsfeld 35 128 0.27 29
agency agence_vous 28 106 0.26 30
agency studio_polenta 1 5 0.20 31
agency ludwig 1 5 0.20 31
agency maison_moderne 3 25 0.12 32
agency mediation 1 8 0.12 32

Où se situent les agences si nous ajoutons comme variable la somme des publications ? Nous obtenons une matrice de positionnement entre le taux de mention unique et le nombre de publications.

C’est intéressant de voir qu’aucune agence ne se positionne dans la partie droite-haut. Cette place voudrait dire que l’agence a un nombre élevé de publications et que son taux de mention unique est au-dessus de 50%. Donc beaucoup d’actualités pour beaucoup de clients différents. Prenons l’agence VOUS, son taux de mention unique est de 0.27 et le total d’articles la mentionnant est de 106. Après une transformation min-max (soit remis sur une échelle entre 0 et 1) la valeur est de 0.82, soit à 82% du score de Binsfeld ici. Nous pourrions remplacer l’axe des abscisses par la part de marché des publications (le pourcentage de publication par agence sur le total des publications) mais le résultat serait le même en terme de graphe. Au lieu d’une valeur de 1 pour Binsfeld, nous aurions une valeur de 10.9%. ( cf. graphe 4.1.1). Que faire de tout cela ? Et bien, nous pourrions peut-être développer une stratégie de diversification, c’est é dire communiquer à adada des contenus en variant un maximum les clients. Cela pourrait faire sens si nous pouvions corréler cela à une augmentation du trafic en provenance d’adada vers le site de l’agence ou des sollicitations clients par référence et donc en faire un indicateur de valeur (KPI).

Cela dit, est-il possible de multiplier les publications tout en diversifiant les mentions ? In fine et avec le temps, un nombre de répétitions de clients sera inévitable. En effet le marché est limité et les grands comptes aussi. Nous aimons en tant qu’agence communiquer sur des grands comptes. Faut-il pour les agences à droite du graphe communiquer un peu plus sur des clients à moindre notoriété…qui sait le bien que cela ferait à tous ces clients non-cités ?

3.3.8 Evolution des degrés par agence (top 5)

L’évolution des degrés avec les années. Chaque point représente une nouvelle connexion. Nous entendons (pour ceux qui n’ont pas suivi jusqu’ici) par là, une nouvelle mention d’un client pas encore cité.

3.3.9 Quelle chronologie pour les clients mentionnés ?

Si nous isolons les agences dont le nombre de mentions est supérieur à 15.

#> [[1]]

#> 
#> [[2]]

#> 
#> [[3]]

#> 
#> [[4]]

#> 
#> [[5]]

#> 
#> [[6]]

#> 
#> [[7]]

#> 
#> [[8]]

#> 
#> [[9]]

3.4 Heures & jours

Comme nous avons pu isoler les heures et dates pour chaque publication (pour peu que la timezone wordpress soit la même que nous), il nous est donc possible d’identifer les jours et mois sur l’année plus prolifique en terme de publications. Je parie que le dimanche soir est une tranche bien active. Vérifions cela.

3.4.1 Quels sont les jours et les heures présentant la plus grande fréquence de publication ?

La publication des articles se fait selon 3 zones en semaine. le matin jusque midi, puis de 14 à 18h et enfin après 20h en début de semaine. Arrivé le vendredi et samedi, les publications du matin se font plus tardives avec très peu le soir. Enfin le dimanche semble effectivement la journée la plus productive avec une fréquence de publication plus soutenue après 18h pour atteindre un sommet dans la tranche de 20h. Je pense qu’il s’agit surtout de la publication des posts présentés dans la newsletter du dimanche soir. D’ailleurs, si vous n’êtes pas abonnés, abonnez-vous!

3.5 Commentaires

Nous y voici. Parler d’adada, c’est aussi parler des commentaires parfois virulents publiés par certains lecteurs. Souvent de manière masquée, parfois assumée. Néanmoins cela fait partie du jeu et ne pas répertorier, analyser cette partie serait passer à côté du sujet. Nous allons comme pour la partie précédente commencer par comptabiliser les interventions.

3.5.1 Quel est le nombre de commentaires ?

#> [1] 1808

Le site comptabilise 1,808 commentaires. C’est pas mal.

3.5.2 Quelle proportion de posts avec ou sans commentaires ?

Nous observons que 71% des articles publiés n’ont pas de commentaire contre 29% avec commentaires.

3.5.3 Quelle évolution du taux d’interaction ?

Nous observons une diminution du taux d’interaction sur l’ensemble des publications par catégorie, quelle que soit la catégorie. 2013 marque un changement. Comme il s’agit d’un ratio, le nombre d’interactions pourrait être stable (comprenez par là qu’un même volume de posts soit commenté) mais étant donné le développement de la production de publication sur les dernières années, la diminution est évidente.

3.5.4 Quelle évolution des posts avec commentaires ?

Le graphique nous montre que le volume d’articles commentés dépasse les articles non commentés courant 2011. Passé 2017, la tendance s’inverse pour s’accélerer.

3.5.5 Quel est le nombre moyen des commentaires par article ?

#> # A tibble: 1 x 4
#>     sum  mean   max top_article                                                 
#>   <int> <dbl> <int> <chr>                                                       
#> 1  1808  3.34    25 les internautes ont voté : advantage remporte le concours c…

Nous avons en moyenne 3,34 commentaires sur les articles commentés. Nous avons même un article avec 25 commentaires! Je ne m’en souvenais pas mais c’était l’annonce des résultats du concours adada. Advantage avait gagné14

3.5.6 Quel intervalle le plus court et le plus longue pour un commentaire ?

Comme nous avons récupéré l’heure de chaque commentaire, nous pouvons calculer la durée de l’intervalle entre la publication du post et le premier commentaire. Nous allons utiliser le package lubridate pour transformer nos 2 dates en intervalle, calculer sa longueur et enfin transformer cette valeur en durée. Voyons quel post comprend le commentaire le plus rapide.

#> # A tibble: 1 x 5
#>   title        int_length interval                 lovers   comments            
#>   <chr>             <dbl> <Duration>               <chr>    <chr>               
#> 1 atypical, l… -281454660 281454660s (~8.92 years) Marc Ha… Merci a Will Kreutz…

Et bien. Encore Will Kreutz. Cette fois, il s’agit de Marc Haentges avec son commentaire arrivé presque 9 ans après!

#> # A tibble: 1 x 5
#>   title               int_length interval           lovers comments             
#>   <chr>                    <dbl> <Duration>         <chr>  <chr>                
#> 1 entrevue avec will…       -600 600s (~10 minutes) adada  Merci pour l’intervi…

Cette fois, il s’agit de adada avec son commentaire arrivé presque 10 minutes après!

3.5.7 Quel évolution du délai avant le premier commentaire dans le temps ?

Nous allons visualiser sur la ligne du temps le délai avant le premier commentaire.

Le modèle nous montre qu’il n’y a pas vraiment de conclusion à tirer sur une quelconque tendance. En effet, la régression linéaire passe au travers de beaucoup de bruit. Passons à la suite.

3.5.8 Quel nombre de commentaires reçu par agence ?

Le résultat n’est pas vraiment une surpise. L’agence VOUS a eu beaucoup de commentaires. Ceux-ci étaient même parfois très… comment dire… très sympa :-) Voyons à présent l’évolution dans le temps.

On voit clairement cette diminution dans le temps, peu importe l’agence. On remarque aussi que l’agence VOUS n’a reçu aucun commentaire en 2013. La raison est simple : L’agence n’a eu aucune publication cette année-là…

3.6 Lovers

Chaque commentaire a son corbeau :-). Si vous suivez adada depuis toutes ces années, les surnoms vous sont certaienemnt familiers. Raoul, bizness, madinina vous vous reconnaitrez surement.

3.6.1 Combien de lovers ?

#> [1] 552

Nous avons un total de 552 lovers. C’est pas mal. Ce nombre représente à mon avis moins de personnes parce que certains surnoms sont écrits avec des variations (majuscule, abréviation, etc.). Je peux imaginer aussi l’usurpation de surnoms…

3.6.2 Combien de commentaires par surnom (top 20) ?

3.6.3 Quelle est la distribution des commentaires par lover ?

Nous pouvons constater que la majorité des lovers ont commenté 1 ou 2 fois seulement. La forme ressemble curieusement à une loi de puissance15.

3.6.4 Quel évolution des commentaires par surnoms (top 12)?

Comme nous avons pu le voir précédemment, 2011 et 2012 sont les années avec le plus de commentaires. Les surnoms suivent la même évolution. Je m’intéroge sur l’affinité que peuvent avoir certain lovers avec les agences. Voyons si nous pouvons la visualiser.

3.6.5 Quelle répartition des commentaires par surnoms (top 3) ?

Je vous laisse interpréter le résultat.