Chapitre 3 Exploration
Maintenant que nous sommes armés de nos données, nous allons enfin pouvoir les manipuler et les explorer. J’avoue c’est une des étapes que j’affectionne le plus. J’aime comparer cela au déballage d’un cadeau: l’excitation jusqu’au dénouement. La préparation et le nettoyage des données ont du bon aussi. Cela me permet de me constituer une liste de questions, ce qui est primordial pour l’exploration. Que voulons-nous savoir? Quelles questions se pose notre audience? Comment au mieux puis-je le représenter? L’approche suivante tente de répondre à une série de questions par variable. Commençons par les catégories.
Pour visualiser les graphiques correctement, vous pouvez faire un click droit et les ouvrir dans un nouvel onglet.
3.1 Catégorie
3.1.1 Quelle est la date de publicatiion du premier post ?
adada_tbl3 %>%
filter(!is.na(pub_date)) %>%
filter(pub_date == min(pub_date)) %>%
select(pub_date) %>%
kable() %>%
kable_styling(font_size = 14, bootstrap_options = c("striped", "condensed", "bordered"), full_width = T)
pub_date |
---|
2008-05-27 21:00:00 |
La date semble être le 27 mai 2008. J’ai un vague souvenir de ce moment. Nous avions lancé l’agence moins d’un an auparavant et je me vois encore découvrir pour la première fois adada dans nos anciens bureaux. Plus de 10 ans. Beaucoup de choses se sont passées depuis.
3.1.2 Quel est le rythme des publications par catégorie ?
Les 3 catégories en top position sont : créa, communiqués et carrières. C’est intéressant de constater qu’entre 2013 et 2017, le rythme de rédaction est moins important. Cela semble correspondre aussi à la période où Jérome travaille chez Maison Moderne (2014 - 2018). Voyons cela plus précisément sur un graphique à facette. J’ai tracé 2 lignes correspondant à la période citée plus haut.
Nous voyons effectivement que la production d’articles publiés durant la période entre les 2 verticales jaunes est plus faible. Ce qui sous-entend que durant cette période, l’activité d’adada était moins importante. La catégorie “marque” semble être une des plus récentes. Comparons maintenant l’âge des catégories.
pub_date | category |
---|---|
2008-05-27 | category-crea |
2009-08-24 | category-communiques |
2009-09-20 | category-carrieres |
2010-03-21 | category-concours-dagences |
2011-03-28 | category-online |
2011-07-19 | category-medias |
2011-09-26 | category-interviews |
2014-03-31 | category-visite |
2016-09-07 | category-marques |
2017-11-15 | category-vie-dagence |
2018-01-08 | category-markcom |
2019-01-27 | category-trouver-un-freelance |
2019-10-10 | category-tarifs-medias-luxembourg |
2019-10-30 | category-offres-demploi |
Les 3 dernières catégories, trouver un freelance, tarifs medias luxembourg et offres d’emploi ont été créées en 2019. (Note de Jerome: la catégorie “offres d’emploi” ne date pas de 2019 mais d’une année antérieure.)
3.1.3 Quel est le volume des publications par année ? (top 5 catégories)
Nous observons que le nombre de publications publiées en 2015 (50) est le plus bas et en 2019
(455) le plus haut. Nous pouvons également observer 29 articles sans date avec la valeur NA
pour l’année.
3.2 Agences
Ce volet met en évidence les agences citées dans les titres d’articles. Comme nous l’avons vu plus haut, le listing à été réalisé manuellement en identifiant chaque agence mentionnée.
3.2.1 Combien d’agence répertoriées ?
#> [1] 71
71 agences sont répertoriées dans notre liste.
3.2.2 Quelle répartition des posts avec et sans mention par année ?
Nous observons une répartition plus importante d’articles avec mention de nos 71 agences en début de vie du blog que lors des 2 dernières années. Il serait intéressant de voir en moyenne le trafic généré par ces postes vis-à-vis des postes sans mention d’agence.
3.2.3 Quel volume d’articles par agence (top 10) ?
Binsfeld remporte la mise avec 128
articles suivit de Mikado et de l’Agence VOUS.
3.2.4 Quelle évolution du volume d’articles par agence (top 5)?
L’agence VOUS cumule le plus d’articles jusqu’en 2013 pour prendre la 3?me place en fin 2019 avec
106
articles. Concept Factory a une moins forte accélération sur les 2
dernières années comme illustré sur le graphe suivant. Binsfeld cumule
128
articles les mentionnant.
3.3 Clients
Nous allons maintenant aborder les clients avec quelques questions qui me semblent intéressantes à aborder.
3.3.1 Quel client a été le plus mentionné sur le site ?
POST est la première marque la plus mentionnée avec 36
publications avec
mention (pour rappel, notre vecteur comporte 330 clients). Éditons le graphique pour
comparer les mentions en isolant le groupe “other”.
Intéressant de voir adada en 4e position et l’essentiel en 9e position avec 17 mentions. Mais qu’en est-il de la relation agence et client? Quel client est le plus cité par agence?
3.3.2 Top mention client par agence ?
agency | client | n |
---|---|---|
agence_vous | bgl bnp paribas | 16 |
binsfeld | enovos | 13 |
mikado_publicis | orange | 13 |
concept_factory | tango | 12 |
comed | essentiel | 5 |
idp | losch | 5 |
nvision | bofferding | 5 |
apart | bcee | 4 |
betocee | post | 4 |
betocee | rosport | 4 |
moast | cactus | 4 |
moast | createam | 4 |
moskito | yellow.lu | 4 |
plan_k | moutarderie | 4 |
takaneo | kpmg | 4 |
vanksen | axa | 4 |
wili | ville de dudelange | 4 |
fish_and_chips | auchan | 3 |
lola | tango | 3 |
noosphere | losch | 3 |
L’agence VOUS
et BGL BNP Paribas
sont le premier binôme avec 16
mentions suivi par
BINSFELD
et ENOVOS
. Tiens TANGO
est le client le plus nomé par LOLA
et MIKADO PUBLICIS
… et si nous regardions les liaisons des clients avec les agences?
Pour faire ce graphique nous allons utilser le package tidygraph
et ggraph
. Je ne vais pas
rentrer dans le détail de chaque graphe, cela serait trop long. Néanmoins, je vais
composer au fur-et-à mesure notre graphique.
3.3.3 Quelles interactions entre les agences et les clients ?
3.3.3.1 Placer les agences
3.3.3.2 Définir la taille des agences selon le nombre de connexion.
La taille des noeuds ou sommets (node) est déterminée par le nombre d’arêtes (edges)
sortantes. Plus une agence a des liaisons avec des titres de pages mentionnant un client
plus sa taille sur le graphe sera élevée. concept factory
remporte la mise avec le
plus de clients référencés.
3.3.3.3 Ajoutons les clients
3.3.3.4 Ajoutons les arêtes (edges) aux sommets (nodes)
Et bien, cela en fait des références.
3.3.4 Rendre la visualisation des réseaux interactive
Pour rendre le graphique interactif, nous allons utiliser le package visNetwork
. Ce package
utilise vis.js
et est basé sur les htmlwidgets
. La taille des edges est
calculé en fonctions du node client d’arrivée. Plus le node client a de
connexions (degrés) plus l’épaisseur est élevée.
3.3.5 Quelle est la distribution des degrés client / agence (nombre de connexion)
Dans l’étude des graphes et des réseaux, il est commun de visualiser la distribution des degrés par sommets (cf. noeuds ou node). Pour cela, je transforme ma table pour comptabiliser les connexions sortantes pour les agences (agence -> client) et les connexions entrantes pour les clients (client <- agence).
L’histogramme nous montre que pour les agences, le nombre de connexions sortantes (vers les
clients) se site entre 1
et 40
connexions avec une absence de noeuds entre 20
et 30
connexions. Passé les 30
connexions, nous retrouvons quelques noeuds avec un grand nombre
de connexions.
Il faut distinguer les agences avec le plus grand nombre de connexions des agences avec le plus d’articles publiés. En effet, nous pourrions retrouver une agence avec quelques connexions, mais avec un volume de post élevé (5, 10 ou 20 articles mentionnant le même client.) Pour vérifier cela, nous allons créer une table comportant par agence/client le nombre d’articles et leur degré (nombre de connexions).
3.3.6 Y a-t-il une corrélation entre le degré d’un noeud et le nombre de publication ?
Nous observons une corrélation positive, c’est-à-dire que plus le nombre de publications pour l’agence est élevé plus le nombre de connexions augmente. Calculons la valeur de notre coefficient de la régression linéaire en jaune et dont la pente est inférieure à 1.
entity_type | intercept | coeff |
---|---|---|
agency | 2.5445932 | 0.3154301 |
client | 0.8585339 | 0.2329407 |
Que nous disent ces valeurs ? Et bien le modèle nous indique que par article supplémentaire, une agence obtient 0.31 degré en plus. Il faut donc 3.22 (1/0.31) articles pour avoir un degré supplémentaire. Et qu’un client est mentionné par une nouvelle agence tous les 4.38 (1/0.22) articles.
3.3.7 Quel est le taux de mention client unique par post ?
Si nous prenons le degré du noeud (NDLR: nbr. connexions) et nous rapportons cela aux
nombres de posts, nous avons un taux de mention unique de client par publication. Plus ce taux se
rapproche de 1
plus l’agence mentionne de clients différents par post. Pour simplifier, si
à chaque article (post ou publication) l’agence mentionne un nouveau client, l’agence (ou
noeud) augmente d’un degré. Si ce comportement est systématique (disont 10 articles
au total avec 10 mentions de client différent), le résultat de ce rapport sera de
1
.
entity_type | entity | degree | total_pub | unique_mention_rate | rank |
---|---|---|---|---|---|
agency | cropmark | 10 | 10 | 1.00 | 1 |
agency | gotcha | 2 | 2 | 1.00 | 1 |
agency | lightbulb | 1 | 1 | 1.00 | 1 |
agency | bunker_palace | 9 | 11 | 0.82 | 2 |
agency | skill_lab | 9 | 11 | 0.82 | 2 |
agency | bizart | 16 | 22 | 0.73 | 3 |
agency | push_the_brand | 8 | 11 | 0.73 | 3 |
agency | 101_studios | 10 | 14 | 0.71 | 4 |
agency | graphisterie_générale | 6 | 9 | 0.67 | 5 |
agency | takaneo | 11 | 17 | 0.65 | 6 |
agency | nvision | 14 | 22 | 0.64 | 7 |
agency | dechmann | 13 | 21 | 0.62 | 8 |
agency | accentaigu | 5 | 8 | 0.62 | 8 |
agency | a3com | 9 | 15 | 0.60 | 9 |
agency | moskito | 17 | 29 | 0.59 | 10 |
agency | moast | 7 | 12 | 0.58 | 11 |
agency | groupe_get | 5 | 9 | 0.56 | 12 |
agency | comed | 30 | 59 | 0.51 | 13 |
agency | h2a | 13 | 26 | 0.50 | 14 |
agency | mefa | 1 | 2 | 0.50 | 14 |
agency | kosmo | 1 | 2 | 0.50 | 14 |
agency | concept_factory | 39 | 83 | 0.47 | 15 |
agency | apart | 6 | 13 | 0.46 | 16 |
agency | vanksen | 34 | 75 | 0.45 | 17 |
agency | lola | 14 | 32 | 0.44 | 18 |
agency | human_made | 4 | 9 | 0.44 | 18 |
agency | plan_k | 20 | 48 | 0.42 | 19 |
agency | wili | 14 | 33 | 0.42 | 19 |
agency | idp | 13 | 32 | 0.41 | 20 |
agency | fish_and_chips | 4 | 10 | 0.40 | 21 |
agency | explose | 4 | 10 | 0.40 | 21 |
agency | noosphere | 15 | 38 | 0.39 | 22 |
agency | interact | 5 | 13 | 0.38 | 23 |
agency | mad_about_soul | 4 | 11 | 0.36 | 24 |
agency | mad_about | 4 | 11 | 0.36 | 24 |
agency | shine_a_light | 2 | 6 | 0.33 | 25 |
agency | georges | 1 | 3 | 0.33 | 25 |
agency | vidale_gloesener | 1 | 3 | 0.33 | 25 |
agency | antidote | 1 | 3 | 0.33 | 25 |
agency | betocee | 5 | 16 | 0.31 | 26 |
agency | mikado_publicis | 32 | 110 | 0.29 | 27 |
agency | knewledge | 2 | 7 | 0.29 | 27 |
agency | advantage | 5 | 18 | 0.28 | 28 |
agency | binsfeld | 35 | 128 | 0.27 | 29 |
agency | agence_vous | 28 | 106 | 0.26 | 30 |
agency | studio_polenta | 1 | 5 | 0.20 | 31 |
agency | ludwig | 1 | 5 | 0.20 | 31 |
agency | maison_moderne | 3 | 25 | 0.12 | 32 |
agency | mediation | 1 | 8 | 0.12 | 32 |
Où se situent les agences si nous ajoutons comme variable la somme des publications ? Nous obtenons une matrice de positionnement entre le taux de mention unique et le nombre de publications.
C’est intéressant de voir qu’aucune agence ne se positionne dans la partie
droite-haut. Cette place voudrait dire que l’agence a un nombre élevé de
publications et que son taux de mention unique est au-dessus de 50%. Donc beaucoup
d’actualités pour beaucoup de clients différents. Prenons l’agence VOUS, son taux
de mention unique est de 0.27
et le total d’articles la mentionnant est de 106
. Après
une transformation min-max (soit remis sur une échelle entre 0 et 1) la valeur est de
0.82
, soit à 82% du score de Binsfeld ici. Nous pourrions remplacer l’axe des
abscisses par la part de marché des publications (le pourcentage de publication par
agence sur le total des publications) mais le résultat serait le même en terme de graphe. Au lieu d’une valeur de 1 pour Binsfeld, nous aurions une valeur de 10.9%
. (
cf. graphe 4.1.1). Que faire de tout cela ? Et bien, nous pourrions peut-être développer
une stratégie de diversification, c’est é dire communiquer à adada des
contenus en variant un maximum les clients. Cela pourrait faire sens si nous pouvions
corréler cela à une augmentation du trafic en provenance d’adada vers le site
de l’agence ou des sollicitations clients par référence et donc en faire un
indicateur de valeur (KPI).
Cela dit, est-il possible de multiplier les publications tout en diversifiant les mentions ? In fine et avec le temps, un nombre de répétitions de clients sera inévitable. En effet le marché est limité et les grands comptes aussi. Nous aimons en tant qu’agence communiquer sur des grands comptes. Faut-il pour les agences à droite du graphe communiquer un peu plus sur des clients à moindre notoriété…qui sait le bien que cela ferait à tous ces clients non-cités ?
3.3.8 Evolution des degrés par agence (top 5)
L’évolution des degrés avec les années. Chaque point représente une nouvelle connexion. Nous entendons (pour ceux qui n’ont pas suivi jusqu’ici) par là, une nouvelle mention d’un client pas encore cité.
3.3.9 Quelle chronologie pour les clients mentionnés ?
Si nous isolons les agences dont le nombre de mentions est supérieur à 15.
#> [[1]]
#>
#> [[2]]
#>
#> [[3]]
#>
#> [[4]]
#>
#> [[5]]
#>
#> [[6]]
#>
#> [[7]]
#>
#> [[8]]
#>
#> [[9]]
3.4 Heures & jours
Comme nous avons pu isoler les heures et dates pour chaque publication (pour peu que la timezone wordpress soit la même que nous), il nous est donc possible d’identifer les jours et mois sur l’année plus prolifique en terme de publications. Je parie que le dimanche soir est une tranche bien active. Vérifions cela.
3.4.1 Quels sont les jours et les heures présentant la plus grande fréquence de publication ?
La publication des articles se fait selon 3 zones en semaine. le matin jusque midi, puis de 14 à 18h et enfin après 20h en début de semaine. Arrivé le vendredi et samedi, les publications du matin se font plus tardives avec très peu le soir. Enfin le dimanche semble effectivement la journée la plus productive avec une fréquence de publication plus soutenue après 18h pour atteindre un sommet dans la tranche de 20h. Je pense qu’il s’agit surtout de la publication des posts présentés dans la newsletter du dimanche soir. D’ailleurs, si vous n’êtes pas abonnés, abonnez-vous!
3.5 Commentaires
Nous y voici. Parler d’adada, c’est aussi parler des commentaires parfois virulents publiés par certains lecteurs. Souvent de manière masquée, parfois assumée. Néanmoins cela fait partie du jeu et ne pas répertorier, analyser cette partie serait passer à côté du sujet. Nous allons comme pour la partie précédente commencer par comptabiliser les interventions.
3.5.1 Quel est le nombre de commentaires ?
#> [1] 1808
Le site comptabilise 1,808
commentaires. C’est pas mal.
3.5.2 Quelle proportion de posts avec ou sans commentaires ?
Nous observons que 71%
des articles publiés n’ont pas de commentaire contre 29%
avec commentaires.
3.5.3 Quelle évolution du taux d’interaction ?
Nous observons une diminution du taux d’interaction sur l’ensemble des publications par
catégorie, quelle que soit la catégorie. 2013
marque un changement. Comme il s’agit
d’un ratio, le nombre d’interactions pourrait être stable (comprenez par là qu’un
même volume de posts soit commenté) mais étant donné le
développement de la production de publication sur les dernières années, la
diminution est évidente.
3.5.4 Quelle évolution des posts avec commentaires ?
Le graphique nous montre que le volume d’articles commentés dépasse les articles non
commentés courant 2011
. Passé 2017
, la tendance s’inverse pour
s’accélerer.
3.5.5 Quel est le nombre moyen des commentaires par article ?
adada_tbl3 %>%
distinct(title, comments) %>%
group_by(commented = !is.na(comments)) %>%
filter(commented) %>%
ungroup() %>%
count(title) %>%
summarise(sum = sum(n), mean = mean(n), max = max(n), top_article = title[n == max(n)])
#> # A tibble: 1 x 4
#> sum mean max top_article
#> <int> <dbl> <int> <chr>
#> 1 1808 3.34 25 les internautes ont voté : advantage remporte le concours c…
Nous avons en moyenne 3,34
commentaires sur les articles commentés. Nous avons même
un article avec 25 commentaires! Je ne m’en souvenais pas mais c’était l’annonce des
résultats du concours adada. Advantage avait
gagné14
3.5.6 Quel intervalle le plus court et le plus longue pour un commentaire ?
Comme nous avons récupéré l’heure de chaque commentaire, nous pouvons
calculer la durée de l’intervalle entre la publication du post et le premier
commentaire. Nous allons utiliser le package lubridate
pour transformer nos 2
dates en
intervalle, calculer sa longueur et enfin transformer cette valeur en durée. Voyons quel
post comprend le commentaire le plus rapide.
#> # A tibble: 1 x 5
#> title int_length interval lovers comments
#> <chr> <dbl> <Duration> <chr> <chr>
#> 1 atypical, l… -281454660 281454660s (~8.92 years) Marc Ha… Merci a Will Kreutz…
Et bien. Encore Will Kreutz. Cette fois, il s’agit de Marc Haentges avec son commentaire arrivé presque 9 ans
après!
#> # A tibble: 1 x 5
#> title int_length interval lovers comments
#> <chr> <dbl> <Duration> <chr> <chr>
#> 1 entrevue avec will… -600 600s (~10 minutes) adada Merci pour l’intervi…
Cette fois, il s’agit de adada avec son commentaire arrivé presque 10 minutes
après!
3.5.7 Quel évolution du délai avant le premier commentaire dans le temps ?
Nous allons visualiser sur la ligne du temps le délai avant le premier commentaire.
Le modèle nous montre qu’il n’y a pas vraiment de conclusion à tirer sur une quelconque tendance. En effet, la régression linéaire passe au travers de beaucoup de bruit. Passons à la suite.
3.5.8 Quel nombre de commentaires reçu par agence ?
Le résultat n’est pas vraiment une surpise. L’agence VOUS a eu beaucoup de commentaires. Ceux-ci étaient même parfois très… comment dire… très sympa :-) Voyons à présent l’évolution dans le temps.
On voit clairement cette diminution dans le temps, peu importe l’agence. On remarque aussi que l’agence VOUS n’a reçu aucun commentaire en 2013
. La raison est simple : L’agence n’a eu aucune publication cette année-là…
3.6 Lovers
Chaque commentaire a son corbeau :-). Si vous suivez adada depuis toutes ces années, les surnoms vous sont certaienemnt familiers. Raoul
, bizness
, madinina
vous vous reconnaitrez surement.
3.6.1 Combien de lovers ?
#> [1] 552
Nous avons un total de 552
lovers. C’est pas mal. Ce nombre représente à mon avis
moins de personnes parce que certains surnoms sont écrits avec des variations (majuscule,
abréviation, etc.). Je peux imaginer aussi l’usurpation de surnoms…
3.6.2 Combien de commentaires par surnom (top 20) ?
3.6.3 Quelle est la distribution des commentaires par lover ?
Nous pouvons constater que la majorité des lovers
ont commenté 1
ou 2
fois seulement. La forme ressemble curieusement à une loi de puissance15.
3.6.4 Quel évolution des commentaires par surnoms (top 12)?
Comme nous avons pu le voir précédemment, 2011
et 2012
sont les années avec le plus de commentaires. Les surnoms suivent la même évolution. Je m’intéroge sur l’affinité que peuvent avoir certain lovers avec les agences. Voyons si nous pouvons la visualiser.
3.6.5 Quelle répartition des commentaires par surnoms (top 3) ?
Je vous laisse interpréter le résultat.