Google vient d’annoncer sur son blog vendredi 25 octobre, sous la plume de Pandu Nayak (VP Search) le déploiement de BERT sur les versions anglophones du moteur de recherche.

Danny Sullivan a présenté BERT comme « le plus gros changement dans l’algorithme du moteur de recherche depuis 5 ans ». Et l’on apprend dans l’article que 10% des requêtes sont impactées par ce changement.

Cette annonce à propos de BERT a déjà provoqué un émoi certain dans le Landernau SEO, la plupart des commentateurs reprenant les phrases enthousiastes de Google.

Mais nombre de commentaires montrent aussi une méconnaissance de l’état de l’art en « Information Retrieval », et il est important à ce stade de faire le tri entre ce qui relève du « coup de comm » chez Google, et de la réalité.

Je prépare un article détaillé sur ce qu’est réellement BERT qui sera publié en Anglais (teasing) sur un nouveau site : IR-Relevant.net (il n’est pas encore en ligne).

Mais en attendant, voici quelques informations essentielles pour décoder ce qui vient de se passer

BERT : qu’est-ce que c’est ?

BERT est un acronyme pour Bidirectional Encoder Representations from Transformers. Oui, ok c’est bien abscons. (Notons que BERT a succédé à ELMO, on sent que les ingénieurs de Google ont été bercés par les émissions de Sésame Street).

Le terme important ici c’est « transformers ».

Les « transformers » sont une nouvelle approche en NLP pour tenir compte du contexte entourant les mots. Avec BERT, on est plus dans un modèle de langue dont l’objectif est de déterminer le terme le plus probable après une suite de termes, on cherche à déterminer les termes les plus probables entre deux suites de termes. Couplé avec des réseaux de neurones profonds, l’approche permet en particulier de trouver les contenus qui sont les meilleures réponses possibles à des questions données.

Et en fait, BERT est déjà utilisé depuis des mois (y compris sur Google France) pour choisir les meilleurs featured snippets. 

La principale nouveauté, c’est que Google a décidé d’utiliser la même technique pour améliorer ses résultats organiques classiques. 

Avant / après BERT sur la requête « do estheticians stand a lot at work ». Oui sur cet exemple, la pertinence de la réponse s’est améliorée.

BERT : une tempête dans un verre d’eau ?

Tout d’abord, quel est l’impact réel de ce changement dans l’algorithme sur les classements ? Probablement moins qu’un Panda ou un Penguin, vu les changements observés sur les pages de résultats US.

Mais ce n’est pas non plus anodin.

Ceci dit, on manque de recul aujourd’hui concrètement pour évaluer l’impact réel. Et les informations lâchées par Google ne sont pas d’un grand secours pour se faire une idée.

Google a pris l’habitude de communiquer sur le pourcentage de requêtes impactées par un changement. Quand ils annoncent qu’une requête sur dix est impactée, cela veut dire qu’un élément au moins de la page de résultats est modifié par le changement d’algorithme. Mais des changements dans les résultats interviennent régulièrement sur nombre de requêtes sans que cela soit lié à un changement radical dans l’algorithme. 

Bref, on l’a vu sur le « mobilegeddon », mesurer le nombre de requêtes impactées ne permet pas de prédire l’impact sur certains sites web ou l’ensemble des sites web.

Des changements qui passeront en partie sous le radar

Vu la nature de ce changement algorithmique, il y’a fort à parier que nombre des changements de classement apportés ne soient que partiellement visibles dans les outils de suivi de positionnement / visibilité. Il faudra regarder les statistiques détaillées d’un site web pour le détecter dans son entièreté.

Pourquoi ? Les requêtes améliorées par cette approche sont celles formulées en langage naturel, sous forme de questions (via Google Voice Search), ou les requêtes complexes. 

L’algorithme de Google ressemble à un mille feuilles aujourd’hui, et sur une requête comme « location studio Bordeaux », il y’a de fortes chances que ce soient des parties anciennes et robustes qui continueront de fournir l’essentiel des résultats.

Pas de changement sur la version française de Google pour le moment

BERT n’a été lancé que sur les versions anglophones de Google. Si son extension à d’autres versions pays/langues est annoncé, la date de ce déploiement n’a pas été précisée.

Donc ne vous précipitez pas pour vérifier vos stats, sur Google FR il ne n’est rien passé le week-end dernier.

Pourquoi il y’a fort à parier que l’impact sera relativement modéré ?

BERT a d’abord été conçu comme une solution aux problèmes posés sur les featured snippets, à savoir : comment trouver la meilleure réponse à une question donnée.

Google a trouvé le moyen d’étendre l’approche pour faire remonter de meilleures réponses à des requêtes complexes ou formulées en langage naturel.

Mais ce n’est que le début : l’approche BERT est lourde, consomme encore pas mal de ressources, ses résultats sont … inégaux (cf les papiers scientifiques parus depuis un an sur le sujet).

Il est donc raisonnable de penser que cette première implémentation dans l’algorithme « mainstream » est forcément limitée pour éviter de dégrader la précision et le rappel du moteur.

Mais demain ?

Cette nouvelle approche représente une réelle avancée dans l’amélioration des moteurs de recherche. Le Graal, c’est d’élaborer un score de pertinence, ou plutôt, un score permettant de classer les meilleures réponses à une question posée. La technique BERT représente un progrès certain dans cette direction. Un avatar de la méthode BERT (ALBERT) a battu récemment d’autres algorithmes dans un benchmark mesurant sa vitesse et son efficacité.

Dans ce domaine, les progrès sont rapides et constants depuis dix ans. Et cela va changer la donne, progressivement.

« On ne peut pas optimiser son site pour BERT » (Danny Sullivan)

Comme pour Rankbrain, Google a déclaré qu’il était peu probable que l’on puisse optimiser son site pour se positionner mieux face à cette nouvelle technique.

Sauf que… bien sûr que si !

Le score produit est bien plus proche de la réalité que le Cosinus de Salton par exemple. Donc les recettes de cuisine à base de keyword stuffing et autres techniques qui ont eu leur heure de gloire en SEO ne marcheront pas bien. 

Mais c’est un score, calculé de manière (encore franchement) imparfaite, et il est donc possible de maximiser ce score en améliorant une page.

Par contre, on ne peut plus transformer des sites « percherons » en « pur sang arabe » comme par le passé. Si vous n’êtes pas une réponse pertinente à la recherche de l’internaute, et bien il sera difficile de sortir du lot.

Concrètement, si votre site propose des recettes de pizzas, et que vous étiez premier sur la requête « meilleure pizza de nice », vous aurez moins de chance demain d’être premier que … la page d’accueil de la meilleure pizzeria de nice !

C’est possible, c’est juste beaucoup plus subtil et compliqué qu’avant…

BERT la preuve de l’avance technologique de Google ? Euh… pas vraiment

L’annonce sur BERT, relayée par Danny Sullivan est-elle un coup de comm de Google ? Oui certainement. Mais ce n’est pas seulement cela.

Google communique sur BERT, parce qu’ils savent que leurs concurrents travaillent sur les mêmes sujets et ne sont pas si à la traîne que ça : il y’a des technologies NLP avancées dans Bing également. 

Les équipes de Google travaillant sur les sujets de NLP à base de machine learning sont effectivement franchement à la pointe. Par contre, les implémentations de leurs découvertes sont restées jusqu’ici… timides. Rankbrain est une application très limitée des Word Embeddings, les annonces sur le « Neural Matching » ont conduit à des améliorations limitées des résultats sur des requêtes peu nombreuses.

Il était donc temps qu’une entreprise qui se veut « AI First » et dont le produit emblématique est son moteur de recherche se mette à réellement implémenter ce savoir faire dans l’algorithme.

Mais ce n’est que le début.

Conclusion : BERT changera la donne … demain, et peut être sous un autre nom/une autre forme.

Le billet sur le blog de Google « The Keyword » à propos de BERT

https://www.blog.google/products/search/search-language-understanding-bert/

La page de Google sur BERT publié en novembre 2018 sur leur blog AI

https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html