Faut-il toujours se fier aux tests A/B ?

Julien Laureau
6 min readJun 16, 2020

--

Ne vous y trompez pas, le but de ce billet n’est pas de vous décourager de lancer des tests A/B. En tant que designer pour un site e-commerce, je leur trouve des qualités et je les utilise régulièrement. Comme le dit Jeff Bezos, le CEO d’Amazon : “pour inventer, il faut expérimenter” et les tests A/B servent précisément à cela.

Ceci étant dit, je trouve aussi qu’ils ont quelques inconvénients. Dans la suite de ce billet, j’aborderai six défauts des tests A/B. Je laisserai de côté les risques liés aux erreurs d’analyses déjà beaucoup traités dans d’autres articles pour me concentrer sur les problèmes intrinsèques à cet outil peut-être moins connus.

C’est quoi un test A/B ?

Le test A/B est un instrument d’optimisation beaucoup utilisé en marketing et en conception. Il consiste à lancer simultanément différentes variations d’un écran dans le but d’identifier l’option que les utilisateurs préfèrent. On peut également essayer des combinaisons de plusieurs variables, on parle dans ce cas de test multivarié.

Les tests A/B sont utilisés pour éprouver rapidement des hypothèses et améliorer un produit de façon itérative. Concrètement, on scinde les utilisateurs en différents échantillons et l’on propose à chaque groupe une version originale de la page. On regarde ensuite quelle variation donne les meilleurs résultats selon l’objectif à atteindre.

Cette procédure est extrêmement pratique, mais comme je l’ai dit, elle a aussi quelques inconvénients…

1. Ils nous rendent dépendants et excessivement prudents

Avoir un outil de test A/B à sa disposition fait naître des envies compulsives. On se met à tester n’importe quoi, par excès de prudence ou par habitude. Plus vraiment besoin de réfléchir puisque l’on peut tout soumettre à la sentence des utilisateurs. Malheureusement c’est bien souvent inutile ou contre-productif…

Le test A/B ne permet d’apprécier les problèmes que sous l’angle dichotomique de l’acceptation ou du rejet. Les choses étant souvent moins manichéennes, aucun arbitrage véritablement complexe ne devrait faire l’objet d’un test A/B.

Par ailleurs, s’appuyer sur les tests A/B pour valider l’ensemble des changements visibles de l’utilisateur ralenti considérablement l’innovation. On prend aussi le risque d’être incohérent (les choix des gens variant selon les contextes) ou convenu (le goût moyen tendant par nature vers un certain conformisme). Enfin, on peut passer à côté d’idées géniales, certains concepts audacieux ayant besoin de temps pour s’imposer. On ne peut pas tout tester. On ne doit pas tout tester. Il faut aussi accepter une certaine part de risque pour innover.

2. Ils n’ont pas grand-chose à nous apprendre

Un test A/B permet d’écarter les variations moins performantes d’un écran. C’est déjà très bien me direz-vous, et pour certains c’est assez. Une version l’emporte, les autres perdent. On conserve la gagnante et l’on se débarrasse des restantes. Pour d’autres, dont je fais partie, cette approche est très insuffisante. En effet, si l’on ne comprend pas les raisons de succès ou d’insuccès d’un écran, on peut répéter les mêmes erreurs plusieurs fois ou écarter un peu vite des options potentiellement intéressantes.

Toute étude quantitative (tests A/B, sondages) devrait être couplée à une étude qualitative (interviews, tests utilisateurs) pour en comprendre et en interpréter au mieux les résultats. Le test A/B seul est rarement suffisant.

3. Ils induisent des calculs à courte vue

Les tests A/B sont parfaits pour mesurer des écarts statistiques sur une période limitée. Ils sont moins efficaces pour monitorer des évolutions plus lentes. Par ailleurs, des succès de court terme peuvent cacher des problèmes à plus longue échéance.

Sur un site e-commerce par exemple, une approche marketing très agressive sur une fiche-produit peut augmenter le taux de conversion pendant quelques jours tout en dégradant suffisamment l’expérience pour décourager certains utilisateurs de revenir.

L’évolution rapide du taux de conversion est facile à mesurer. Il est plus compliqué de déterminer qu’une fonctionnalité particulière nuit à un indicateur qui fluctue plus lentement, comme la CLV (Customer Lifetime Value) par exemple. Dans les faits, le succès nous force un peu la main : les variations gagnantes sont mises en production, sans que l’on ne connaisse leur impact dans la durée. On sait ce que l’on gagne, mais on ne peut pas toujours mesurer ce que l’on perd.

4. Ils nous imposent leur rythme et restreignent l’expérimentation

Pour que des tendances statistiques significatives émergent, un test A/B doit parfois durer plusieurs semaines. On essaye aussi de ne pas exposer un même utilisateur à plusieurs tests simultanés. Enfin, on tient compte de la saisonnalité en évitant de lancer des campagnes de tests à certains moments de l’année. Sur un site e-commerce par exemple, la période qui s’étend du Black Friday aux fêtes de Noël est en général à éviter. Pour toutes ces raisons, même avec un trafic important, la bande passante pour réaliser des tests A/B est relativement limitée.

En conséquence, on a tendance à réduire le nombre d’itérations sur un même test. Lorsqu’une campagne donne des résultats mitigés, il faudrait en théorie continuer d’expérimenter de nouvelles variations jusqu’à ce qu’une tendance claire se dégage. En pratique, il est assez courant de s’en tenir à la version de contrôle, de se débarrasser des autres pistes et de laisser la place à d’autres tests. Combien d’idées géniales ont été tuées dans l’oeuf par ce type de décision ?

5. Ils peuvent limiter nos ambitions

Les tests A/B ne permettent pas de mesurer correctement l’impact de plusieurs évolutions simultanées. Si l’on modifie différents éléments au sein d’un écran ou d’un parcours, il est ensuite impossible de déterminer avec précision ce qui a permis à la variation gagnante de l’emporter. Les tests multi-variés offrent un peu plus de souplesse, mais restent tout de même très contraints. Une campagne de test correctement menée est donc limitée à quelques variables : aspect, positionnement, texte…

Cependant, on ne peut ignorer qu’au sein d’un écran ou d’un parcours, tous les éléments visibles de l’utilisateur interagissent et qu’il est impossible d’obtenir certains résultats sans agir simultanément sur plusieurs facteurs. L’architecture de l’information est une science complexe. Pour filer la métaphore bâtisseuse, on n‘imagine pas modifier sensiblement un édifice en changeant simplement les poignées de porte.

L’excès de prudence qui nous conduits à tester trop de choses finit donc aussi par restreindre nos ambitions. Les limites des tests A/B nous contraignant à évaluer de toutes petites modifications, on finit par s’habituer à avancer (et reculer) à pas de fourmi. Et pendant ce temps-là, les chantiers réellement complexes sont ajournés.

6. Ils peuvent constituer un héritage compliqué

Je ne crois pas dévoiler un secret en disant que les tests A/B sont généralement développés un peu vite. Ce n’est d’ailleurs pas anormal, l’essentiel du code finissant généralement à la poubelle. Le problème, c’est qu’à l’issue de l’expérimentation, tout le monde est très pressé de mettre la variation gagnante en production, qu’on ne prend pas toujours le temps d’améliorer le code existant et qu’on accumule ainsi de la dette technique.

Ce legs embarrassant n’est pas le seul héritage des tests A/B. Lorsqu’une variation ne donne pas les mêmes résultats dans tous les pays, il est alors tentant de l’implémenter au cas par cas. Adapter son produit aux différents contextes culturels n’est absolument pas un problème, au contraire. Néanmoins, chaque exception locale peut rendre plus compliquées les évolutions futures et cette dette fonctionnelle finit toujours par se payer.

Pour conclure

Vous l’aurez compris, je ne crois pas que le test A/B soit la solution-miracle à tous les problèmes. Ce n’est qu’un instrument, et ce qui compte en définitive, c’est ce que l’on en fait. Si vous l’utilisez mal ou de façon trop intensive, il y a des chances qu’il vous conduise dans la mauvaise direction. Choisir de s’en passer complètement est tout aussi risqué. Comme souvent, tout est une question d’équilibre. J’espère que les quelques points soulevés dans cet article vous aideront à trouver le bon.

N’hésitez pas à me compléter ou me contredire dans les commentaires. Si cet article vous a plu, je vous invite à le partager et le liker.

--

--