+33 (0) 3 20 74 03 24

Vous connaissez probablement le code d’erreur 404 qui vous indique que la page web que vous recherchez n’a pas été trouvée.

Nous sommes tous un jour « tombés » sur ces pages d’erreur, avec un message plus ou moins original nous invitant à recommencer notre recherche.

Mais avez déjà entendu parler de ce terme : les « soft » 404, à ne pas confondre avec l’erreur 404.

Les Soft 404 sont totalement différentes. Nous allons donc ici les définir et expliquer leur impact sur votre référencement et l’expérience utilisateur de votre site

Tout d’abord, voici la définition donnée par le moteur de recherche Google :

Une erreur « soft 404 » renvoie une page informant l’internaute que l’URL qu’il recherche n’existe pas ainsi qu’un code de niveau 2xx (réussite). Dans certains cas, il peut s’agir d’une page avec peu ou pas de contenu (page peu renseignée ou vide, par exemple).

Nous sommes donc face à une page qui n’apparait pas dans les rapports d’erreurs 404 mais qui pourtant n’est pas visible par l’internaute.
Le terme « soft » ne doit surtout pas vous induire en erreur, celles-ci peuvent avoir un impact sur votre référencement. Il est donc nécessaire de les éviter.

Qu’est-ce qu’une erreur de type 404 ?

Plus précisément, un message d’erreur 404 se produit lorsque le serveur d’un site web renvoie un code de réponse HTTP 404 pour signifier qu’il n’a pas pu trouver la page web (URL) demandée par l’utilisateur. Ainsi, le navigateur internet et les robots des moteurs de recherche sont informés.

Il s’agit d’un comportement normal, mais qui peut être facilement identifier par les robots qui limiteront ainsi l’impact sur votre SEO. Bien sûr, ces pages 404 n’ont pas vocation à rester présente sur le site ad vitam aeternam, et devront être mise à jour ou rediriger vers une page disponible.

Qu’est-ce qu’une erreur de type Soft 404 ?

Attention, le nom d’une page, l’url, son contenu peuvent tout à fait indiquer le terme « page d’erreur » ou « page 404 », cela ne fait en rien une réponse 404. C’est bien le code retour envoyé qui définie le type de la page.

Nous pouvons tout à fait avoir une url de type /erreur404, un title « Page d’erreur 404 », un contenu « Oups cette page a été supprimée, voici comment redéfinir votre navigation » et malgré tout avoir un code retour 200 qui indique à l’internaute et aux robots que votre page est « en bonne santé » et doit continuer d’être crawlé et indexé.

Soft 404 chat

Un chat a beau afficher « Je suis un chien » sur un panneau, il restera toujours un chat.

De même, ce n’est pas parce qu’une page indique 404 qu’elle renvoie un code d’état 404.

Vous l’avez compris, une page Soft 404 se produit lorsqu’une page inexistante (une page qui a été supprimée) affiche un message « page non trouvée » à toute personne qui tente d’y accéder mais ne renvoie pas de code d’état HTTP 404.

Ainsi, Google continue d’explorer et d’indexer ces pages, gaspillant du budget crawl.

En ne fournissant pas de code 404, votre site web indique aux moteurs de recherche qu’il y a une page indexable et intéressante à crawler. Par conséquent, l’URL que vous avez supprimée (sans contenu) sera explorée et indexée, gaspillant ainsi un précieux budget d’exploration pour des pages de mauvaise qualité.

Pour rappel, Google n’accorde à votre site qu’un temps de crawl et un nombre d’URLs crawlés restreint. C’est assez logique, il existe des milliards d’URLs à crawler à travers le monde du web, cela représenterait un coût absolument faramineux, même pour Google de toutes les explorer chaque jour. Il est donc logique qu’il attribue un « budget » à ses explorations avant de passer à un autre site web.

Vous devez donc veiller à ce qu’il ne visite que les pages stratégiques de votre site et ne passe pas du temps sur des pages inutiles.

 

Comment détecter une erreur Soft 404 ?

La Search Console vous permet d’avoir un retour sur ces pages en SOFT 404 dans son rapport de couverture. Il faudra ensuite analyser les URLs concernés et comprendre le système qui a généré cette erreur car elle pourra se reproduire.

Soft 404 Search Console

Dans le rapport « Erreurs », nous avons ici 30 urls considérés comme des soft 404, alors qu’elles ont été communiquées via le sitemap.

soft 404 search console erreur

Dans le rapport « Exclues », nous avons 237 URLs qui ont été crawlés mais excluent suite à une détection par Google d’une soft 404.

Ainsi, nous avons 267 URLs qui ont été crawlés par GoogleBot, et qui ont gaspillé le budget crawl.

 

Comment éviter les Soft 404 ?

Certaines pages peuvent devenir des erreurs soft 404 tout simplement parce que le contenu n’a pas pu être chargé.

Cela peut être lié à un blocage de contenu via le robots.txt (est ce qu’une ligne empêche un fichier important pour l’affichage d’être chargé par les robots ?), un code tiers défaillant (la ressource n’est pas disponible) ou tout simplement parce que le site n’a pas de bonnes web performances et que le contenu met trop de temps à être chargé.

Nous retrouvons également parfois ces erreurs soft 404 sur des pages Produits dont le stock n’est plus disponible.
Certains CMS, comme Prestashop, peuvent alors affichés une page très pauvre en contenu indiquant que le produit n’est plus disponible.

Il est donc indispensable d’être vigilants sur ces 3 facteurs pour détecter d’éventuelles erreurs soft 404. Vous avez plusieurs solutions pour éviter ces erreurs soft 404

  • Rediriger en 301 les pages obsolètes
  • Vérifier les scénarios de chargement de la page, et s’assurer que les fichiers nécessaires à l’affichage d’un contenu soient bien disponibles pour les robots en tout temps et rapidement.
  • Ajouter du contenu et mettre à jour la page concernée si celle-ci manque d’informations.