NOIISE Ressources SEO PDF et SEO : galère… ou opportunité ?

PDF et SEO : galère… ou opportunité ?

10 mars 2022 – Noiise

Un site web est généralement composé de pages HTML liées entre elles, mais de nombreux sites hébergent aussi des fichiers PDF qui sont eux aussi crawlés et indexés par les robots des moteurs de recherche comme Google (que ce soit « à l’insu de notre plein gré » ou non). Si les fichiers PDF sont moins facilement optimisables pour le référencement naturel qu’une page HTML, ils n’en restent pas moins des « portes d’entrées potentielles » puisque Google les indexe et les suggère également sur certaines requêtes. Voici une checklist et quelques conseils qui pourront vous aider à faire de ces fichiers une opportunité pour votre SEO.

Pourquoi utiliser des PDF sur son site web ?

Il existe de nombreuses raisons pour lesquels certaines entreprises hébergent des fichiers PDF sur leur site. Qu’il s’agisse de notices techniques, de brochures marketing, de grilles de tarifs, de communiqués de presse ou encore de livres blanc à télécharger, ces documents peuvent avoir été produits volontairement pour le web, ou avoir été récupérés en version numérique alors qu’ils étaient destinés à l’impression dans un premier temps. Avant de les mettre en ligne, n’hésitez pas à vérifier qu’ils sont bien optimisés pour le SEO, et qu’ils pourront ainsi apporter une vraie plus-value à votre site web (ou tout au moins qu’ils ne risquent pas de compromettre son référencement, car c’est également une possibilité !).

Comment optimiser les PDF pour le SEO ?


Vos fichiers doivent être lisibles par Google

Première étape, il faut vérifier que votre PDF est bien généré à partir d’un logiciel qui ne va pas « aplatir » le texte sous forme d’image (certains logiciels de retouche photo ont cette fâcheuse tendance). En effet cela empêcherait tout simplement Google de pouvoir lire son contenu textuel, alors qu’il s’agit bien du plus important pour lui ! Pour s’assurer que votre PDF est lisible, vous pouvez essayer de sélectionner des portions de phrases et de faire un copier-coller dans un document texte. Si vous y arrivez, c’est que le texte est bien compréhensible par les moteurs de recherche, donc on peut continuer notre checklist.

Optimisez le nom de votre fichier PDF

Il faut ensuite s’assurer que le nom de fichier est bien optimisé pour le SEO. Comme pour les images, vous devez en effet inclure vos principaux mots clés dans le nom du fichier, en remplaçant les espaces par un séparateur de type « – » (tiret du 6). En effet pour rappel le « _ » (underscore) n’est pas considéré comme un séparateur de mots en SEO, donc il est à éviter pour vos fichiers web, de même que les caractères spéciaux ou accentués.

Vous souhaitez évaluer la pertinence du contenu dans votre stratégie ?

Profitez de 30 minutes de consulting stratégique avec un consultant expert de l'agence de content marketing NOIISE !

Bien choisir le titre du PDF

Sachez que l’on peut également optimiser le titre du PDF et que celui-ci est l’équivalent du Title d’une page HTML et sera utilisé par Google pour l’affichage dans les SERP. Pensez donc à choisir un titre comprenant des mots clés évocateurs et à ne pas dépasser environ 60 caractères pour ne pas être tronqué dans l’affichage des SERP de Google. La majorité des logiciels de création ou d’édition de PDF permettent de renseigner le titre du PDF en se rendant dans « Fichier > Propriétés ».

Optimiser les images contenues dans vos fichiers PDF

Les photos comprises dans un document PDF peuvent également disposer d’un « texte alternatif » (équivalent de l’attribut ALT en HTML), il ne faut donc pas oublier de le remplir pour optimiser son SEO et son positionnement sur les mots clés souhaités.

Placer des liens vers et depuis votre PDF


Pour aider le référencement de votre fichier PDF, vous pouvez tout à fait créer des liens internes sur différentes pages de votre site ou même des backlinks depuis des sites web extérieurs vers votre document PDF. Vous pouvez également ajouter des liens à l’intérieur de votre fichier, par exemple vers une page HTML importante pour vous ou vers un article complémentaire, cela permettra de leur transmettre du « jus SEO» et donc de leur apporter plus de visibilité. backlink dans un pdf

Conserver un fichier le plus léger possible

Depuis toujours le poids des fichiers et la vitesse de chargement sont importants sur le web… mais depuis qu’ils font aussi partie des critères de positionnement de Google cela devient d’autant plus crucial pour le SEO. En plus des effets négatifs sur l’expérience utilisateur avec des visiteurs qui quittent immédiatement le site s’il met trop longtemps à se charger, on risque en effet désormais d’avoir un impact directement visible sur le classement dans les SERP de Google. Pour réduire le poids de son fichier PDF, il y a quelques actions simples à mettre en œuvre :

Ce dernier point permet d’éviter que le document ne contienne trop de pages, ce qui évite d’ailleurs aussi de se disperser sur plusieurs sujets, ce qui n’est jamais optimal en termes de SEO.

Assurer la compatibilité avec les anciennes versions de PDF

Pour éviter tout souci de compatibilité au moment de l’indexation, il est recommandé d’enregistrer le fichier dans une ancienne version du format PDF. Cela peut donc être une piste si vous vous rendez compte que le contenu de vos PDF n’est pas bien pris en compte par Google : tentez d’enregistrer le fichier dans une version antérieure.

Les principaux risques liés aux PDF pour le SEO


La duplication de contenu

Google indexe le contenu texte de votre fichier, au même titre qu’il le fait pour une page HTML. Si vous proposez donc exactement le même contenu dans la version PDF et la version HTML, vous risquez de vous retrouver avec de la duplication de contenu. Dans l’idéal il est donc important de prévoir un texte différent sur le PDF ou sur le HTML. Si ce n’est pas possible sachez que vous pouvez toujours utiliser la rustine de la balise « canonical » qui permet d’indiquer à Google qu’il ne doit pas considérer ça comme de la duplication mais qu’il doit se focaliser sur l’url « officielle » qui est celle contenue dans la balise. Mais puisque les documents PDF ne sont pas rédigés en HTML, il est impossible d’y placer une balise canonique classique en intégrant une ligne de code dans la partie <head> du document :

 <link rel="canonical" href="https://www.site-exemple.com/" />

Pour les PDF, il est donc obligatoire d’utiliser l’en-tête HTTP pour donner l’information de la balise canonical en ajoutant dans le fichier .htaccess ou httpd.conf à la racine du site l’instruction suivante :

 <Files ~ "fichier-duplique.pdf"> 
 Link: <link https://monsite.fr/page-duplique >; rel="canonical" 
 </Files>


Une expérience utilisateur limitée par l’absence de navigation

Si un internaute trouve dans les résultats de recherche un de vos PDF, une fois qu’il l’aura consulté il est probable qu’il se sente obligé de repartir puisqu’il n’aura pas accès au menu principal permettant de naviguer dans l’ensemble du site. Pour palier à ce souci n’hésitez pas à inclure des liens et des Call to Action dans votre PDF pour retourner sur la page d’accueil ou continuer la navigation du mieux possible. Cela permettra d’ailleurs si le PDF est transféré à quelqu’un par email de pouvoir faire ramener du trafic direct sur votre site. Enfin, si votre PDF est apprécié, rediffusé et hébergé sur un autre site, ces liens compteront comme autant de backlinks pour votre site web… toujours bon à prendre du point de vue SEO !

Les PDF n’incluent pas de tracking analytics


tracking analytics des pdf Les fichiers PDF ne peuvent pas contenir les balises de code avec le tracking analytics. Un utilisateur qui affiche donc ce fichier dans son navigateur n’est pas comptabilisé comme une « visite » au sens propre du terme. Une des solutions pour avoir des données statistiques de consultation serait éventuellement d’inclure le fichier PDF dans une iframe qui est chargée dans une page HTML trackée, mais cela n’est pas toujours envisageable. Sachez que vous pouvez également ajouter un code de tracking d’évènement directement sur le lien HTML ou sur le bouton à cliquer dans une page pour lire le PDF, ce qui vous permet de savoir combien de fois le fichier PDF aura été téléchargé. Cependant si l’internaute arrive directement sur votre PDF depuis Google, vous n’aurez vraiment aucune possibilité de statistiques ou de tracking.

Connaitre les PDF indexés sur son propre site

Vous souhaitez faire le point sur la gestion de vos PDF ? Pour découvrir le nombre de fichiers PDF que Google a indexé sur votre site, il vous suffit de taper « site:monurl.com filetype:pdf » dans Google. Vous pourrez alors faire le tour des fichiers actuellement présents et indexés sur votre serveur, et décider s’ils doivent être optimisés du point de vue SEO ou désindexés.


Désindexer les PDF de son site

Les fichiers PDF n’étant pas des pages HTML, nous nous ne pouvons pas ajouter de balise meta robots noindex en code HTML pour les faire désindexer. Dans ce cas là, il faudra passer par les entêtes HTTP avec une instruction X-Robots-Tag à ajouter dans le fichier .htaccess ou httpd.conf situé à la racine du site :

<Files ~ "\.pdf$"> 
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Ainsi quand les robots de Google passeront sur le fichier, ils comprendront qu’ils doivent le retirer de leur index. N’hésitez pas à lister aussi vos fichiers PDF dans un fichier sitemap et à le soumettre sur la Search Console pour accélérer le passage de Google sur les fichiers concernés. Une fois les PDF désindexés, il vous faudra également bloquer le crawl de ces fichiers en ajoutant dans le fichier robots.txt situé à la racine du site les instructions suivantes :

Disallow: /*.pdf  #ne pas crawler les fichiers PDF
Disallow: /pdf/   # Bloquer le répertoire /pdf/ (s'ils sont regroupés)

Vous éviterez ainsi une perte de crawl inutile sur ces fichiers, et les robots des moteurs de recherche pourront se concentrer sur les pages vraiment intéressantes en termes de SEO sur votre site.

Conclusion

Les fichiers PDF peuvent être pour votre site web une source de problème pour votre SEO (duplication de contenu, crawl budget perdu, perte de statistiques…) ou une opportunité à saisir (nouvelles portes d’entrée, backlinks…). Comme pour de nombreux autres aspects du référencement naturel, il est surtout important de faire le point sur la situation actuelle et de définir votre stratégie pour gérer au mieux inconvénients de ce format et tirer parti de ses avantages… Et vous, vous en êtes où au niveau des fichiers PDF ?

David Groult, head of SEO Noiise
David Groult
Head of SEO

Issu d’une filière marketing, j’ai rejoint en 2014, Open Linking, agence SEO à Lille en tant que Consultant E-Marketing (SEO / SEA). Désormais Head of SEO du groupe Noiise, j’accompagne mes clients et les équipes SEO dans une quête perpétuelle d’optimisation de visibilité sur Google et les autres moteurs de recherche.