martes, 1 de febrero de 2011

PDF noindex please

Es muy normal limitar el acceso de los robots de búsqueda a ciertos contenidos. Nos referimos a robots.txt y del meta-robots.
Con esto podemos controlar elementos generales de un sitio o carpetas. También páginas o tipos de ficheros.
El problema está cuando surge la situación en la que no deseamos indexar los PDF por que todos los demás elementos se pueden noindex por el método particular.
Es por ello que existe la directiva HTTP X-Robots-Tag la cual en un simple encabezado permite enviar información como la del meta-robots pero vía servidor web.

Un pequeño ejemplo de encabezado sería:
X-Robots-Tag: noindex
De esta forma diremos al robot que haya solicitado el fichero que no lo indexe.
Tambien cabe la posibilidad de hacer cosas como:
X-Robots-Tag: noarchive, nosnippet

En este caso no mostrará el enlace a la caché y ningún tipo de resumen (snippet) en los resultados de búsqueda.