Hosting Peru

y Registros de Dominios

CENTRAL :
(511) 578 6934

Preguntas Frecuentes - FAQ

Publicación : 2011-02-19 03:48:20

Â¿ QuÃ© es un archivo robots.txt ?

El fichero robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots de buscadores cumplan (recomendaciones, no obligaciones)

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las pÃ¡ginas web de un sitio para buscar informaciÃ³n en ella, aÃ±adirla en los buscadores, etc. TambiÃ©n son llamados spiders, araÃ±as, bots o indexadores.

Por ejemplo, Googlebot es el nombre del crawler del buscador Google. TambiÃ©n existen otros como:

■Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
■Googlebot-Image, robot indexador de imagenes del buscador de Google.
■Slurp, crawler de indexaciÃ³n del buscador Yahoo!
■noxtrumbot, del buscador Noxtrum.
■Scooter, del buscador Altavista.
Y muchÃsimos mÃ¡s. Si establecemos un control en nuestro robots.txt, podremos conseguir una serie de beneficios:

■Impedir acceso a robots determinados: Puede parecer contradictorio, pero algunos crawlers no nos proporcionarÃ¡n sino problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos. Pero de eso ya hablaremos mÃ¡s tarde.
■Reducir la sobrecarga del servidor: PodrÃ¡s controlar el flujo de algunos robots. Algunos de ellos son un verdadero descontrol de peticiones que pueden llegar a saturar tu servidor.
■Prohibir zonas: Nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores.
■Eliminar contenido duplicado: Uno de los casos mÃ¡s importantes, que casi siempre es olvidado por los webmasters. Si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
■Fijar mapas del sitio: TambiÃ©n es posible acoplar un sitemap para indicar el buen camino a los robots.
Â¿Y entonces, que hay que hacer? Es muy sencillo.

SÃ³lo tenemos que crear un fichero de texto robots.txt y comenzar a escribir en el. PartirÃ© del siguiente ejemplo donde permitimos la entrada a todos los crawlers (igual que sin ningÃºn robots.txt):

User-agent: *
Disallow:
En User-agent debemos introducir el nombre del robot, y a continuaciÃ³n las rutas donde queremos prohibir que acceda. Algunos ejemplos:

■Disallow: / prohibe la entrada a todo el sitio.
■Disallow: /foro/ prohibe la entrada a los documentos del directorio foro.
■Disallow: permite la entrada a todo el sitio.
En algunos casos suele utilizarse en lugar de Disallow, la palabra Allow. Aunque por definiciÃ³n es correcta, es conveniente no utilizarla, puesto que las rutas omitidas se asumen que estÃ¡n permitidas por defecto, y algunos crawlers no entienden la palabra Allow.

Es posible acumular varios Disallow bajo un mismo User-agent, pero no podemos utilizar varios User-agent encima de un Disallow. Bien, algÃºn ejemplo:

# Crawler de MSN
User-agent: msnbot
Disallow: /links.html
Disallow: /private/
Disallow: /photos/
Este cÃ³digo impide al crawler del buscador de Live (MSN) acceder a la pÃ¡gina links.html, y las carpetas private y photos (y todo su contenido) de nuestro sitio.

AÃ±adiendo el carÃ¡cter # al principio de una linea podemos escribir comentarios que no interpretarÃ¡ el crawler.

Es posible ir acumulando reglas para distintos crawlers, formando un robots.txt mÃ¡s largo y completo. Cada vez que escribamos un User-agent deberemos dejar una linea en blanco de separaciÃ³n. AdemÃ¡s, existe una ligera adaptaciÃ³n que permiten usar comodines ($ y *) en las rutas en algunos crawlers (sÃ³lo Googlebot y Slurp):

User-agent: Slurp
Disallow: /*.js$
Disallow: /2006/*
Disallow: /2007/*
Disallow: /articulos/*/pagina/*
Se estÃ¡ indicando al robot de Yahoo, que no indexe los ficheros que terminen en .js (javascript), direcciones que empiecen por 2007 o 2006 (fechas), ni artÃculos con la palabra pagina (paginado de comentarios). Estos casos pertenecen a la idea de no indexar contenido duplicado.

En la mayorÃa de los blogs, puedes acceder a un mismo artÃculo por las direcciones:

■blog.com/articulo/titulo, la direcciÃ³n principal.
■blog.com/2007/04/, el archivo del mes.
■blog.com/articulo/titulo/feed, feed RSS del artÃculo.
■blog.com/articulo/titulo/pagina/2, pagina 2 de comentarios.
Todo esto es contenido duplicado, una de las razones mÃ¡s importantes de penalizaciÃ³n para un buscador, a no ser, claro, que te las ingenies para que sÃ³lo sea accesible desde una direcciÃ³n. A la hora de ver los resultados te asombrarÃ¡s lo bien que estarÃ¡s quedando ante los ojos de Google, por ejemplo.

Hay que tener mucho cuidado con usar cosas como Disallow: /pagina o Disallow: /*pagina, puesto que en lugar de bloquear lo que querÃamos (carpeta pagina o artÃculos paginados), terminen bloqueando direcciones como /decorar-mi-pagina o /paginas-para-amigos/.

Si revisas estadÃsticas y demÃ¡s, tambiÃ©n puedes observar que a veces algunos crawlers Â«se pasanÂ» revisando nuestro sitio, y funden a peticiones a nuestro pobre servidor. Existe una manera de tranquilizar a los robots:

User-agent: noxtrumbot
Crawl-delay: 30
Con esto le decimos al robot de noxtrum que espere 30 segundos entre cada acceso. Cuidado, porque Crawl-delay no lo soportan todos los crawlers (al menos MSNBot y Slurp si lo soportan, y Googlebot desde el panel de webmasters tambiÃ©n).

Finalmente, podemos tambiÃ©n incluir un mapa del sitio en nuestro robots.txt de la siguiente forma:

Sitemap: http://www.inkawebdesign.com/sitemap.xml
En RobotsTXT.org podrÃ¡s encontrar documentaciÃ³n oficial si quieres profundizar y en esta bÃºsqueda de Google encontrarÃ¡s muchos robots.txt de ejemplo, incluso robots.txt optimizados para tu tipo de web. AdemÃ¡s, tambiÃ©n tienes un validador de robots.txt.

Publicación : 2011-02-19 03:48:20