Entre Códigos


El blog de Rubén Cantón

Reflexiones de un cerebro en fuga y artículos sobre posicionamiento, e-marketing, usabilidad y otros tecnicismos.

greyimg

Robots.txt, nofollow y noindex

Escrito por Ruben Cantón el Friday, 30 de November del 2007
Más del mismo tema: seo

Hasta ahora he comentado los trucos y mejoras en tu web para permitir que los buscadores la indexen pero, como es normal, hay zonas o secciones que no queremos que indexen, como el área privada de los usuarios o páginas con el mismo contenido pero menor relevancia.

Pueden ser muchos los motivos por los que no quieras indexar una página o incluso una web entera, por ejemplo que está en BETA, es una página personal o no quieres problemas de contenido duplicado.

Para ello, hay que decirle a los spiders (que son los robots que usan los buscadores para rastrear tu web e indexarla), que no lo hagan.



Robots.txt

Si quieres que los spiders no rastreen una o varias de tus páginas, la forma mas segura es utilizar un archivo llamado robots.txt, y que no es mas que un simple archivo de texto (que puedes crear con el notepad) en el que se establecen ciertos criterios que informan a los buscadores sobre lo que no deben rastrear.

Para crear el robots.txt basta con crearlo usando el notepad y el siguiente código:

User-Agent: Googlebot
Disallow: /no-lo-indexes.html
Disallow: /carpeta-no-indexable/
Disallow: /*/subcarpeta-no-indexable/

En User Agent se establece el buscador al que quieres hacer referencia, y bajo el, en cada disallow una url de tu web que no quieres que sea indexada. Si quieres establecer que todos los buscadores sigan esas instrucciones, basta con poner el signo * en User-Agent (aunque dado que cada buscador premia unas u otras cosas aveces puede interesar permitir que unos indexen lo que otros no quieres que vean).

Para conocer los nombres de todos los buscadores busca aquí una lista, yo te dejo los spiders mas interesantes:

  • Google: Googlebot
  • Yahoo: yahoo_slurp
  • MSN: msnbot
  • Altavista: Scooter
  • Lycos: Lycos_Spider_(T-Rex)

Cuidado al colocar varios spiders y un comodín, ya que los spiders no harán caso de lo que ponga el comodín si tienen su sección propia, de tal manera que lo siguiente permitiría a Google indexar tu web pero al resto de buscadores no:

User-Agent: *
Disallow: /
User-Agent: Googlebot
Disallow: /carpetita/

Lo mismo sucede si por error te olvidas de poner algo tras el disallow, estarías diciendo que permites que indexen toda la página:

User-Agent: *
Disallow: /directorio/
Disallow:

Respecto a las páginas que no quieres indexar, puedes colocar archivos, directorios enteros, tipos de archivos, parámetros, etc. Para ello puedes utilizar el asterisco como comodin (que representa uno o varios caracteres indefinidos) y el dólar ‘$’ que indica que la url debe finalizar ahí. Te muestro unos ejemplos:

User-Agent: *
Disallow: /*/primavera/
Disallow: /*?
Disallow: /*.gif$
Disallow: /*userid=
Disallow: /*/*id=

El anterior robots impediría el acceso al subdirectorio primavera, cualquier URL que contenga un QueryString (o el símbolo ?), los gifs y cualquier url en que se incluya el parámetro userid o subdirectorio en que se incluya el parámetro id.

Si no utilizamos bien el $ podemos tener problemas, ya que sin él se especifica que cualquier URL que empiece por la cadena establecida no sea recorrida por los spiders, pero con él, se establece que deben terminar en eso. De forma que “/usabilidad/” impide el acceso al directorio usabilidad, “/*usabilidad” impide el acceso a cualquier URL que contenga usabilidad y “/*usabilidad$” impide el acceso a cualquier URL que termine en usabilidad. Ahora imaginemos que por error ponemos esto:

User-Agent: *
Disallow: /*?

Pretendiendo denegar el acceso a las páginas que contengan un QueryString vacío, estaríamos denegando en realidad cualquier página que contenga un QueryString, para lo primero debe ponerse el $ al final, indicando que tras el ? no debe haber nada mas y, si lo hay, entonces sí debe indexarse.

Por último, si lo que buscas es cerrar la web entera a los buscadores, bastaría con poner la barra de la raíz así:

User-Agent:*
Disallow: /

Nofollow y Noindex

Por otro lado, es posible que en tu página des opción a los usuarios a colocar enlaces y te encuentres con el problema que tuvieron en Wikipedia, y es que todo el mundo metía enlaces a sus webs aprovechando el prestigio de la famosa enciclopedia y empezaba a llenarse de spam hasta que apareció el nofollow, propiedad que sobre un enlace le dice a Google que no lo tenga en cuenta, con lo que ya no puede servir a esos usuarios para incrementar su Page Rank.

<a href="www.googlecom rel="nofollow">No lo sigas!!</a>
<a href="entrecodigos.com/noindex/" rel="noindex">No lo indexes!!</a>

Además del nofollow, también existe el noindex, que le dice a Google que, aunque si puede seguir ese enlace (y por tanto tener en cuenta la página a la que apunta) no debe indexarla en sus búsquedas, esta etiqueta también puede ponerse en un meta de la página para asegurarse, aunque si pones este meta, recuerda quitar la página del robots.txt, o Google no pasará por la página y no podrá verlo.

Ten en cuenta que aunque le digas a Google en el robots que no rastree una de tus páginas, eso no implica que Google no la pueda indexar, ya que puede que haya un enlace a la misma en otras páginas, por lo que es necesario usar el meta noindex y quitar la página del robots para que vuelva a rastrearla y sepa que no la debe indexar.

Ah, y no os preocupéis, en mi Blog no he puesto que vuestros enlaces tengan un nofollow, es lo menos que puedo hacer por quienes comentan, dejar un enlace a su página con el anchor text que prefieran, siempre y cuando no sea spam claro… así que no esperes mas y empieza a poner comentarios para que parte de mi PR4 se redirija a tu página ;)

Ya hay 57 comentarios. ¡Falta el tuyo!

Escríbe aquí tu opinión

Nombre (necesario)

Email (no se mostrará)

Web (opcional)

mygif
December 3rd, 2007 at 9:28 am

Muy bien explicado, felicidades Ruben!

mygif
December 4th, 2007 at 11:20 pm

En realidad, creo que me ha quedado algo confuso, he dado muchos detalles y quizás debería meter un índice inicial o meter títulos para que la información esté mejor dividida.

Cuando tenga tiempo lo haré, que no me termina de convencer como ha quedado.

mygif
February 1st, 2008 at 7:22 am

La idea de este robot es que no vaya la gente a tu pagina….
y que los buscadores no te encuentren?

mygif
February 1st, 2008 at 8:45 am

La idea es que los buscadores no rastreen tu página (el site entero o las páginas que le pongas), pero los usuarios, la gente, seguirán entrando igual.

Si quieres que tu site no sea público tendrás que colocar permisos de acceso, hay muchas formas de hacer eso.

mygif
February 21st, 2008 at 5:52 am

No había prestado importancia sobre para que servían el NoFollow y NoIndex, pero con tu explicación me ha quedado muy claro, gracias… en general el manual seo me esta siendo de mucha ayuda, no solo para promocionar mi blog sino también para promocionar los sitio que desarrollo. gracias de nuevo.

mygif
February 26th, 2008 at 6:46 pm

Muy buena ayuda gracias!

mygif
March 22nd, 2008 at 7:26 pm

Muy buen contenido y como comentas, es muy buena opción para ofrecer paginas que solo queremos que vean algunos de nuestros usuarios.

mygif
April 14th, 2008 at 1:18 pm

Yo quiero poner nofollow en las categorías y en el archivo de mi blog sin necesidad de hacer uso de plugins ni tocar el robots.txt a ser posible. Alguna idea?

mygif
April 14th, 2008 at 2:27 pm

Sólo te queda tocar el código fuente y meter un meta nofollow en las categorías… no se si será un archivo llamado categories.php del template, búscalo.

mygif
June 2nd, 2008 at 1:52 am

en realidad no creo ke se autilice mucho esas opciones porke quien no kiere ke su pagina sea conocida de todas maneras gracias por el aporte.!!

mygif
September 30th, 2008 at 8:47 pm

Sumamente útil, yo estaba preocupado por ver que algunos resultados de busqueda que enviaban a paginas menores o muy poco relavantes de mi sitio…y a veces esos resultados estaban antes que cualquier cosa relevante. Excelente manual!

mygif
12. Javirt
October 10th, 2008 at 7:58 pm

Resumiendo un poco, osea que con el robots.txt basta para decirle a google que no indexe determinadas páginas?

Y que pasa con el siguiente código que un plugin me colocó en determinadas páginas que no quiero que me indexe?

mygif
October 15th, 2008 at 1:08 am

Hey muchas gracias, me ha servido de mucho tu explicacion, solo tengo una duda cuando dices /carpeta/ y el robots.txt esta en la carpeta /www/ eso quiere decir que el disallow es /www/capeta/ ????

mygif
October 15th, 2008 at 1:17 am

carpeta era un ejemplo, Google no navega por las rutas locales de tu PC, has de pensar en el directorio base como aquella carpeta en que está alojada tu web.

Por ejemplo, si tu web está alojada en una carpeta de tu PC que se llama www y tiene 3 subcarpetas (javascript/, css/ y privado/), el robots deberías colocarlo en la carpeta www y para bloquear la carpeta privado poner:

Disallow: /privado/

No se si era esto lo que preguntabas.

mygif
15. kiko
December 2nd, 2008 at 7:22 pm

Muchas gracias por aclarar este punto.

mygif
December 3rd, 2008 at 2:07 pm

Las etiquetas nofollow son una escelente herramienta para poder controlar la fuerza de tu pagina y distribuirla correctamente es un punto muy importante a optimizar. Buen articulo sobre la explicacion de tipo de enlaces importantisimos a mi modo de ver.

mygif
17. Javier
December 10th, 2008 at 1:37 am

Has citado que el nofollow se puede poner en los meta… sabía como hacerlo pero lo estoy buscando y nada :/

mygif
January 12th, 2009 at 9:20 pm

Esta muy bueno el tutorial.Necesitamos mas personas que escriban y transmitan como vos. Aun me queda un buen trecho por leer :)
chris ber
http://www.playasdeargentina.com

mygif
January 25th, 2009 at 1:48 am

Mas que interesante, super interesante. Me esta sirviendo de mucha ayuda tu manual seo. Gracias

mygif
February 12th, 2009 at 12:50 pm

Hola a todos. Pienso que una de las motivaciones de los webmasters o los posteadores ha sido el enlace a su web. Es como el premio por escribir en tal o cual blog. Sin ello, al final los blos con no follow se han acabado viniendo abajo y la wikipedia ha perdido a muchos de sus escribientes. No es extraño que, por todo ello, muchos estén volviendo al redil al eliminar las trabas al enlace.

Por mi parte, si alguien desea un enlace desde mi web, sólo tiene que entrar y solicitarlo (siempre que la página no tenga contenidos raritos).

mygif
February 12th, 2009 at 6:26 pm

Muy interesante el post y muy bien explicado. Este tipo de artículos siempre se agradecen.

mygif
February 18th, 2009 at 7:59 am

Gracias Rubén por tan buen artículo. Lo has publicado en NOV 2007 y aun 15 meses mas tarde, sigue consultandose ;) GRACIAS por la contribucion!

mygif
March 4th, 2009 at 11:27 am

Excelente aclaracion, detalles que muchas veces no se tienen en cuenta y que dificultan la comprension de los distintos posicionamientos. En http://www.submitsuite.es nos dedicamos al SEO y aprendemos constantemente de apuntes como el tuyo. Felicidades.

mygif
March 26th, 2009 at 12:37 am

Buen artículo que te has currado, bien explicado.

mygif
March 26th, 2009 at 11:25 am

Por fin he aprendido a usar el robots.txt!!

gracias

mygif
April 27th, 2009 at 12:29 pm

Me parece muy útil estos artículos que haces sobre el SEO, sobre todo para dejar claro los conceptos básicos a tener en cuenta.

Gracias!

mygif
April 29th, 2009 at 5:23 pm

Muy buen articulo, estaba buscando para que servia lo del noindex y me has resuelto la duda.

Muchas gracias!

mygif
May 6th, 2009 at 12:02 am

Conocía el “nofollow” pero desconocía el “noindex”. Entiendo que el “noindex” si pasa puntuación del pagerank.

Gracias

mygif
May 28th, 2009 at 7:56 pm

Muy interesante estaba buscando esto hae dias… gracias!

mygif
June 5th, 2009 at 9:33 pm

Genial el manual lo haces ameno incluso a los nuevos pero no se si google quiere penalizar ahora el no follow

Voy implantando en la web tus sabios consejos

mygif
June 29th, 2009 at 11:56 am

Hola. Pues la verdad que de lo poco bueno que encuentro sobre el tema. Pero aún queda una cosa en el tintero creo yo.

Si lo que yo quiero es que el robot no siga a la pagina de ese enlace, que sería¿? también un noindex?

Porque supuestamente con lo nuevo que se habla del nofollow, ahora no se transmite pagerank pero si que sigue el enlace.

:S

mygif
32. Ruben
June 29th, 2009 at 1:53 pm

Exacto, sería rel=”nofollow noindex”

mygif
33. rojerh
August 20th, 2009 at 10:37 am

me paso que instale wordpress en una web mia http://www.nexoperu.net no me fije que el thema tenia en los metas noindex y nofollow y ahora simplemente desapareci de google supongo que quitando ese meta indexara nuevamente verdad?

mygif
34. Julian
September 7th, 2009 at 12:28 am

Sos un capo! la verdad que no dejas detalle sin aclarar… Si podes escribirme para saber tu mail me gustaria agregarte al msn para consultarte de vez en cuando… Mi mail queda registrado en este mensaje. Un abrazo bro!

mygif
October 6th, 2009 at 6:49 am

¿Hay alguna diferencia entre poner o no el asterisco?

/ y /* ¿impiden el acceso a toda la web de la misma manera?

mygif
October 6th, 2009 at 12:29 pm

Pues me imagino que son lo mismo, sí. De todas formas siempre es mejor asegurarse siguiendo las normas =P

mygif
October 20th, 2009 at 2:51 pm

Muy interesante y a tener en cuenta. Gracias

mygif
November 6th, 2009 at 7:56 pm

Ruben,

Felicidades está muy claro y es muy útil.
Muy recomendado para las típicas páginas de Aviso Legal y otras que pueden no ser parte de una estrategia SEO.

Un saludo
Jose

mygif
39. Antonio
November 27th, 2009 at 12:31 pm

Como bien dices en capitulos anteriores, debo aparecer en paginas que tengan que ver con lo mio, asi que no poner enlace es mas apropiado de lo que dices de poner enlace para que se rediriga a mi pagina un cachito de tu PR de 4 no? saludos!

mygif
November 27th, 2009 at 5:07 pm

Todo enlace cuenta, pero contarán más los que parezcan más naturales y sean más relevantes. Si hay demasiado enlace que no parece muy natural te arriesgas a una penalización :)

mygif
41. Jorge
January 8th, 2010 at 9:49 pm

Hola ,la primera vez que entro a tu pagina, pero he visto algunas cosas que me pueden servir mucho, espero poder comentarles como me fue.

Si alguien entra mi pagina y me da algunos alcances se lo agradeceria

http://www.juegosdecoches1.com
Jorge

mygif
42. carlos
February 15th, 2010 at 7:05 pm

Muy bueno, la verdad es que no había parado a pensar en lo que indexa spiders. Ahora toca anular algunas páginas jejeje…

mygif
February 19th, 2010 at 11:03 am

Como puede ser que la web http://www.cerezasladulce.com tenga un PR de 9 con apenas enlaces entrantes? Acaso es un error de google?

mygif
44. Ruben
February 19th, 2010 at 8:26 pm

A mi me sale un PR1 en esa web, quizás lo has mirado mal. A veces la barra de Google se “atasca” y te muestra el PR de una página anterior que estabas visitando.

mygif
February 26th, 2010 at 11:22 am

Alpiskris, el caso de esa web ya se ha comentado en otros foros, y efectivamente, tal como te comenta Ruben, tiene un PR1.
En cuanto a la etiqueta rel=’noindex’ o ‘nofollow’, está muy bien, y en teoría es muy útil… pero los robots (incluido el de Google) no siempre la respetan.
En cuanto al artículo, felicidades. Es una explicación clara, concreta y exacta, fácil de comprender.

mygif
46. Badoo
March 2nd, 2010 at 1:25 pm

Un millón de gracias por el post. Llevaba UNA SEMANA buscando como hacer que google no indexe una de las páginas de mi web y no encontraba nada. Por fin encontré algo que merece la pena. Muy buen trabajo y gracias de nuevo.

mygif
March 21st, 2010 at 10:52 pm

No entiendo nada… La web que os digo: http://www.cerezasladulce.com hay semanas que aparece PR 9, otras PR 1, otras PR 6… y la verdad es que no para de moverse entre las 10 primeras posiciones de google al buscar la palabra “CEREZAS” … Unas veces aparece la primera, otras la quinta, ?¿?¿ Alguien entiende como puede ser posible esto, si se supone que el PR no se actualiza en meses????

mygif
48. Qmsda
April 22nd, 2010 at 7:17 pm

Sobre la web http://www.cerezasladulce.com lo único que se me ocurre es que sea tu página, y lo del PageRank cambiante una escusa para ponerte un enlace… muy bueno XD, aunque a lo mejor me equivoco…

mygif
49. luis
May 21st, 2010 at 1:08 am

muy buen articulo, gracias por la ayuda.

mygif
June 27th, 2010 at 2:00 am

Muchas gracias por la información sobre la configuración del archivo robots.txt
Felicitaciones por el blog!

mygif
51. JoanK
July 27th, 2010 at 12:53 pm

En verdad veo que has estado trabajando dura con el tema del SEO, felicidades, una gran herramnienta.

mygif
52. Marcos
July 28th, 2010 at 10:47 pm

Yo no entiendo algo… tengo una web con mas de 100mil paginas y no se si tengo que poner nofollow entre mis links internos ya que la torta es muy grande! la verdad no entiendo mucho sobre cómo hacer para lograr un equilibrio y poder por fin tener pagerank decente.

mygif
August 9th, 2010 at 12:48 pm

Gracias Ruben, me vuelvo loco con el SEO. Un dia estoy en el puesto 2 de google y al siguiente aparezco en el 10, otro en el 6 y asi de continuo. Esto me vendra fenomenal para intentar posicionar mejor mi web: http://www.quecambiamos.com
Aprovecho tu ofrecimiento y dejo mi link ;)
Un saludo y muchas gracias

mygif
August 13th, 2010 at 6:13 pm

Muy buen manual, de a poco voy letendo y corrigiendo errores. Dejo mi web que la empecé hace muy poco y hace 2 dias que la meti en buscadores. http://www.juegospacmario.com
Un saludo

mygif
55. Javine
August 18th, 2010 at 5:44 pm

Excelente Rubén

mygif
September 2nd, 2010 at 3:59 am

De antemano te felicito por tu blog me parece excelente y este post, Igual de bien explicado y claro

Escríbe aquí tu opinión

Nombre (necesario)

Email (no se mostrará)

Web (opcional)

Pingback y Trackback

Pingback y trackback de varios blogs:
November 30th, 2009 at 2:08 pm

[...] Dicho esto, imaginemos que la página principal de nuestra web -que suele ser la que tiene más PR- consigue PR5, bien, si en esta página principal el 40% de los enlaces son externos, estaremos perdiendo el 40% del mayor peso de nuestra web, que es la página principal, para regalarlo a páginas externas. Para evitarlo, podemos tener cuidado con a quien enlazamos en nuestras páginas con más peso o utilizar el nofollow del que os hablé en éste post. [...]

¿Quieres más?

Temas del blog

Busca por Entre Códigos

 

Últimos comentarios

Últimos artículos

Lo más comentado

Blogroll

Mis proyectos