Cosas que debes saber sobre el archivo robots.txt en WordPress

Cosas que debes saber sobre el archivo robots.txt en WordPress

Hay muchas cosas que por defecto se configuran correctamente en WordPress nada más instalarlo. Pero a veces, es necesario hacer algunas modificaciones según el caso.

Hoy te vamos ha hablar sobre robots.txt. Seguro que alguna vez has oído hablar sobre este fichero, y debes saber que no solo se utiliza en WordPress, si no que también se utiliza en Prestashop, Joomla… y en cualquier web ya sean un gestor de contenidos o no.

Lo principal que debes saber es que este fichero se utiliza para decirle a los buscadores que partes de tu web no quieres que incluyan en sus resultados de búsqueda. Y claro, podrás decir: – «¡Pero si yo lo que quiero es que lo incluya todo! ¡Cuanto más mejor!»

¡Pues no te vamos a quitar la razón! Cuanto más información incluyan los buscadores de tu web mejor, pero con un pequeño matiz, cuanto más información ÚTIL. Ahora bien, habría que definir en cada caso, en cada web, que información es o no útil.

Volviendo al tema del WordPress, si sueles trabajar con dicho CMS, sabrás que hay 3 directorios muy comunes:

  • wp-admin
  • wp-content
  • wp-includes

Pues bien, estos directorios incluyen información interna, de administrador, a nivel de programación, pero no incluyen información que sea ÚTIL para los usuarios, para los buscadores, de modo, que para que dejar que por ejemplo Google gaste parte de su tiempo, indexando la información que hay ahí dentro si no es relevante. Podrás decir: «Me importa poco que Google gaste su tiempo, mientras al final me indexe todo lo importante». Pues volvemos a darte la razón, mientras Google indexe lo importante lo presentará a sus usuarios cuando busquen. ¿Pero puede influir en que lo posicione mejor o peor? Probablemente si ayudas poco a Google, Google te ayudará poco a ti. Así que si le quitas trabajo, y no le haces perder el tiempo en que rastree información no relevante, ¡a lo mejor te lo agradece un poco más!

En estos 3 directorios, vamos a incluir una excepción. Es decir, no hay información relevante salvo en /wp-content/uploads/ que es donde se suelen subir los ficheros, las imágenes que luego se presentan en la web, luego es buena idea incluir ese directorio, para que Google (o los buscadores en general) lo indexen.

Ahora que ya te hemos hecho una pequeña introducción sobre robots.txt, veamos un poco que ocurre en WordPress.

Por lo general al instalar WordPress no existe el fichero robots.txt, sin embargo, si escribes en un navegador tudominio.com/robots.txt tendrá contenido. ¿Cómo puede ser esto? – Pues WordPress en la instalación, te lo pregunta, ¿Quieres que tu web sea indexada por los buscadores? Y depende de lo que respondas te generará virtualmente un robots.txt u otro.

Si indicas, que sí, que quieres que tu web sea indexada por buscadores, y pones en un navegador tudominio.com/robots.txt verás el siguiente contenido:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Con esto le estamos diciendo a todos los buscadores, que indexen todo menos los directorios /wp-admin y /wp-includes.

Si embargo, si en la instalación indicas que no quieres que tu web sea indexada o accesible por los buscadores, y escribes en un navegador robots.txt, veras:

User-agent: *
Disallow: /

Con esto lo que robots.txt le está diciendo a todos los buscadores es que no indexen nada a partir de /, es decir, que no indexen nada de la web. Por lo que la web no aparecerá en ningún buscador.

Hay que añadir que todos estos efectos no son automáticos. Es decir, si tu tienes una web que ya tiene parte indexada, y no quieres que sea indexada, por ejemplo porque es una web en desarrollo, o una copia donde haces pruebas y pones lo que hemos visto anteriormente para que no se indexen, seguirán indexadas. Pero la próxima vez que los buscadores pasen por tu web y vean que ese robots.txt ha cambiado, y ahora no quieres que se indexe el contenido, te lo irán quitando.

Todo esto que hemos visto en WordPress, es sin ni siquiera haber creado un fichero llamado robots.txt. Es decir, si accedes por ejemplo por FTP a tu web, en el / no verás el archivo robos.txt, sin embargo, es como si existiera porque WordPress te lo virtualiza. Ahora bien, te lo virtualiza con un contenido muy específico. Si eres un usuario más avanzado, y quieres indicar tus propias cláusulas en el robots.txt, tendrás que crearlo y ya no tendrá efecto el virtualizado por WordPress.

En próximos post, veremos más detalles de qué podemos o no incluir en el robots.txt. Ahora seguiremos, explicando como permitir o no que tu WordPress sea indexado por buscadores, desde el panel de control.

Esta opción se encuentra en Ajuste > Privacidad:

ajuste privacidad wordpress

Una vez aquí verás:

ajuste de privacidad wordpress

Como hemos explicado antes, si marcas: Dile a los buscadores que no indexen tu sitio, te generará un robots.txt virtualizado que no permitirá que tu contenido sea accesible por los buscadores. Sin embargo, si marcas: Permitir que los buscadores indexen tu sitio, con esto generará un robots.txt virtualizado, que permitirá que los buscadores indexen tu web.

Ojo: permitirá que lo indexen, no significa que lo indexarán, esto no garantiza nada, simplemente que no lo impedirá, pero no significa que con esto, Google u otros buscadores te vayan a indexar directamente.

Nada más, esperamos que esta introducción al robots.txt te haya sido de ayuda. Si es así y te ha gustado, te agradecemos que lo comparta en tus redes sociales. Y si tienes alguna consulta, ya sabes que puedes usar la zona de comentarios. ¡Gracias!

20 comentarios
  • Juan Publicado el 26/06/2012 a las 09:10 Responder

    Siguiendo vuestros posts, estoy aprendiendo mucho de wordPress, son muy didacticos para los que no estamos muy puestos en estos temas.

    • aquihaydominios Publicado el 26/06/2012 a las 09:38 Responder

      Gracias Juan, nos alegra que nos sigas y por supuesto que te gusten nuestro post. Saludos.

  • Pingback: Cómo configurar robots.txt en WordPress | Gesblog

  • manuela Publicado el 21/03/2013 a las 23:48 Responder

    Hola, estoy realizando un blog en wordpress.com, (explican que no es lo mismo que wordpress.org) Al margen de esto, cuando empecé a crear mi blog sí tenía la privacidad puesta para que no la indexaran los robots, pero una vez la he acabado, cuando busco en google me sale el mensaje de «no hay disponible una descripción del resultado debido al archivo robot.txt de este sitio»…(yo me quedo muerta).

    Ya activé la privacidad para que sea indexada pero, cuando busco en google, sigue saliendo el dichoso mensaje. ¿puedo hacer algo más?. Muchísimas gracias por el post, y por la ayuda si fuera posible.

  • aquihaydominios Publicado el 22/03/2013 a las 01:14 Responder

    Hola Manuela,

    Google indexa y reindexa las web cada cierto tiempo. Cuanto mayor frecuencia de actualización tenga tu web, mayor será la frecuencia con que la que reindexe… teniendo en cuenta que tu web es reciente, tardará un tiempo (no sabríamos decirte cuanto) hasta que vuelva a pasar por tu web, y detecte los cambios. Una vez detecte los cambios, se mostrará la nueva información cuando hagas una búsqueda.

    Al ser una web nueva lo único que pensamos que puedes hacer, es conseguir enlaces, mover la web por las redes sociales, y siempre muy importante, dar de alta tu web en Google Webmaster Tools.

    Esperamos haberte ayudado.

    Saludos.

  • Alias79 Publicado el 15/04/2013 a las 10:02 Responder

    Un post muy que muy interesante, y sobre todo bien explicado! Estaba buscando la continuación del mismo, para ver como construir el fichero robots.txt paso a paso, pero no la encuentro.

    ¿Terminasteis este tema?

    Muchas gracias!!!

    • aquihaydominios Publicado el 15/04/2013 a las 10:11 Responder

      Hola,

      tenemos un listado bastante amplio de artículos por publicar, tanto de WordPress como de PrestaShop y otros temas. Nos anotamos este para en cuanto podamos ampliar información. Gracias por la sugerencia.

      Gracias, un saludo.

  • Ricky Publicado el 28/05/2013 a las 20:23 Responder

    Me pasó que el archivo virtual reemplazaba al que yo había creado. Cuando destildé la opción de WordPress para que sí se indexe el sitio, igualmente me «desaparecía» MI robots.txt y lo reemplazaba por el virtual. O sea que a pesar de destildar la opción y crear el archivo, lo sigue reemplazando…
    ¿Qué solución existe? ¿Utilizar un plugin para crearlo?
    Muchas gracias.

    • aquihaydominios Publicado el 28/05/2013 a las 20:30 Responder

      Hola Ricky,

      ¿qué versión de WordPress tiene?
      En teoría en las últimas versiones el fichero físico prevalece al virtual. Se puede comprobar modificando el físico y accediendo a la url correspondiente.
      Por otro lado, ¿has modificado algo en el htaccess que pueda afectar? ¿Algo relacionado al robots.txt? En cualquier caso, puedes probar a desactivar las urls amigables, a borrar el htaccess y comprobar si te ocurre lo mismo con el robots.

      Gracias, un saludo.

  • Pasky Publicado el 21/03/2014 a las 01:23 Responder

    Hola! yo tento este mismo problema, el caso es que no me aparece la privacidad, y recuerdo que cuando lo instalé si, y puse que sí que me buscaran, tengo esta version de wordpress Versión 3.8.1 y no tengo ni idea de como lo puedo hacer para que sea visible para el buscador, 🙁

  • aquihaydominios Publicado el 22/03/2014 a las 22:40 Responder

    Hola Pasky,

    mira en Ajustes > Lectura. Ahí te debe aparecer: «Disuade a los motores de búsqueda de indexar este sitio» marcado, lo debes desmarcar.

    Saludos.

  • Noe Publicado el 28/05/2014 a las 06:41 Responder

    Muy buen aporte, después de tanto buscar, gracias al ultimo post, encontre la solucion.

  • MICHELLE FIGUEROA Publicado el 25/06/2014 a las 14:29 Responder

    Muchas gracias por la informacion. Creo que ya lo arregle con el ultimo comentario de la version nueva de WordrPress no sabia donde era. Gracias

  • Xiki Publicado el 14/01/2015 a las 10:27 Responder

    Hola, muy buen post. Aunque tengo una duda existencial, tras llevar 1 año con la web creada y con contenido, por diversas razones, he borrado todo (base de datos incluida) y para renovarla he empezado desde el principio. Esto significa que todo ha desaparecido, incluidos todos los enlaces.
    Google, me manda el siguiente mail:
    Googlebot can’t access your site
    Over the last 24 hours, Googlebot encountered 148 errors while attempting to access your robots.txt. To ensure that we didn’t crawl any pages listed in that file, we postponed our crawl. Your site’s overall robots.txt error rate is 100.0%.

    Mi pregunta por tanto es… ¿Qué recomiendas que haga para que la vuelva a indexar lo antes posible?¿Qué harías tú?

    Un saludo!

  • aquihaydominios Publicado el 14/01/2015 a las 15:49 Responder

    Hola, debes montar el WordPress completo ya sea con el antiguo contenido o con nuevo. Y si generas un sitemap.xml con todas las urls y lo notificas por Google Webmaster Tools mejor.

    Saludos

  • Blas Nieto Publicado el 11/02/2015 a las 00:01 Responder

    Buenas he dado con este articulo y he visto que estáis bastante activos en cuanto a los comentarios que se suben, os cuento a ver si me podéis ayudar:
    Llevo unas semana creando una web con wordpress y la tenia bloqueada para motores de busqueda desde Ajustes/lectura.. bueno pues el viernes pasado cuando ya la tenia montada (es cierto que es muy pobre en contenido, pero lo iré trabajando….) la puse ya visible. El tema es que cada vez que le meto el comando site:www.tuspintoresenvalencia.com me dice esto: «No hay disponible una descripción de este resultado debido al archivo robots.txt de este sitio. Más información”

    He revisado los Ajustes en la pestaña general y tengo puesto tanto el titulo como la descripción de la página, y tengo instalado el plugin Better WordPress Google XML Sitemaps así que no se que puede ser…

    Tambien he probado ha poner http://tuspintoresenvalencia.com/robots.txt y el resultado como he leido es correcto:
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Sitemap: http://tuspintoresenvalencia.com/sitemapindex.xml

    Tenéis idea de que puede estar pasando y como lo podria solucionar??

    Muchas Gracias!

  • eduk2 Publicado el 24/02/2015 a las 13:27 Responder

    Hola Blas,

    una web recién publicada no tiene porque aparecer directamente en Google. Tarda un tiempo en indexarla. Puedes tratar de agilizarlo dando de alta la web en Google, consiguiendo algún enlace, dándote de alta en Google Analytics, Google Webmaster tools… Por supuesto también es muy importante que el robots permita la indexación, pero si eso ya lo has contemplado, solo te queda esperar o revisar lo anteriormente comentado.

    Saludos

  • Meribel González Publicado el 21/01/2016 a las 14:18 Responder

    Hola tengo una página web con wordpress 3.1.5. Y no logro encontrar el lugar exacto donde eliminar robot.txt, gracias!

  • Meribel Publicado el 21/01/2016 a las 15:12 Responder

    Hola, fui hasta ajustes en mi wordpress para cambiar la privacidad y así quitar texto.txt, sin embargo, en la barra de menú, botón «ajustes» no aparece «privacidad», qué puedo hacer?

  • eduk2 Publicado el 22/01/2016 a las 18:47 Responder

    Hola Meribel,

    no sé a qué te refieres con texto.txt.
    Si tienes dificultades para generar el robots.txt y tienes ya un fichero creado, lo puedes borrar por FTP y volver a generar. O coger alguno de alguna web y usarla para la tuya. Revisándolo suelen ser similares y básico y te podría servir la de otra web.

    Saludos

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *