Esplendor y miseria del robots.txt (parte II)
Bueno, así como a Brett Tabke le da por ser original y escribir su blog en el archivo de marras, los hay que prefieren el uso tradicional y les gusta tirar de robots.txt para prohibir el acceso a determinadas partes de su site. Véase por ejemplo el robots.txt de la Casa Blanca
¿Qué pasa? ¿Nunca habéis conocido a alguien que se lea la guía telefónica? Pues yo leo el robots.txt de la Casa Blanca. Además, encuentro muy interesante ver que tienen directorios llamados blackhistory, firstlady o fitness y me pregunto las razones por las que querrías sacar del buscador cosas como sitemap.html o accesibility.html.
No obstante, tengo una duda razonable sobre la longitud que puede alcanzar este archivo, en principio, no debería de estar limitado: total, los de la Casa Blanca usan 89.356 caracteres de nada (ale a lo grande, como todo lo estadounidense) sin embargo Google restringe la prueba del robots.txt en su webmaster tool a 5.000 caracteres.
El sentido común sugiere moderación que el robots.txt es muy delicado. Tendré que desechar lo de hacer una tesis en/sobre el robots.txt.

Gracias a María que me descubrió la existencia de este mensaje de error. Por cierto, que no fue ella la culpable de subir un robots.txt de semejante tonelaje ¡Ni yo!
PD: ya sé que la imagen se sale, es por coherencia.