Archivo de la etiqueta: web_scrapping

La locura de crear un spyder

Se me ha ocurrido la tremenda estupidez de hacer un spyder. Un buscador.
¿Para buscar que? Lo que sea, da igual.

El caso es que este ejercicio de estilo me puede abrir las puertas del web scrapping, o extracción de datos de la red.

Lo sé, no soy google, no puedo permitirme el lujo de guardar toda la información del planeta. Pero evidentemente, el gigante de la doble “O” tampoco realiza ciertas tareas que pueden resultar interesantes, por ejemplo para un diseñador, como podría ser, localizar páaginas de ejemplo que cumplan con un determinado estandar en la red, por ejemplo el moderno HTML5.

Aun asi , sólo crear una base de datos con todos los dominios del planeta que cumplan con este estandar puede ser de locos, pero yo creo que merece la pena intentar por lo menos hacer una “maqueta”.

Asi que me he remangado y me he puesto a hacer unas pruebas …

Y lo primero con lo que me he encontrado es …¿Por donde empiezo a urgar en la red?
Pensé, pues por el principio … empieza por http://www.a.com. Pero en seguida se da uno cuenta de que ese dominio no existe. Tampoco existe ningún dominio con una sola letra. Poco a poco me he ido dando cuenta de una serie de interesantes detalles que pueden ser útiles para cualquier programador que se introduzca en este area:

  1. Los dominios con una sola letra no existen.
  2. Los dominios no pueden terminar en un guión , pese a que pueden contenerlo. Así es válido “www.un-dominio.com” pero no “www.un-dominio-.com”
  3. Si existen los de dos letras o más como www.aa.com. Los simbolos permitidos dentro de una URL son los siguientes …(poner simbolos)
  4. Muchos de los primeros dominios de la posible lista de dominios del planeta están comprados por okupas que se dedican a esperar que algun tipo compre esos jugosos dominios por una buena cifra de dinero.
  5. Los dominios cortos suelen estar ocupados por grandes corporaciones (no hay que ser un genio para deducir esto)
  6. La mayor parte de los servidores de estos dominios ofrecen información valiosa para cualquier hacker que desee atacar esas máquinas, como la versión del lenguaje con que están programadas asi como el servidor.
  7. Con la información proporcionada por los servidores es posible, con una muestra adecuada, inferir estadisticamente el número de servidores de un determinado tipo (Apache, nginx, lightHTTP, etc) que se utilizan en el planeta.

Aquí tengo un ejemplo con un pequeño formulario de la información que he ido recogiendo, Sólo para un pequeño número de dominios de la cuasi infinita lista de dominios del planeta.

[Link a ejemplo prueba de buscador]