Compártelo :)

Cuál es la diferencia entre los robots, spider y crawler

Cuál es la diferencia entre los robots, spider y crawler


Lo primero que tienes que saber es qué son cada uno, si son diferentes y que es lo que hacen. Cada día son más los sitios que se están modernizando y tratando de mantenerse en la cima de los resultados de búsqueda. Sin embargo, lo que se, necesita es una inversión en conocimiento para lograr un mejor posicionamiento.  Debido al considerable aumento del material disponible en la web, es fundamental para determinar tu existencia con el fin de seguir siendo competitivos. Un sitio que está en el ranking en la búsqueda que seguramente será beneficiado.

Para que todo esto suceda los motores de búsqueda se definen como una base de datos capaz de encontrar los resultados basados ​​en las palabras o términos utilizados por el usuario. El ranking de los motores de búsqueda esta basado ​​en robots (arañas o crawlers).
Como definición, tenemos:

Crawler
Se trata de un software desarrollado para realizar una exploración en Internet de una manera sistemática a través de la información percibida como relevante para su función. Capturan el texto de las páginas y los enlaces encontrados y por lo tanto permiten encontrar nuevas páginas. Es una de las bases de los motores de búsqueda, que son responsables de la indexación de sitios web, almacenarlos en la base de datos de los buscadores. Es también conocido como araña o Bot (robot).

El proceso que se ejecuta un rastreador web se llama Web Crawler o rastreador. Muchos sitios, en particular los motores de búsqueda utilizan rastreadores para mantener una base de datos actualizada. Los rastreadores web son usados básicamente para realizar una copia de todas las páginas visitadas para post-procesamiento por un motor de búsqueda que indexa las páginas descargadas para proporcionar búsquedas rápidas. Los rastreadores también se pueden utilizar para tareas de mantenimiento automatizadas en un sitio web, como la comprobación de enlaces o la validación de código HTML. Las spiders también pueden ser utilizadas para obtener los tipos específicos de información de páginas web, como direcciones de correo electrónico (más comúnmente como spam).

Bueno, los rastreadores de motores de búsqueda por lo general buscan información acerca de los permisos sobre el contenido. En especial hay dos maneras de bloquear un rastreador que indexe una página en particular (y los enlaces contenidos en ella). La primera, y más común, es a través del archivo robots.txt. La otra forma es a través de la etiqueta meta robots con el valor "noindex" o "nofollow", que sirve para no indexar (la página en sí) y no por debajo (los enlaces en la página), respectivamente. También hay una tercera posibilidad, mucho menos explotado, que está utilizando el rel = "nofollow" para los enlaces, lo que indica que el rastreador que enlazan, en particular, no se debe seguir.

Araña
También conocido como Robot, Bot o Cadenas. Estos son los programas utilizados por los motores de búsqueda para navegar por Internet y descargar automáticamente contenido sitios web. Metódicamente, expone el contenido que estime pertinente en el código fuente de los sitios, y almacena el resto en su base de datos. Por lo tanto, los motores de búsqueda robots basados ​​(araña o crawlers) buscan en la Internet después de que la 
búsqueda de información y clasifican de acuerdo a los vínculos y también el contenido que se encuentra en las páginas de búsqueda, como el principal portal de búsqueda web, Google.
Por lo tanto, cualquier página necesita ser trazada por el robot y por lo tanto pueden aparecer en los resultados de búsqueda de los mecanismos implicados.

Según Thurow (2003), los robots realizan tres acciones básicas:
En primer lugar encontrar las páginas del sitio (proceso conocido como gatear o rastreo) y crear una lista de palabras y frases que se encuentran en cada página; Con esta lista lo hacen una base de datos y encontrar las páginas exactas que deben buscar introduciendo el lugar buscó la base de datos organizada por las características generales que se encuentran en sus páginas. La máquina entra en el sitio en la base de datos general se llama divisor; Después de que el robot es ahora capaz de encontrar este sitio cuando el usuario final escriba una palabra o frase de búsqueda en el contenido que se encuentra en el sitio. Este paso se llama procesador de consultas.


Como podemos ver, detrás de cualquier búsqueda realizada en Internet, hay una serie de mecanismos que trabajan juntos para proporcionar un resultado satisfactorio para el usuario. El proceso parece algo complejo, sin embargo, nada perceptible para nosotros, meros buscadores de información.

This entry was posted in . Bookmark the permalink.

2 Responses so far.

  1. Unknown says:

    Hola Gente. La verdad que siempre hay que estar sumamente atentos, aunque hoy en día con las Redes Sociales todo se sabe mucho más rápido. Les dejo saludos.

  2. DAM2017 says:

    y cual es la diferencia?

Leave a Reply