Cuál es la diferencia entre los robots, spider y crawler
Lo
primero que tienes que saber es qué son cada uno, si son diferentes y que es lo
que hacen. Cada día son más los sitios que se están modernizando y tratando de
mantenerse en la cima de los resultados de búsqueda. Sin embargo, lo que se,
necesita es una inversión en conocimiento para lograr un mejor posicionamiento.
Debido al considerable aumento del
material disponible en la web, es fundamental para determinar tu existencia con
el fin de seguir siendo competitivos. Un sitio que está en el ranking en la
búsqueda que seguramente será beneficiado.
Para
que todo esto suceda los motores de búsqueda se definen como una base de datos
capaz de encontrar los resultados basados en
las palabras o términos utilizados por el usuario. El ranking de los motores de
búsqueda esta basado en
robots (arañas o crawlers).
Como definición, tenemos:
Crawler
Se
trata de un software desarrollado para realizar una exploración en Internet de
una manera sistemática a través de la información percibida como relevante para
su función. Capturan el texto de las páginas y los enlaces encontrados y por lo
tanto permiten encontrar nuevas páginas. Es una de las bases de los motores de
búsqueda, que son responsables de la indexación de sitios web, almacenarlos en
la base de datos de los buscadores. Es también conocido como araña o Bot
(robot).
El
proceso que se ejecuta un rastreador web se llama Web Crawler o rastreador.
Muchos sitios, en particular los motores de búsqueda utilizan rastreadores para
mantener una base de datos actualizada. Los rastreadores web son usados básicamente
para realizar una copia de todas las páginas visitadas para post-procesamiento
por un motor de búsqueda que indexa las páginas descargadas para proporcionar
búsquedas rápidas. Los rastreadores también se pueden utilizar para tareas de
mantenimiento automatizadas en un sitio web, como la comprobación de enlaces o
la validación de código HTML. Las spiders también pueden ser utilizadas para
obtener los tipos específicos de información de páginas web, como direcciones
de correo electrónico (más comúnmente como spam).
Bueno,
los rastreadores de motores de búsqueda por lo general buscan información
acerca de los permisos sobre el contenido. En especial hay dos maneras de
bloquear un rastreador que indexe una página en particular (y los enlaces
contenidos en ella). La primera, y más común, es a través del archivo
robots.txt. La otra forma es a través de la etiqueta meta robots con el valor
"noindex" o "nofollow", que sirve para no indexar (la
página en sí) y no por debajo (los enlaces en la página), respectivamente.
También hay una tercera posibilidad, mucho menos explotado, que está utilizando
el rel = "nofollow" para los enlaces, lo que indica que el rastreador
que enlazan, en particular, no se debe seguir.
Araña
También
conocido como Robot, Bot o Cadenas. Estos son los programas utilizados por los
motores de búsqueda para navegar por Internet y descargar automáticamente
contenido sitios web. Metódicamente, expone el contenido que estime pertinente
en el código fuente de los sitios, y almacena el resto en su base de datos. Por
lo tanto, los motores de búsqueda robots basados (araña
o crawlers) buscan en la Internet después de que la
búsqueda de información y
clasifican de acuerdo a los vínculos y también el contenido que se encuentra en
las páginas de búsqueda, como el principal portal de búsqueda web, Google.
Por
lo tanto, cualquier página necesita ser trazada por el robot y por lo tanto
pueden aparecer en los resultados de búsqueda de los mecanismos implicados.
Según
Thurow (2003), los robots realizan tres acciones básicas:
En
primer lugar encontrar las páginas del sitio (proceso conocido como gatear o
rastreo) y crear una lista de palabras y frases que se encuentran en cada
página; Con esta lista lo hacen una base de datos y encontrar las páginas
exactas que deben buscar introduciendo el lugar buscó la base de datos
organizada por las características generales que se encuentran en sus páginas.
La máquina entra en el sitio en la base de datos general se llama divisor; Después
de que el robot es ahora capaz de encontrar este sitio cuando el usuario final
escriba una palabra o frase de búsqueda en el contenido que se encuentra en el
sitio. Este paso se llama procesador de consultas.
Como
podemos ver, detrás de cualquier búsqueda realizada en Internet, hay una serie
de mecanismos que trabajan juntos para proporcionar un resultado satisfactorio
para el usuario. El proceso parece algo complejo, sin embargo, nada perceptible
para nosotros, meros buscadores de información.
Hola Gente. La verdad que siempre hay que estar sumamente atentos, aunque hoy en día con las Redes Sociales todo se sabe mucho más rápido. Les dejo saludos.
y cual es la diferencia?