var memory = 0; var number = 0;

<+ reflexión / análisis / acción / transformación / +>

11.10.05

Buceando en las profundidades de internet.

El contenido de internet se asemeja a un iceberg. Hay una parte que asoma a la superficie y que es fácilmente accesible a través de los buscadores. Pero existe una web profunda, hasta 500 veces más grande, que escapa de los motores de búsqueda. En ella se encuentra la información de numerosas bases de datos especializadas. Y, a pesar de que los buscadores cada vez son más hábiles a la hora de recuperar todo tipo de documentos, una gran parte de la web sigue siendo invisible a primera vista.

Los buscadores son la puerta de entrada al vasto océano de información que existe en internet. Sin embargo, no todos los contenidos de la red son objeto de una simple búsqueda en Google, Yahoo, Lycos o Altavista. Así, la internet profunda está formada por todos los documentos a los que no se puede acceder a través de directorios y los enlaces que ofrecen los resultados de los buscadores convencionales. Todo el ejército de arañas (motores de búsqueda) que recorren internet para fichar su contenido palabra por palabra y relacionarlo con una dirección (URL)no consigue indexar más que una pequeña parte de toda la red, priorizando el contenido más popular (es decir, los más visitados) o escrito en lenguas mayoritarias. Gracias a los buscadores especializados se cubren estas zonas de sombra (siempre dentro de la internet visible). Pero queda una gran parte oculta que contiene hasta 500 veces más información que la disponible a través de los buscadores. Esa zona menos accesible de internet está formada por:

•El contenido de las bases de datos a las que se puede acceder a través de la red, que almacena información sólo recuperable a través de búsquedas en la propia base de datos (sin poder acudir a cada registro de manera individual desde un enlace en otra página o un buscador al uso).
•Todo lo que no es texto (archivos multimedia, gráficos, programas, etcétera) o los documentos creados con formatos distintos al lenguaje común en internet (por ejemplo HTML).


Aunque la parte accesible de la web ha aumentado sustancialmente, también lo ha hecho el área menos visible (a un ritmo mayor), a medida que se crean nuevas bases de datos o crecen y se digitalizan las ya existentes. La gran competencia entre los buscadores ha redundado en el desarrollo de tecnologías más avanzadas, que consiguen escarbar cada vez más en la internet invisible. A través de los buscadores se localizan bases de datos especializadas o se accede a apartados específicos para recuperar noticias, imágenes, mapas y artículos para comprar, a la vez que se aceptan más formatos distintos al HTML.

¿Por qué es invisible?
Existen dos motivos fundamentales que explican por qué el contenido de internet no está incluido en directorios o no es registrado por los motores de búsqueda: las barreras técnicas que impiden el acceso y la elección de los propios buscadores a la hora de excluir algunos tipos de páginas. Las bases de datos de los buscadores son generadas por robots que navegan por internet escudriñando en el contenido de páginas estáticas, que para ser indexadas deben estar enlazadas desde otras páginas. Si no existe un enlace a una página determinada, el robot no la puede ver. Estas arañas que alimentan las bases de datos tampoco pueden registrar el contenido de las páginas a las que no pueden entrar, o bien porque requieren teclear algo (una palabra de acceso, por ejemplo) o bien porque es preciso elegir entre varias opciones para llegar al contenido. Tanto las bases de datos como los robots de los buscadores están optimizados para manejar HTML, el lenguaje estándar de la web. Algunos buscadores excluyen de sus resultados las páginas que están en otros formatos, bien porque son inusuales, bien porque los usuarios las solicitan con poca frecuencia. Asimismo, las páginas sin texto son omitidas en los buscadores generales, aunque casi todos los importantes han desarrollado un apartado especial para localizar imágenes.

Bucear en las profundidades
La información de la internet profunda no es realmente invisible, pues más de la mitad se encuentra en bases de datos especializadas. Lo que ocurre es que al no estar al alcance de los buscadores tradicionales requiere del usuario un esfuerzo adicional para localizarla, o del conocimiento de las herramientas y directorios específicamente creados para bucear en el abismo de la red. En cualquier caso, dentro de lo que se conoce como internet invisible o profunda se encuentra todo tipo de contenidos de interés general. A saber:

•Toda la información o datos susceptibles de formar parte de una base de datos o directorio, como las guías telefónicas y páginas amarillas, listados de profesionales, anuncios clasificados, definiciones de diccionarios, leyes, patentes, artículos de tiendas o subastas online, etcétera.
• La información reciente que cambia de forma dinámica: noticias, ofertas de empleo, ofertas de vuelos u hoteles, información de los mercados (cotizaciones).

Afortunadamente, existen en internet numerosos recursos para localizar lo que la red misma oculta a simple vista. De entrada, es fácil encontrar Bases de Datos sobre las que realizar búsquedas después, a través de la mayoría de los directorios generales, cuyo máximo exponente de entre los editados por humanos es el Open Directory Project. Sin embargo, existen otros directorios de especial interés para el ámbito académico como Librarians Index, Academic Info o Infomine, la gran mayoría en inglés (idioma responsable de un buen porcentaje del contenido de la red). También se puede utilizar cualquier buscador generalista para localizar bases de datos, simplemente añadiendo “bases de datos” al término deseado. Así, al buscar en Google Bases de Datos de Medicina se accede fácilmente a la recopilación de la biblioteca virtual en salud; o tecleando Bases de Datos en Español se puede acceder a los directorios de la UNED o de fisterra.com. Además, existen directorios especialmente destinados a recuperar información invisible, como The Invisible Web Directory, creado para acompañar al libro “The Invisible Web: Uncovering Information Sources Search Engines Can’t See. También están los buscadores especializados en información científica y bases de datos, como Complete Planet, IncyWincy, ProFusion,(antes Invisibleweb.com) y, en español internetinvisible.com.

Es mi deseo queridos lectores que estos datos les sean de utilidad para mejorar sus búquedas en internet, pero recuerden que el mejor lugar donde encontrar respuestas a cuestiones fundamentales y profundas es en el interior de cada ser humano.

Marcos Bauzá.

-->

<< Home