viernes, abril 07, 2006

¿Es Internet una base de datos?

¿Se puede considerar Internet como la mayor base de datos que existe en la actualidad? Es una pregunta complicada, pero vamos a contestarla. Vayamos por partes... La primera cuestión es si consideramos o no Internet como una base de datos. Si efectivamente lo hacemos, es sin duda la mayor base de datos que existe en el mundo...

¿Qué es una base de datos? Sin más, es una colección de datos almacenados de forma sistemática. Actualmente, la aplastante mayoría de las bases de datos son electrónicas, debido fundamentalmente a las facilidades que proporciona la informática en el tratamiento de datos (tenemos que recordar que el primer computador de la era moderna fue desarrollado para realizar el censo de los EEUU)

A la hora de incorporar datos a una recopilación, ésto puede hacerse de muchas maneras. Es decir, para almacenar información necesitamos un "esqueleto", un método que nos diga cómo organizarlo todo. Siendo técnicos, a ésto lo llamamos "modelo de datos".

Hay bases de datos que siguen una organización jerárquica, como formando un árbol. Otras tienen una estructura más dinámica y caótica, y se organizan en forma de red. El modelo que usan la mayoría de las bases de datos es el modelo relacional. De ahí que tal vez le suene haber leído "base de datos relacional". Hay, como digo, muchos tipos de organizaciones, y con probabilidad, irán apareciendo nuevos "paradigmas" con el paso del tiempo. Éstas organizaciones son formas que tenemos de hacer la información clasificable y relacionable automáticamente, no tienen otra utilidad que esa.

Sin embargo, Internet no parece seguir una estructura definida, es más bien una gigantesca maraña desorganizada de información. Según eso, y aceptando la definición de base de datos como recopilación de información estructurada, no se puede decir que Internet sea una base de datos. No obstante, tenemos que abrir un poco la mente y para pensar que no todo lo que no obedece unas normas debe ser sistemáticamente menospreciado: los formalismos están bien para ciertas cosas, pero tarde o temprano se nos terminan quedando pequeños.

Así, cuando se definió el modelo entidad-relación (MER) se pensaba que era la tecnología definitiva. Tuvo que llegar Codd y proponer un modelo relacional (MR) muy consistente para que el MER cayera en desuso... y de igual modo, el paradigma de bases de datos orientadas a objetos (OODB o BDOO) amenaza con destruir el MR... Cómo nos gustan las siglas a los informáticos ¿eh?

Desde mi punto de vista, el concepto base de datos es útil en cuanto hace referencia a una recopilación de datos que permite su manipulación, y no en cuanto expresa un conjunto de datos expresados de acuerdo a ciertos formalismos. Con la popularización de la web, y la generalización del uso de los buscadores queda evidenciado que podemos acceder a datos sin que éstos presenten una estructura formalizada, es decir, un "modelo".

Según un estudio de hace unos años, se calcula que el 80% de los datos que las compañías almacenan se encuentran en forma no estructurada (por ejemplo, en vez de estar en la base de datos se encuentran escritos en un fichero de texto). Lo mismo pasa en la web, donde la estructura brilla por su ausencia. Sin embargo, conocemos herramientas que permiten recuperar información de fuentes no estructuradas basándose en palabras clave y otras técnicas. Y cualquier buscador nos permite obtener información sobre millones de fuentes en pocos segundos, mientras que una consulta a una base de datos relacional de tamaño medio puede llevar cierto tiempo si han de cruzarse datos de tablas.

Ésto no quiere decir que deban dejar de utilizarse las bases de datos convencionales, pero hay que tener en cuenta que muchas formas de almacenar la información sin estructura y recuperarla, eran irreales hace unos años y hoy día son completamente viables. Google Desktop Search nos permite indizar (o "indexar", depende de gustos) archivos de nuestro ordenador y hacer búsquedas casi instantáneas, al igual que en la web. ¿Para qué necesitaría entonces formalizar mis datos en una base relacional?

Podemos ver a una base de datos como una "caja" a la que introducimos una consulta y nos devuelve un resultado. Lo mismo podemos hacer en Internet, aunque eso sí, con mecanismos un tanto diferentes. Pero al final el resultado es muy similar: las dos cajas negras nos devuelven la información que queremos.

Si somos estrictos, Internet no puede considerarse una base de datos. Sin embargo, podemos recuperar información relevante de la red en muy poco tiempo y sin demasiado esfuerzo, que es el objetivo que persiguieron los primeros formalismos para bases de datos. Si la web permite almacenar datos y recuperarlos con ciertos mecanismos fiables, ¿por qué no se le puede considerar una base de datos? ¿qué buscamos con una base de datos que nos proporcione Internet?

Desde mi óptica, podemos entender Internet como una enorme entidad capaz de almacenar un conocimiento incuantificable. Si nos vemos desde fuera, esa enorme maraña de cables y equipos es una verdadera red de neuronas que mantiene milagrosamente vivo un conocimiento inabarcable. No nos preguntemos ¿qué es una base de datos? sino ¿para qué nos sirve a los humanos una base de datos? y veremos que no existen motivos que nos impidan otorgar ésta consideración al invento más influyente de los últimos tiempos.

8 Comentarios:

A las 6:33 p. m., Anonymous Anónimo escribió... (¡Gracias, Anonymous Anónimo!)

Que tochazo de post nen! XDD lo he tenido que leer de dos pasadas, una en la facultad y otra aqui XDDDDD
Interesante, y el final te ha quedado de lo mas filosófico XDD

 
A las 12:21 a. m., Anonymous Anónimo escribió... (¡Gracias, Anonymous Anónimo!)

Considerar a Internet como una base de datos es un tema relativo ya que un gran porcentaje de lo que hay en Internet no tiene un relevancia muy importante. Yo descartaría sitios porno, sitio de juegos de casinos y otros muchos.

Quizás si de a poco todos nos pusiéramos de a cuerdo en compartir la información de nuestros sitios bajo un formato estándar y otros sitios pudieran disponer de nuestra información sería un punto interesante para lograr esa gran base de datos mundial.

 
A las 1:13 a. m., Blogger Pau escribió... (¡Gracias, Blogger Pau!)

Muchas gracias a ambos por leer el texto y por dejar los comentarios, parece que cuanto más se lo curra uno menos le leen... en fin, Internet nunca deja de sorprenderte O_O

Nico: tu valoración es muy interesante, y de hecho, si buscas sobre un tema muy específico en castellano, puedes deprimirte: hace un par de días pasé con un compañero horas de buscador en buscador y sólo encontrábamos cientos de plagios de un unico artículo :-P En realidad, para encontrar algo original es casi obligatorio buscar en inglés... pero como fuente de datos, Internet está poco valorada.

Muy interesante la idea de estandarizar el formato en la compartición de conocimientos. Desde mi punto de vista los blogs son un salto importante en esa dirección, veremos cómo continua ésto... Lo dicho, mucha gracias a ambos, ya tenía la cuchilla sobre las venas :-P

 
A las 12:13 p. m., Blogger Misslucifer escribió... (¡Gracias, Blogger Misslucifer!)

¡Yo estaba convencida de que había comentado! No se que pasa, ultimamente estoy teniendo problemillas..

Decía que con lo que a mí me gusta el orden (el desorden me provoca histerismo :P), me fastidia un poco que en Internet, lo que es útil (abundante en términos absolutos y escaso en relativos) esté junto a lo que no lo és (abundantísimo se mire como se mire).

Pero a pesar de todo, estoy de acuerdo en que es una buena base de datos... Y lo mejor es que es extensísima, abarcando todo tipo de asuntos, y está al alcance de todos, lo que lo hace aún mejor. ¡Las posibilidades de mejora en el futuro lo hacen aun más prometedor como base de datos!

Dices que los blogs son una forma de estandarización de los conocimientos compartidos, si, pero... ¿Te has parado a pensar que la mayoría de los blogs no están destinados a compartir conocimientos útiles para la mayoría de la gente?

Desde luego, excepciones como la tuya demuestran que es mejor la calidad de unos pocos que la cantidad ;)

 
A las 6:19 p. m., Blogger Pau escribió... (¡Gracias, Blogger Pau!)

Misslucifer: Los comentarios de blogger llevan unos dias funcionando muy lentamente, o al menos a mí me pasa...

Respecto a lo que comentas acertadamente, Internet es un caos absoluto, y hasta hace años sólo era posible recuperar información de entornos ordenados. Los buscadores por indexación han permitido la búsqueda en entornos no formalizados.

Supongo que con la aparición de Internet2 la red vuelva un poco a su propósito inicial, veremos qué pasa. Y gracias por los elogios :^b

¡Saludos!

 
A las 1:48 a. m., Blogger Simon Per escribió... (¡Gracias, Blogger Simon Per!)

Primero una cosa, sobre eso de que "mientras más te lo curras menos gente te lee"... quizá les pasa como a mí: que te han entendido perfectamente, les has dejado impresionados y no les ha venido ningún comentario a la mente. Pero seguro que sí que te han leído! (Bueno, eso lo comprabarás tú con las estadísticas, claro xD).

Y segundo: leyendo los comentarios sí que se me ha ocurrido algo que decir :-D. Nico dice que abría que descartar muchos sitios, comos los porno y los casinos. Yo con esto no estoy de acuerdo: en las páginas porno, queramos o no, también se almacena información, dado que las películas y grabaciones son información en sí, como lo es el hecho de que el actor X se acueste con la actriz Y y realice las tropecientas posturas del Kamasutra xD. No se me ocurre ningún ejemplo para los casinos on-line, así que eso sí que los descartaría yo también. Adonde yo quiero llegar es que para designar a Internet como una base de datos o no tenemos que hacer una distinción entre los diferentes tipos de información. Es decir, no es lo mismo "posturas de todos los partidos políticos del mundo sobre la elección de Bush como presidente del gobierno americano" que "a Sxim se le cayó una galleta a la bandeja mientras la mojaba en la leche para cenar mientras veía la tele". Ambos son datos, pero el interés que provocan no es parecido ni de lejos visto por un tuerto. Si consideramos a Internet como base de datos tendríamos un tipo de base de datos que abarca todos los posibles grados de información, con las características consecuentes de que es una base de datos incompleta (no soy capaz de imaginar "toda" la información del mundo reunida en tiempo real, porque su cantidad es, si no infinita, inestimable, me explico en la PD) y en constante cambio y crecimiento. Un posible defecto es que en esa base de datos no todo está explícitamente relacionado, es decir, en este post no se enlaza a ninguna otra parte de las miles que debe haber en Internet que hablen sobre bases de datos. Claro que para eso están los buscadores. Y creo que me estoy enrollando demasiado, así que acabo con estos razonamientos aquí y quien tengas dudas que pregunte ;-D.

Y ahora vienen las dudas/cuestiones: qué es eso de Internet2? ¿es lo mismo que la web 2.0? en ese caso, ¿alguien me lo explica de manera que yo lo pueda entender?

Y aquí viene la Posdata, que, además, es una cuestión para el consultorio Segmentation Fault: ¿a qué cantidad, en unidades de bits, podría ascender *TODA* la información existente? Es decir, incluyendo información del tipo "la habitación de Sxim se ve de esta manera [imagen] desde las coordenadas (25, -7, 0) situando el origen del sistema en su esquina superior izquierda más cercana a la ventana" hasta el tipo "el cambio X [entiéndase uno sencillo] puede influir de esta manera en la economía mundial", pasando por "en este vídeo se ve un hombre corriendo por la playa". ¿Sería esto posible? Es más, ¿sería posible mantener todos los cambios de información en tiempo real? En caso de serlo, ¿está muy lejos?

Sé que son muchas preguntas y probablemente muy difíciles de responder, pero llevo mucho tiempo barruntándolo. Gracias de antemano!

 
A las 11:14 a. m., Blogger Pau escribió... (¡Gracias, Blogger Pau!)

Um, interesantísimo. Tienes razón en tu valoración sobre cuándo la gente escribe comentarios, sólo intentaba dar un poco de lástima :-P

Me ha encantado tu comentario y las complicadas dudas que planteas. Respecto a qué información debe ser descartada, tal vez despreciemos las webs donde simplemente puede estar escrito, como dices, que tal persona se levantó hoy a las 12, pero a mí eso me parece fantástico. Creo que no lo consideramos información porque nunca nos ha dado por escribir esas cosas en libros. Pero hoy tenemos fuerza para almacenar digitalmente todas las idioteces que queramos. Hace diez años, ¿cómo habría conseguido yo la gente leyera mis artículos? imposible. Nuestros bisnietos tendrán una cantidad increíble de información sobre nosotros...

Respecto a las dudas:

Lo de Internet2 lo explicaré en un post, es algo muy muy interesante...

Lo de la cantidad de información existente es complicado. Técnicamente la información no puede medirse, sólo los datos. Información es que he desayunado galletas, pero hay muchas formas de representarlo: con la frase "he desayunado galletas", con un dibujo, con un sonido... eso son los datos. Para poder cuantificar cuánto ocupa un dato en bytes tenemos que digitalizarlo (ponerlo en 1 y 0), y considerar que hay formas de comprimirlo. ¿Qué cuenta: un dibujo escaneado de Sxim comiendo galletas o ese dibujo comprimido en un jpg? Entonces, tendríamos que tomar toda la información de que disponemos, digitalizarla segun un formato estándar y confiar en que pudiéramos almacenarla en algún sitio... luego podríamos calcularlo, pero pienso que es incuantificable por el momento. Pero calculo que en 30 - 40 años podría ser muy posible, y antes si se conside desarrollar la computación cuántica.

No me siento capaz de estimar la cantidad de información existente, y seguro que su magnitud se escapa de nuestro sistema métrico... cuantificar los datos puede ser más sencillo: podemos estimar los contenidos públicos de Internet de todo tipo, estimar los datos que almacena cada ordenador personal y multiplicar por el número de ordenadores personales. No son dará un resultado preciso, pero podemos aproximarnos en su orden: terabytes, petabytes... lo que fuera...

Espero resultar de ayuda, gracias a tí por esas pedazo preguntas :-)

 
A las 12:20 p. m., Anonymous Anónimo escribió... (¡Gracias, Anonymous Anónimo!)

con un poquito de retraso... muchas gracias por el post tan currado!
saludines a todos :p

 

Recuerda que nos hemos mudado a nosololinux.com

<< Home