viernes, mayo 19, 2006

En 3 minutos™: Buscar y encontrar

En este documento están comprimidas algunas ideas sobre los buscadores y cómo buscar en Internet, de tal forma que pueda leerse en el tiempo de tomarse un café... El tiempo de lectura calculado son 3 minutos, pero recuerde que no es una competición...

Recojo una sugerencia de mi idolatrada Misslucifer, quien me pedía, un poco harta, algunas directrices para realizar búsquedas con ciertas probabilidades de éxito. La mayoría utilizamos Google, así que pienso que podemos centrarnos en este buscador sin perder genericidad.

Ahora bien, ¿qué es un buscador? Pues un sistema compuesto de un "robot", una base de datos donde almacenar los resultados y un sistema que permita recuperar búsquedas.

El robot es el corazón de un buscador, y no es más que un programa algo complejo (normalmente ejecutado entre varios ordenadores) que se dedica a rastrear la web leyendo las páginas en busca de fragmentos de texto, palabras clave y enlaces a otras web. Por norma general, los procedimientos que utilizan para rastrear y ordenar la información son mantenidos en secreto para evitar que sean aprovechados por los webmásters para subir posiciones de forma fraudulenta. El éxito de Google se debe principalmente a la potencia de su robot, que "sabe" muy bien cómo ordenar las páginas por relevancia.

Hemos señalado que los robots, también conocidos como "arañas" recorren Internet buscando datos (recorren la "tela de araña", de ahí su nombre), y almacenan toda la información que obtienen en una base de datos, que es lo que consultamos cuando realizamos una búsqueda. En el caso de Google, la consulta que escribimos en su mítico cuadro de texto se traduce en un acceso a su base de datos, que responde con la información solicitada.

Ahora seamos prácticos (¡bien!): Google basa su funcionamiento en encontrar secuencias de texto en páginas web, así es que debemos pensar que Google buscará páginas cuya dirección, título o contenido coincida con el texto que escribamos. Sobre esta característica vamos a enunciar cuatro normas que nos harán la vida más productiva.

La primera norma está clara. Cuando busquemos en Internet la pregunta que debemos hacernos es: ¿qué texto tendrá la página que busco o cómo puede titularse? Supongamos que buscamos la letra de la la canción "Imagine" de John Lennon. Si busca imagine tal cual obtendrá muchos resultados, pero no el que busca. La web que busca contendra la letra, posiblemente sepa que comienza diciendo "imagine all the people". Si busca esto (comillas incluidas) obtendrá mejores resultados. Otra opción sería acompañar al término "imagine" del nombre de "John Lennon" o bien de "letras".

La segunda norma debería ser bastante lógica, pero a fe que no lo es. Una búsqueda debe ser general si buscamos un concepto general, y concreta si buscamos algo concreto. Si queremos información general sobre Linux, es mejor que busquemos "linux" tal cual. Si por el contrario tenemos un problema con un módem en Linux, deberíamos buscar "linux problema modem" y estaremos sobre la pista.

La tercera norma es conocer de lo que es capaz un buscador y de lo que no. Google no encontrará las fotos de su prima si escribe "fotos de mi prima", porque no es una persona (me refiero a Google, su prima supongo que lo es...), sino un programa informático que no conoce a su prima y que se limitará a buscar en Internet páginas donde se diga textualmente "fotos de mi prima". ¿Le parece muy obvio? No lo es, aun recuerdo haber leído en Quebuscasque la búsqueda "yo desnuda".

Cuarta regla, que enlaza con la tercera: ser conciso y preciso. Aunque usted llame discos a los disquetes, debería buscar por esta última si quiere obtener una web que le hable de ellos. Lo mismo pasa para todas las cosas, a Google no le importa cómo las llame usted.

La quinta regla: piense dónde busca, no obtendrá los mismos resultados con una búsqueda general que con una sólo en castellano. De hecho, limitar las búsquedas a páginas en su idioma puede ser una buena idea si está buscando "windows", o palabras que se utilizan en el inglés convencional. De la misma forma, si no obtiene resultados buscando en castellano, inténtelo con su equivalente en inglés, es más probable que encuentre lo que busca.

Una vez vistas las limitaciones generales, tenemos que pensar en la sintaxis concreta de Google en las búsquedas. Hay un montón de ayudas que podemos aplicar a la hora de refinar nuestra búsqueda, pero a mi juicio, lo más importante es saber que si indicamos un texto entre comillas, Google buscará las páginas que contengan exactamente esa secuencia. Resulta útil para buscar frases que conozcamos de libros, poemas, canciones... siempre que recordemos exactamente alguna frase... No lo pierda de vista.

La norma de oro de la informática es siempre la misma: Practique, pruebe, pregunte, investigue, enrede, rompa cosas... sólo así aprenderá. Y sobre todo no tenga miedo: recuerde que ahora puede pegar al equipo.

10 Comentarios:

A las 11:50 p. m., Anonymous Trebol-A escribió... (¡Gracias, Anonymous Trebol-A!)

Leyendote estaba recordando aquel concurso que sacaron que consistía en realizar una busqueda en la que con un solo término google devolviese un solo resultado.
Mira que probé palabras raras y mal escritas y no hubo manera.. o mostraba muchos ó no mostraba ninguno.

 
A las 1:11 a. m., Anonymous una documentalista-lista escribió... (¡Gracias, Anonymous una documentalista-lista!)

Algo que no has comentado y que es un fallo muy común es meter artículos, preposiciones y todo tipo de palabras vacías en las búsquedas ;)

 
A las 10:14 a. m., Anonymous DarkDrago escribió... (¡Gracias, Anonymous DarkDrago!)

Muy obvio todo,pero nunca esta de más recordarlo :P

También es bueno saber que google te permite hacer operaciones matemáticas, definiciones de palabras e incluso traducciones...

 
A las 2:30 p. m., Blogger Misslucifer escribió... (¡Gracias, Blogger Misslucifer!)

Que bien, al final te has animado y te ha quedado muy útil y clarito, esperemos que la cosa mejore (aunque sería una pena que ya no hubiera búsquedas divertidas en Quebuscasque) ;-)

 
A las 5:52 p. m., Blogger Juan Haldudo escribió... (¡Gracias, Blogger Juan Haldudo!)

Gracias por ésas ideítas, aunque ésta vez las sabía =P Confieso que últimamente lo que me interesa es el Google Bombing, pero por una buena causa...
Saludos.

 
A las 7:56 p. m., Anonymous Anónimo escribió... (¡Gracias, Anonymous Anónimo!)

Llevo día leyendo los post y antes que nada felicitar por la labor divulgadora que realiza este blog, explicando la informática de manera sencilla y clara.
Sin embargo no hay que descuidar por ello la rigurosidad, y en este sentido hay que aclarar que Google no usa una base de datos, sino un índice invertido (te reto a que expliques esto con la claridad que te caracteriza).

 
A las 8:34 p. m., Blogger Pau escribió... (¡Gracias, Blogger Pau!)

Estimado anonimo,
Muchas gracias por tus felicitaciones.

Respecto a lo que dices, la existencia de un índice no contradice la de una base de datos. En sentido estricto, posiblemente Google no utilice una base de datos relacional, pero sí un almacen distribuido (creo recordar que en unidades que llaman "barrels" o algo así, barriles).

A partir de los datos contenidos en el almacén, se generan dos índices: uno convencional y otro inverso. Las búsquedas del usuario no se traducen en consultas a bases de datos, sino en búsquedas sobre el índice. Pero pienso que aclarar todo esto no aporta gran cosa, salvo quizá que los lectores menos experimentados se hagan un lío.

Igualmente, muchas gracias por la precisión, no domino la arquitectura Google, por lo que a veces puede que simplifique demasiado...

Se puede explicar qué es un índice, y qué es un índice inverso, pero le veo la "pega" de que posiblemente los lectores no lo consideren muy interesante... lo consultaré con el equipo técnico que trabaja en la sombra con gran abnegación :-P

¡Saludos!

 
A las 12:36 a. m., Blogger Lucas J. escribió... (¡Gracias, Blogger Lucas J.!)

Pau! Como siempre, tu guía será muy útil para todo el mundo, pero has olvidado un detalle clave a la hora de atacar un buscador, y esto es los códigos de ayuda...

No los recuerdo todos, pero los que más utilizo son:
": Busca el ingreso textual
(clave)+(clave): Busca sitios donde ambas claves esten presentes. Es muy práctico para buscar por géneros Ej: Guitarra + Tablaturas
(clave)-(clave): Busca todo lo relacionado con la primer clave, omitiendo resultados que contengan la segunda Ej: Alaska - Economía

Y hay otras pero no las recuerdo. Saludos!

Pd: Pasa por los comentarios sobre tu cumpleaños que se me pasó el saludo.

 
A las 3:45 p. m., Anonymous Caronte escribió... (¡Gracias, Anonymous Caronte!)

Un detalle más. Si recuerdas dónde estaba lo que buscabas pero no concretamente puedes hacer

búsqueda google site: ahorapuedepegaralequipo.blogspot.com

 
A las 7:42 p. m., Blogger Ramón escribió... (¡Gracias, Blogger Ramón!)

Es una entrada muy muy básica, pero me gusta porque muchas veces es justamente eso lo que busca la gente :)

No obstante, para quien le interese, hace no mucho leí una entrada bastante interesante también acerca de este tema. En concreto, se citan algunos comandos avanzados bastante útiles para realizar búsquedas en Google, como intitle, inurl o cache.

En enlace a la entrada en cuestión es el siguiente:
http://www.j6o3s6e.com/blog/2006/04/19/busquedas-mas-detalladas-en-google/

 

Recuerda que nos hemos mudado a nosololinux.com

<< Home