Recuerdo que hace mucho tiempo en la documentación del motor de búsqueda Altavista (qué buenos momentos pasábamos juntos, yo con algo menos de canas y bastante kilos menos, el motor ocupando todos nuestros corazones hasta que le traicionamos por Google) se nos indicaba que podíamos realizar preguntas en "lenguaje natural", es decir, tal y como las llevamos a cabo cuando hablamos con otra persona y recuerdo bien que el ejemplo era "restaurantes en Montevideo" y también recuerdo que al menos dos o tres de las primeras direcciones que salían en la respuesta eran de sitios donde seguramente se come una carne estupenda cocinada en plan criollo (o gaucho, vete tú a saber que aquello me pilla algo lejos).
Desde entonces no había vuelto a tener noticia de si esa posibilidad de búsqueda había caido en el olvido o similar hasta hace un rato que he leído en ReadWrite Web un post dedicado a ese tipo de preguntas en Google que parece haberlo implementado recientemente y que en Inglés denominan 'factual questions' (lo que vendrían a ser "cuestiones factuales" o "interrogaciones directas" en Español). En este tipo de preguntas el motor favorece a aquellos documentos donde la información aparece estructurada claramente en el formato sintáctico tradicional de "sujeto-verbo-objeto directo" y las incluye en los primeros lugares de la respuesta. Parece ser que Microsoft también está interesada en este tema y el pasado verano adquirió por la redonda cifra de 100 millones de dólares Powerset (una tecnología de búsqueda dentro de documentos de Wikipedia, hablaremos de ella en otro post) pero actualmente su motor live.com no ofrece esta prestación.
He probado en Google a preguntar algunas cosas sobre baloncesto, cuál es el nombre del hermano de Pau Gasol ('what's the name of Pau Gasol brother?') y quién es el base de los Phoenix Suns ('who's the guard of Phoenix Suns?'). Lo cierto es que en ambos casos el motor me ha dicho que el hermano (el más conocido claro) es Marc y que el base de los Phoenix Suns es Steve Nash (que no Shaquille O'Neal quien seguramente es el jugador más famoso).
Si bien lo anteriormente expuesto de por sí parece interesante y puede ayudar a muchas personas reticentes a emplear IRSWEB a animarse a probar su efectividad, lo que en realidad destacan en el post de ReadWrite Web es el procesamiento del lenguaje que viene a hacer Google ahora y que hasta ahora no se había producido. Si el documento está bien estructurado sintácticamente podría plantearse la posibilidad de que un software fuera capaza de extraer significado del mismo por lo que estaríamos hablando de desarrollos y realidades -la Indización Automática, la Web Semántica, etc.- que hasta ahora parecían mitos (como Aquiles ante las murallas de Troya), a los que el largo brazo de Google parece querer "echarles el guante".
jueves, enero 15, 2009
¿Se pueden realizar preguntas normales a los IRSWEB?
Suscribirse a:
Enviar comentarios (Atom)
4 comentarios:
Hola Javier me parece un blog super completo, no recuerdo que nos lo comentaras en clase, lo he encontrado por casualidad mientras buscaba información sobre las gráficas de exhaustividad y precisión para SARI. Creo que me servirá en bastantes aspectos, así que gracias y felicidades!!!
Sonia Tovar
Muy interesante el blog. Te invito a visitar mi sitio haciendo click aquí.
Hola Profesor
Soy Colombiano y me hes grato encontrar espacios tan importantes y de alta calidad de la información como el que vos has construido.
Y si es posible en tu espacio de tiempo, que compartas un poco de tu experiencia con tus valiosos comentarios en mu blogger: http://recuperacion-info.blogspot.com/
Simplemente comentar que en la línea de lo que comentas en este artículo, acaban de anunciar el lanzamiento de "Wolfram Alpha", un motor de respuestas concretas a preguntas en lenguaje natural. Lo curioso es que dice que no utiliza ninguna tecnología de la Web Semántica.
Todavía está en beta cerrada: http://www.wolframalpha.com
Publicar un comentario en la entrada