Mostra el registre d'ítem simple
Diseño e implementación de un meta buscador de Internet
dc.contributor | Martín Muñoz, Mario |
dc.contributor.author | Marino Morán, Wilder David |
dc.contributor.other | Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics |
dc.date.accessioned | 2016-01-22T11:14:27Z |
dc.date.issued | 2007-01 |
dc.identifier.uri | http://hdl.handle.net/2117/81881 |
dc.description.abstract | Actualmente, Internet es la fuente de información más grande del planeta, el avance de los sistemas de información y de telecomunicaciones durante las últimas décadas, ha ayudado a que el crecimiento de las páginas web sea exponencial. Este gran volumen de información no está ordenada ni catalogada de ninguna manera, por lo que se convierten en un problema para los buscadores ya que no son capaces de desambiguar los significados y las búsquedas por palabras que realizan no son inteligentes, debido a la carencia de técnicas de Inteligencia Artificial para el descubrimiento y recuperación de información que realmente nos interesa. Los sistemas de Recuperación (RI) de Información se basan en el cálculo de alguna función de similitud entre la representación de un contexto de una palabra descrita mediante el feedback del usuario y los documentos de una colección. Aquellos documentos con un índice de similitud más alto, respecto al contexto dado, son los que, presuntamente, se ajustan mejor a las necesidades informativas expresadas por el usuario, de esta manera se reordenan las páginas ordenados por similitud, dejando para al final los documentos más irrelevantes. El modelo RI que proponemos es El Modelo Vectorial, que consiste en representar los documentos de una colección, en vectores de palabras, cada vector estará compuesto por todas las palabras diferentes que hay en el documento, y tendrá asociado la frecuencia en la que aparece cada palabra en su documento. Para ordenar los documentos por relevancia, necesitamos algún tipo de coeficiente o peso que intente expresar la importancia de cada palabra en cada uno de los documentos, este coeficiente puede calcularse en función del total de documentos, las palabras que hay en cada uno de ellos y la frecuencia tiene cada palabra en su documento. Por lo tanto, los nuevos vectores de documentos estarán formados por las palabras y el peso que tiene cada una de ellas en el documento. Con este modelo pretendemos calcular la similitud entre el contexto de la palabra que se está buscando, obtenido a partir del feedback del usuario y los n vectores de documentos. Este contexto estará representado en un “documento prototipo”, que no es mas que un vector, formado por todas las palabras que aparecen en cada uno de los documentos de la colección, con sus pesos inicializados a 0. La visión lógica de los documentos, nos proporcionará toda la información necesaria sobre su contenido, es decir, todas las palabras que contiene y además la importancia que tiene en su documento (peso). La idea de este proyecto es que un usuario pueda realizar meta búsquedas inteligentes en Internet, según sus parámetros, se lanza la búsqueda y se obtiene unos resultados que debemos analizar. A cada link encontrado, obtenemos el código de la página y tras un proceso de normalización y filtrado obtenemos el texto del documento, para posteriormente obtener nuestra estructura lógica de documentos. Mediante el feedback del usuario, cada vez que se muestra una página, el sistema debe ser capaz de encontrar otra página (procedentes de los resultados obtenidos previamente) con la misma o diferente similitud, es decir con el mismo o diferente contexto de la palabra, dependiendo de la información facilitada a través de las interacciones usuaria-máquina. El documento prototipo será el punto de referencia para obtener la siguiente página con la misma o diferente similitud, es decir que se calculará el producto escalar del documento prototipo con todos los demás documentos de la colección que queden pendientes por mostrar y se visualizara al usuario el documento que haya obtenido mayor producto escalar. |
dc.language.iso | spa |
dc.publisher | Universitat Politècnica de Catalunya |
dc.subject | Àrees temàtiques de la UPC::Informàtica::Sistemes d'informació |
dc.subject.lcsh | Search engines |
dc.subject.other | Internet |
dc.subject.other | Búsqueda inteligente |
dc.subject.other | Recuperación de la información |
dc.subject.other | Aprendizaje |
dc.subject.other | Inteligencia artificial |
dc.subject.other | Lenguaje natural |
dc.title | Diseño e implementación de un meta buscador de Internet |
dc.type | Master thesis (pre-Bologna period) |
dc.subject.lemac | Recuperació de la informació |
dc.rights.access | Restricted access - author's decision |
dc.date.lift | 10000-01-01 |
dc.audience.educationlevel | Estudis de primer/segon cicle |
dc.audience.mediator | Escola Politècnica Superior d'Enginyeria de Vilanova i la Geltrú |
dc.audience.degree | ENGINYERIA TÈCNICA D'INFORMÀTICA DE GESTIÓ (Pla 1992) |