Diseño e implementación de un meta buscador de Internet

Marino Morán, Wilder David

dc.contributor	Martín Muñoz, Mario
dc.contributor.author	Marino Morán, Wilder David
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics
dc.date.accessioned	2016-01-22T11:14:27Z
dc.date.issued	2007-01
dc.identifier.uri	http://hdl.handle.net/2117/81881
dc.description.abstract	Actualmente, Internet es la fuente de información más grande del planeta, el avance de los sistemas de información y de telecomunicaciones durante las últimas décadas, ha ayudado a que el crecimiento de las páginas web sea exponencial. Este gran volumen de información no está ordenada ni catalogada de ninguna manera, por lo que se convierten en un problema para los buscadores ya que no son capaces de desambiguar los significados y las búsquedas por palabras que realizan no son inteligentes, debido a la carencia de técnicas de Inteligencia Artificial para el descubrimiento y recuperación de información que realmente nos interesa. Los sistemas de Recuperación (RI) de Información se basan en el cálculo de alguna función de similitud entre la representación de un contexto de una palabra descrita mediante el feedback del usuario y los documentos de una colección. Aquellos documentos con un índice de similitud más alto, respecto al contexto dado, son los que, presuntamente, se ajustan mejor a las necesidades informativas expresadas por el usuario, de esta manera se reordenan las páginas ordenados por similitud, dejando para al final los documentos más irrelevantes. El modelo RI que proponemos es El Modelo Vectorial, que consiste en representar los documentos de una colección, en vectores de palabras, cada vector estará compuesto por todas las palabras diferentes que hay en el documento, y tendrá asociado la frecuencia en la que aparece cada palabra en su documento. Para ordenar los documentos por relevancia, necesitamos algún tipo de coeficiente o peso que intente expresar la importancia de cada palabra en cada uno de los documentos, este coeficiente puede calcularse en función del total de documentos, las palabras que hay en cada uno de ellos y la frecuencia tiene cada palabra en su documento. Por lo tanto, los nuevos vectores de documentos estarán formados por las palabras y el peso que tiene cada una de ellas en el documento. Con este modelo pretendemos calcular la similitud entre el contexto de la palabra que se está buscando, obtenido a partir del feedback del usuario y los n vectores de documentos. Este contexto estará representado en un “documento prototipo”, que no es mas que un vector, formado por todas las palabras que aparecen en cada uno de los documentos de la colección, con sus pesos inicializados a 0. La visión lógica de los documentos, nos proporcionará toda la información necesaria sobre su contenido, es decir, todas las palabras que contiene y además la importancia que tiene en su documento (peso). La idea de este proyecto es que un usuario pueda realizar meta búsquedas inteligentes en Internet, según sus parámetros, se lanza la búsqueda y se obtiene unos resultados que debemos analizar. A cada link encontrado, obtenemos el código de la página y tras un proceso de normalización y filtrado obtenemos el texto del documento, para posteriormente obtener nuestra estructura lógica de documentos. Mediante el feedback del usuario, cada vez que se muestra una página, el sistema debe ser capaz de encontrar otra página (procedentes de los resultados obtenidos previamente) con la misma o diferente similitud, es decir con el mismo o diferente contexto de la palabra, dependiendo de la información facilitada a través de las interacciones usuaria-máquina. El documento prototipo será el punto de referencia para obtener la siguiente página con la misma o diferente similitud, es decir que se calculará el producto escalar del documento prototipo con todos los demás documentos de la colección que queden pendientes por mostrar y se visualizara al usuario el documento que haya obtenido mayor producto escalar.
dc.language.iso	spa
dc.publisher	Universitat Politècnica de Catalunya
dc.subject	Àrees temàtiques de la UPC::Informàtica::Sistemes d'informació
dc.subject.lcsh	Search engines
dc.subject.other	Internet
dc.subject.other	Búsqueda inteligente
dc.subject.other	Recuperación de la información
dc.subject.other	Aprendizaje
dc.subject.other	Inteligencia artificial
dc.subject.other	Lenguaje natural
dc.title	Diseño e implementación de un meta buscador de Internet
dc.type	Master thesis (pre-Bologna period)
dc.subject.lemac	Recuperació de la informació
dc.rights.access	Restricted access - author's decision
dc.date.lift	10000-01-01
dc.audience.educationlevel	Estudis de primer/segon cicle
dc.audience.mediator	Escola Politècnica Superior d'Enginyeria de Vilanova i la Geltrú
dc.audience.degree	ENGINYERIA TÈCNICA D'INFORMÀTICA DE GESTIÓ (Pla 1992)

Fitxers d'aquest items

Nom:: Memoria.pdf
Mida:: 876,1Kb
Format:: PDF
Descripció:: Memòria

Visualitza/Obre

Nom:: Annexos.pdf
Mida:: 1,020Mb
Format:: PDF
Descripció:: Annexos

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

E. T. en Informàtica de Gestió (Pla 1992) [225]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Diseño e implementación de un meta buscador de Internet

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora