Information retrieval from scientific abstract and citation databases: A query-by-documents approach based on Monte-Carlo sampling

Lechtenberg, Fabian; Farreres de la Morena, Xavier; Galvan Cara, Aldwin Lois; Somoza Tornos, Ana; Espuña Camarasa, Antonio; Graells Sobré, Moisès

doi:10.1016/j.eswa.2022.116967

Visualitza/Obre

Main article (1,692Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Lechtenberg, Fabian

Farreres de la Morena, Xavier

Galvan Cara, Aldwin Lois

Somoza Tornos, Ana

Espuña Camarasa, Antonio

Graells Sobré, Moisès

Tipus de documentArticle

Data publicació2022-08-01

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 4.0 International

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 4.0 Internacional

Abstract

The rapidly increasing amount of information and entries in abstract and citation databases steadily complicates the information retrieval task. In this study, a novel query-by-document approach using Monte-Carlo sampling of relevant keywords is presented. From a set of input documents (seed) keywords are extracted using TF-IDF and subsequently sampled to repeatedly construct queries to the database. The occurrence of returned documents is counted and serves as a proxy relevance metric. Two case studies based on the Scopus® database are used to demonstrate the method and its key advantages. No expert knowledge and human intervention is needed to construct the final search strings which reduces the human bias. The methods practicality is supported by the high re-retrieval of seed documents of 7/8 and 26/31 in high ranks in the two presented case studies.

CitacióLechtenberg, F. [et al.]. Information retrieval from scientific abstract and citation databases: A query-by-documents approach based on Monte-Carlo sampling. "Expert systems with applications", 1 Agost 2022, vol. 199, núm. 116967.

URIhttp://hdl.handle.net/2117/370214

DOI10.1016/j.eswa.2022.116967

ISSN0957-4174

Versió de l'editorhttps://www.sciencedirect.com/science/article/pii/S0957417422003931

Col·leccions

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
1-s2.0-S0957417422003931-main (1).pdf	Main article	1,692Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Information retrieval from scientific abstract and citation databases: A query-by-documents approach based on Monte-Carlo sampling

Visualitza/Obre

Explora