Sistema de detecció de plagi en documents mitjançant intel·ligència artificial
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/335626
Correu electrònic de l'autorrlopezsanta97gmail.com
Tipus de documentTreball Final de Grau
Data2020-07-14
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement 3.0 Espanya
Abstract
En el present projecte es defineixen les bases teòriques i la metodologia aplicada per a
desenvolupar un sistema que permet detectar plagi tant en documents manuscrits com
tipogràfics, d'àmbit acadèmic i redactats en espanyol, mitjançant intel·ligència artificial. El
sistema permet comparar un nou document a analitzar amb els documents d'una base de dades
pròpia, generada a partir de 79 treballs finals de grau classificats en quatre categories
temàtiques: automòbil, mecànica de fluids, electrònica i biomedicina. L'objectiu de la
comparació és detectar el possible plagi comès en qualsevol de les següents variants:
apropiar-se completament d'un document, copiar diferents parts d’una mateixa font sense
modificar-les o parafrasejar parts d’un mateix document.
Per a desenvolupar el sistema s'ha seguit una metodologia dividida en dos passos. En el primer,
es classifica el document a analitzar, a partir del seu títol, mitjançant un model de classificació
en una de les quatre possibles categories que conformen la base de dades. En segon pas,
mitjançant un codificador, es transformen a vectors les oracions tant del document a
analitzar com dels documents de la base de dades que tenen assignada la mateixa categoria.
Un cop generats els vectors, es computen les similituds entre ells mitjançant una mètrica que
permet definir un índex de similitud semàntica i sintàctica entre els documents.
S'ha estudiat el comportament de diferents models pel procés de classificació i diverses
combinacions de codificadors i mètriques de similitud. Respecte als models de classificació
analitzats, els millors resultats han estat obtinguts a partir de CountVectorizer + Multinomial
Naive Bayes, amb una precisió del 95%. En el cas del codificador i la mètrica de similitud, la
combinació més eficaç i que permet capturar més informació ha estat Word2Vec + cosine
similarity. L'ús d'aquestes configuracions ha permès crear un sistema de detecció de plagi robust
que soluciona els objectius plantejats.
MatèriesArtificial intelligence, Plagiarism, Documentation, Intel·ligència artificial, Plagi, Documentació
TitulacióGRAU EN ENGINYERIA MECÀNICA (Pla 2009)
Col·leccions
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Memòria-TFG-Roger López Santaló.pdf | 8,455Mb | Visualitza/Obre |