Caracterització i detecció de textos generats artificialment

Casas Muñoz, Antoni

dc.contributor	Martín Muñoz, Mario
dc.contributor.author	Casas Muñoz, Antoni
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
dc.date.accessioned	2020-09-25T10:51:21Z
dc.date.available	2020-09-25T10:51:21Z
dc.date.issued	2020-06-26
dc.identifier.uri	http://hdl.handle.net/2117/329241
dc.description.abstract	Millores recents en el camp dels models de llenguatge natural han portat a la creació de nous models generadors de llenguatge, aquests nous models són de gran qualitat, i en certes ocasions, diferenciar-los d'allò que un humà escriuria o faria és extremadament complex. A la vegada, usos il·legitims d'aquesta nova tecnologia estan creixent, per tant és d'interès la comprensió d'aquests models per a la seva millora, i per a la detecció d'usos il·legitims d'aquests. Aquest treball examina diferents lleis i distribucions sobre el llenguatge natural, i examina quines diferències existeixen entre el text generat pel model màquina GPT2, el state of the art actual, i text escrit per humans. Específicament analitza la distribució de categories gramaticals, entropia condicional sobre el text, entropia condicional sobre les seves categories gramaticals, i entropia condicional sobre els caràcters del text, la distribució de zipf, la distribució de les mides de grups de correferències, la distribució de mides de paraula i la distribució de la polisèmia de cada paraula. També s'ha desenvolupat una API REST documentada per Swagger 2.0 per a facilitar l'extracció d'aquesta informació i fer futurs anàlisis d'aquest estil més fàcils, i permetre la integració d'aquesta informació a processos d'extracció d'informació per l'avaluació de models de llenguatge natural creats amb aprenentatge màquina.
dc.description.abstract	Recent innovations in the field of natural language modelling have brought the creation of new generative language models. These new models are of great quality, and in certain occasions, differentiating between these and what a human would write is extremely complex. At the same time, nefarious uses of this technology have been growing, so the comprehension of these is of great importance for their improvement and detection of nefarious uses by these. This work examines different laws and distributions over the natural language, and examines which differences are present between human text and GPT2, the current state of the art. Specifically, it analyzes the distribution of parts of speech, conditional entropy over text, parts of speech and characters, distribution of the size of correference clusters, the zipf distribution, the distribution of word size, and the distribution of each word's polysemy. At the same time, a REST API documented by Swagger 2.0 has been developed to facilitate extraction of information for future analysis of this type, and to allow the integration of this information to processes which extract information to evaluate natural language models generated by machine learning.
dc.language.iso	cat
dc.publisher	Universitat Politècnica de Catalunya
dc.subject	Àrees temàtiques de la UPC::Informàtica
dc.subject.lcsh	Computational linguistics
dc.subject.lcsh	Natural language processing (Computer science)
dc.subject.other	GPT2
dc.subject.other	lingüística quantitativa
dc.subject.other	quantitative lingüistics
dc.title	Caracterització i detecció de textos generats artificialment
dc.type	Bachelor thesis
dc.subject.lemac	Lingüística computacional
dc.subject.lemac	Tractament del llenguatge natural (Informàtica)
dc.identifier.slug	152499
dc.rights.access	Open Access
dc.date.updated	2020-07-10T04:00:27Z
dc.audience.educationlevel	Grau
dc.audience.mediator	Facultat d'Informàtica de Barcelona
dc.audience.degree	GRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)

Fitxers d'aquest items

Nom:: 152499.pdf
Mida:: 1,415Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Grau en Enginyeria Informàtica (Pla 2010) [2.483]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Caracterització i detecció de textos generats artificialment

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora