Mostra el registre d'ítem simple
Caracterització i detecció de textos generats artificialment
dc.contributor | Martín Muñoz, Mario |
dc.contributor.author | Casas Muñoz, Antoni |
dc.contributor.other | Universitat Politècnica de Catalunya. Departament de Ciències de la Computació |
dc.date.accessioned | 2020-09-25T10:51:21Z |
dc.date.available | 2020-09-25T10:51:21Z |
dc.date.issued | 2020-06-26 |
dc.identifier.uri | http://hdl.handle.net/2117/329241 |
dc.description.abstract | Millores recents en el camp dels models de llenguatge natural han portat a la creació de nous models generadors de llenguatge, aquests nous models són de gran qualitat, i en certes ocasions, diferenciar-los d'allò que un humà escriuria o faria és extremadament complex. A la vegada, usos il·legitims d'aquesta nova tecnologia estan creixent, per tant és d'interès la comprensió d'aquests models per a la seva millora, i per a la detecció d'usos il·legitims d'aquests. Aquest treball examina diferents lleis i distribucions sobre el llenguatge natural, i examina quines diferències existeixen entre el text generat pel model màquina GPT2, el state of the art actual, i text escrit per humans. Específicament analitza la distribució de categories gramaticals, entropia condicional sobre el text, entropia condicional sobre les seves categories gramaticals, i entropia condicional sobre els caràcters del text, la distribució de zipf, la distribució de les mides de grups de correferències, la distribució de mides de paraula i la distribució de la polisèmia de cada paraula. També s'ha desenvolupat una API REST documentada per Swagger 2.0 per a facilitar l'extracció d'aquesta informació i fer futurs anàlisis d'aquest estil més fàcils, i permetre la integració d'aquesta informació a processos d'extracció d'informació per l'avaluació de models de llenguatge natural creats amb aprenentatge màquina. |
dc.description.abstract | Recent innovations in the field of natural language modelling have brought the creation of new generative language models. These new models are of great quality, and in certain occasions, differentiating between these and what a human would write is extremely complex. At the same time, nefarious uses of this technology have been growing, so the comprehension of these is of great importance for their improvement and detection of nefarious uses by these. This work examines different laws and distributions over the natural language, and examines which differences are present between human text and GPT2, the current state of the art. Specifically, it analyzes the distribution of parts of speech, conditional entropy over text, parts of speech and characters, distribution of the size of correference clusters, the zipf distribution, the distribution of word size, and the distribution of each word's polysemy. At the same time, a REST API documented by Swagger 2.0 has been developed to facilitate extraction of information for future analysis of this type, and to allow the integration of this information to processes which extract information to evaluate natural language models generated by machine learning. |
dc.language.iso | cat |
dc.publisher | Universitat Politècnica de Catalunya |
dc.subject | Àrees temàtiques de la UPC::Informàtica |
dc.subject.lcsh | Computational linguistics |
dc.subject.lcsh | Natural language processing (Computer science) |
dc.subject.other | GPT2 |
dc.subject.other | lingüística quantitativa |
dc.subject.other | quantitative lingüistics |
dc.title | Caracterització i detecció de textos generats artificialment |
dc.type | Bachelor thesis |
dc.subject.lemac | Lingüística computacional |
dc.subject.lemac | Tractament del llenguatge natural (Informàtica) |
dc.identifier.slug | 152499 |
dc.rights.access | Open Access |
dc.date.updated | 2020-07-10T04:00:27Z |
dc.audience.educationlevel | Grau |
dc.audience.mediator | Facultat d'Informàtica de Barcelona |
dc.audience.degree | GRAU EN ENGINYERIA INFORMÀTICA (Pla 2010) |