Mostra el registre d'ítem simple

dc.contributorMartín Muñoz, Mario
dc.contributor.authorCasas Muñoz, Antoni
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Ciències de la Computació
dc.date.accessioned2020-09-25T10:51:21Z
dc.date.available2020-09-25T10:51:21Z
dc.date.issued2020-06-26
dc.identifier.urihttp://hdl.handle.net/2117/329241
dc.description.abstractMillores recents en el camp dels models de llenguatge natural han portat a la creació de nous models generadors de llenguatge, aquests nous models són de gran qualitat, i en certes ocasions, diferenciar-los d'allò que un humà escriuria o faria és extremadament complex. A la vegada, usos il·legitims d'aquesta nova tecnologia estan creixent, per tant és d'interès la comprensió d'aquests models per a la seva millora, i per a la detecció d'usos il·legitims d'aquests. Aquest treball examina diferents lleis i distribucions sobre el llenguatge natural, i examina quines diferències existeixen entre el text generat pel model màquina GPT2, el state of the art actual, i text escrit per humans. Específicament analitza la distribució de categories gramaticals, entropia condicional sobre el text, entropia condicional sobre les seves categories gramaticals, i entropia condicional sobre els caràcters del text, la distribució de zipf, la distribució de les mides de grups de correferències, la distribució de mides de paraula i la distribució de la polisèmia de cada paraula. També s'ha desenvolupat una API REST documentada per Swagger 2.0 per a facilitar l'extracció d'aquesta informació i fer futurs anàlisis d'aquest estil més fàcils, i permetre la integració d'aquesta informació a processos d'extracció d'informació per l'avaluació de models de llenguatge natural creats amb aprenentatge màquina.
dc.description.abstractRecent innovations in the field of natural language modelling have brought the creation of new generative language models. These new models are of great quality, and in certain occasions, differentiating between these and what a human would write is extremely complex. At the same time, nefarious uses of this technology have been growing, so the comprehension of these is of great importance for their improvement and detection of nefarious uses by these. This work examines different laws and distributions over the natural language, and examines which differences are present between human text and GPT2, the current state of the art. Specifically, it analyzes the distribution of parts of speech, conditional entropy over text, parts of speech and characters, distribution of the size of correference clusters, the zipf distribution, the distribution of word size, and the distribution of each word's polysemy. At the same time, a REST API documented by Swagger 2.0 has been developed to facilitate extraction of information for future analysis of this type, and to allow the integration of this information to processes which extract information to evaluate natural language models generated by machine learning.
dc.language.isocat
dc.publisherUniversitat Politècnica de Catalunya
dc.subjectÀrees temàtiques de la UPC::Informàtica
dc.subject.lcshComputational linguistics
dc.subject.lcshNatural language processing (Computer science)
dc.subject.otherGPT2
dc.subject.otherlingüística quantitativa
dc.subject.otherquantitative lingüistics
dc.titleCaracterització i detecció de textos generats artificialment
dc.typeBachelor thesis
dc.subject.lemacLingüística computacional
dc.subject.lemacTractament del llenguatge natural (Informàtica)
dc.identifier.slug152499
dc.rights.accessOpen Access
dc.date.updated2020-07-10T04:00:27Z
dc.audience.educationlevelGrau
dc.audience.mediatorFacultat d'Informàtica de Barcelona
dc.audience.degreeGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple