Parallelizing recurrent neural network and variants

Carregant...
Miniatura
El pots comprar en digital a:
El pots comprar en paper a:

Projectes de recerca

Unitats organitzatives

Número de la revista

Títol de la revista

ISSN de la revista

Títol del volum

Tutor / director

Codirector

Tribunal avaluador

Realitzat a/amb

Tipus de document

Tesi

Data de defensa

Editor

Universitat Politècnica de Catalunya

Condicions d'accés

Accés obert

Llicència

Creative Commons
Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Llevat que s'hi indiqui el contrari, els seus continguts estan subjectes a la llicència de Creative Commons: Reconeixement-NoComercial 4.0 Internacional

Assignatures relacionades

Assignatures relacionades

Publicacions relacionades

Datasets relacionats

Datasets relacionats

Projecte CCD

Abstract

(English) Recurrent neural networks (RNN) have succeeded remarkably in various domains, such as Automatic Speech Recognition, Sentiment Analysis, time-series prediction, and Machine Translation. Despite their versatility, RNN poses significant challenges due to their complex internal structures, which impede the effective use of model parallelism. This often leads to a reliance on data parallelism to accelerate RNN performance. Furthermore, RNN demands extensive computational resources due to their large parameter counts. This doctoral research proposes innovative High-Performance Computing (HPC) strategies to optimize RNN deployment on CPUs, enhancing their efficiency in resource-limited settings. Through algorithmic improvements and memory-efficient techniques, this work seeks to maximize the potential of parallel computing for RNN, thereby transforming AI parallel system landscapes. This thesis introduces "Wavefront-Parallelization" (W-Par), which integrates model parallelism into unidirectional RNN to enhance inference and training on CPUs. W-Par utilizes fine-grained pipeline parallelism through wavefront computations, which are particularly effective for multi-layer RNNs on multi-core CPUs. These techniques allow for efficient workload distribution across parallel tasks while managing the dependencies of each RNN cell. Empirical results show that W-Par significantly outperforms existing implementations, achieving speed-ups of up to 6.6x times on contemporary multi-core CPU architectures, and maintains robust performance across various core and memory configurations without requiring source code modifications. Additionally, the thesis presents "Bidirectional-Parallelization" (B-Par), a novel execution model for Bidirectional Recurrent Neural Networks (BRNN). B-Par leverages inherent data and control dependencies in forward and reverse-order RNN in BRNN, dividing workloads efficiently across parallel tasks without needing layer-specific synchronization barriers. Tests on the TIDIGITS speech database and Wikipedia dataset demonstrate that B-Par significantly exceeds the performance of leading frameworks like TensorFlow-Keras and PyTorch, with speed-ups of up to 2.34x and 9.16x times, respectively, while maintaining accuracy. Finally, this thesis introduces the "Semi-Bidirectional RNN" (SB-RNN), a novel architecture that synergistically integrates the strengths of both unidirectional and bidirectional RNN. SB-RNN maintains the parameter count of unidirectional RNN while incorporating backward connections across layers to enhance the capability for information retention. This architecture enables SB-RNN to match and potentially exceed the accuracy of unidirectional RNN and bidirectional RNN (BRNN) across both CPU and GPU environments. Specifically, on the sentiment analysis task of the Stanford Sentiment Treebank (SST) dataset, SB-RNN demonstrates superior performance with 56.61% fewer parameters than their unidirectional counterparts, leading to a significant reduction in training time by 52.94%. Overall, this thesis introduces three advanced techniques: W-Par, B-Par, and SB-RNN - that significantly improve the efficiency and performance of RNN and BRNN models on multi-core CPUs and GPUs, facilitating enhanced processing across various applications without extensive code alterations.


(Català) Les xarxes neuronals recurrents (RNN) han aconseguit un èxit notable en diversos dominis, com ara el Reconeixement automàtic de veu, l'Anàlisi de Sentiments, la predicció de sèries temporals i la Traducció Automàtica. Tot i la seva versatilitat, les RNN presenten desafiaments significatius a causa de les seves complexes estructures internes, cosa que dificulta l'ús efectiu del paral·lelisme dels models. Això sovint porta a una dependència en el paral·lelisme de dades per accelerar el rendiment de les RNN. A més, les RNN requereixen extensos recursos computacionals a causa de la gran quantitat de paràmetres. Aquesta investigació doctoral proposa estratègies innovadores de Computació d'Alt Rendiment (HPC) per optimitzar la implementació de les RNN a CPU, millorant-ne l'eficiència en entorns amb recursos limitats. A través de millores algorítmiques i tècniques eficients en l'ús de la memòria, aquest treball cerca maximitzar el potencial de la computació paral·lela per a les RNN, transformant així el panorama dels sistemes paral·lels a Intel·ligència Artificial(AI). Aquesta tesi introdueix la "Wavefront-Parallelization" (W-Par), que integra el paral·lelisme de models a RNN unidireccionals per millorar la inferència i l'entrenament en CPU. W-Par utilitza el paral·lelisme de canalització de gra fi a través de càlculs de fronts d'ona, que són particularment efectius per a RNN de múltiples capes a CPU multinucli. Aquestes tècniques permeten una distribució eficient de la càrrega de treball a través de tasques paral·leles mentre es gestionen les dependències de cada cèl·lula RNN. Els resultats empírics mostren que W-Par supera significativament les implementacions existents, aconseguint acceleracions de fins a 6.6 vegades en arquitectures modernes de CPU multinucli i mantenint un rendiment robust en diverses configuracions de nuclis i memòria sense necessitat de modificacions en el codi font. A més, la tesi presenta la "Paral·lització Bidireccional" (B-Par), un nou model d'execució per a Xarxes Neuronals Recurrents Bidireccionals (BRNN). B-Parell aprofita les dependències inherents de dades i control a les RNN d'ordre directe i invers a BRNN, dividint eficientment la càrrega de treball a través de tasques paral·leles sense necessitat de barreres de sincronització específiques. Les proves a la base de dades de veu TIDIGITS i el conjunt de dades de Wikipedia demostren que B-Par supera significativament el rendiment de marcs de treball líders com TensorFlow-Keras i PyTorch, amb acceleracions de fins a 2.34 vegades i 9.16 vegades, respectivament, mantenint la precisió. Finalment, aquesta tesi introdueix la "RNN Semi-Bidireccional" (SB-RNN), una arquitectura nova que integra sinèrgicament les fortaleses de les RNN unidireccionals i bidireccionals. SB-RNN manté la quantitat de paràmetres de les RNN unidireccionals mentre incorpora connexions enrere a través de les capes per millorar la capacitat de retenció d'informació. Aquesta arquitectura permet que SB-RNN iguali i potencialment superi la precisió de les RNN unidireccionals i bidireccionals (BRNN) tant en entorns de CPU com de GPU. Específicament, en la tasca d'anàlisi de sentiments del conjunt de dades Stanford Sentiment Treebank (SST), SB-RNN demostra un rendiment superior amb un 56.61% menys de paràmetres que els seus contraparts unidireccionals, fet que porta a una reducció significativa del temps d'entrenament un 52.94%. En general, aquesta tesi introdueix tres tècniques avançades: W-Par, B-Par i SB-RNN, que milloren significativament l'eficiència i el rendiment dels models RNN i BRNN en CPU i GPU multinucli, facilitant una millora en el processament en diverses aplicacions sense alteracions significantives al codi.


(Español) Las redes neuronales recurrentes (RNN) han logrado un éxito notable en diversos dominios, tales como el Reconocimiento automático de voz, el Análisis de Sentimientos, la predicción de series temporales y la Traducción Automática. A pesar de su versatilidad, las RNN presentan desafíos significativos debido a sus complejas estructuras internas, lo que dificulta el uso efectivo del paralelismo de los modelos. Esto a menudo lleva a una dependencia en el paralelismo de datos para acelerar el rendimiento de las RNN. Además, las RNN requieren extensos recursos computacionales debido a su gran cantidad de parámetros. Esta investigación doctoral propone estrategias innovadoras de Computación de Alto Rendimiento (HPC) para optimizar la implementación de las RNN en CPUs, mejorando su eficiencia en entornos con recursos limitados. A través de mejoras algorítmicas y técnicas eficientes en el uso de la memoria, este trabajo busca maximizar el potencial de la computación paralela para las RNN, transformando así el panorama de los sistemas paralelos en Inteligencia Artificial(AI). Esta tesis introduce la "Wavefront-Parallelization" (W-Par), que integra el paralelismo de modelos en RNN unidireccionales para mejorar la inferencia y el entrenamiento en CPUs. W-Par utiliza el paralelismo de canalización de grano fino a través de cálculos de frentes de onda, que son particularmente efectivos para RNN de múltiples capas en CPUs multinúcleo. Estas técnicas permiten una distribución eficiente de la carga de trabajo a través de tareas paralelas mientras se gestionan las dependencias de cada célula RNN. Los resultados empíricos muestran que W-Par supera significativamente a las implementaciones existentes, logrando aceleraciones de hasta 6.6 veces en arquitecturas modernas de CPUs multinúcleo y manteniendo un rendimiento robusto en diversas configuraciones de núcleos y memoria sin necesidad de modificaciones en el código fuente. Además, la tesis presenta la "Paralelización Bidireccional" (B-Par), un novedoso modelo de ejecución para Redes Neuronales Recurrentes Bidireccionales (BRNN). B-Par aprovecha las dependencias inherentes de datos y control en las RNN de orden directo e inverso en BRNN, dividiendo eficientemente la carga de trabajo a través de tareas paralelas sin necesidad de barreras de sincronización específicas. Las pruebas en la base de datos de voz TIDIGITS y el conjunto de datos de Wikipedia demuestran que B-Par supera significativamente el rendimiento de marcos de trabajo líderes como TensorFlow-Keras y PyTorch, con aceleraciones de hasta 2.34 veces y 9.16 veces, respectivamente, manteniendo la precisión. Finalmente, esta tesis introduce la "RNN Semi-Bidireccional" (SB-RNN), una arquitectura novedosa que integra sinérgicamente las fortalezas de las RNN unidireccionales y bidireccionales. SB-RNN mantiene la cantidad de parámetros de las RNN unidireccionales mientras incorpora conexiones hacia atrás a través de las capas para mejorar la capacidad de retención de información. Esta arquitectura permite que SB-RNN iguale y potencialmente supere la precisión de las RNN unidireccionales y bidireccionales (BRNN) tanto en entornos de CPU como de GPU. Específicamente, en la tarea de análisis de sentimientos del conjunto de datos Stanford Sentiment Treebank (SST), SB-RNN demuestra un rendimiento superior con un 56.61% menos de parámetros que sus contrapartes unidireccionales, lo que lleva a una reducción significativa del tiempo de entrenamiento en un 52.94%. En general, esta tesis introduce tres técnicas avanzadas: W-Par, B-Par y SB-RNN, que mejoran significativamente la eficiencia y el rendimiento de los modelos RNN y BRNN en CPUs y GPUs multinúcleo, facilitando una mejora en el procesamiento en diversas aplicaciones sin alteraciones significantivas en el código.

Descripció

Programa de doctorat

DOCTORAT EN ARQUITECTURA DE COMPUTADORS (Pla 2012)

Document relacionat

Citació

Sharma, R.K. Parallelizing recurrent neural network and variants. Tesi doctoral, UPC, Departament d'Arquitectura de Computadors, 2024.

Ajut

Forma part

Dipòsit legal

ISBN

ISSN

Versió de l'editor

Altres identificadors

Referències