Please use this identifier to cite or link to this item:
https://hdl.handle.net/1889/5654
Title: | Transformative approaches for deep lLearning in resource-constrained scenarios |
Other Titles: | Approcci trasformativi per l'apprendimento profondo in scenari con risorse limitate |
Authors: | Scribano, Carmelo |
Issue Date: | 2024 |
Publisher: | Università degli Studi di Parma. Dipartimento di Scienze Matematiche, fisiche e informatiche |
Document Type: | Doctoral thesis |
Abstract: | Latest advancements in Artificial Intelligence, and in particular in Deep Learning, have catalyzed groundbreaking progress across diverse applications such as Computer Vision, Natural Language Processing, and content generation. However, the significant computational demands inherent in training and executing powerful Deep Learning models have hindered widespread adoption of these techniques in certain application contests. One area poised to benefit greatly from Deep Learning, especially applied to computer vision, is the automotive sector, particularly in the development of driver assistance systems. In this context, minimizing inference costs is a priority in order to enable deployment on the low-power embedded devices found in vehicles. Conversely, the costs and complexities associated with training phase are sometimes substantial, exemplified by recent transformer-based models for natural language processing and image synthesis models utilizing the Denoising Diffusion Probabilistic paradigm. This thesis addresses two primary objectives: (i) proposing low-computational-cost solutions for computer vision applications in automotive settings and (ii) presenting innovative approaches to formulating efficient Deep Learning models using lossy compression techniques. To achieve the former goal, this study develops two models for Driver Monitoring Systems and Advanced Driving Assistance Systems, employing a Multi-Task Learning approach. This choice enable significant computational savings by sharing a substantial portion of the neural architecture across different tasks. For the latter objective, this thesis introduces an approximation of the transformer attention layer leveraging the Discrete Cosine Transform. Additionally, it proposes a strategy for incorporating Vector Quantization-based compression techniques into the image generation process using Diffusion Models. Through experimental analyses and quantitative evaluations, this thesis demonstrates the effectiveness of the proposed methods in reducing the complexity and computational costs in the concerned contexts. Gli ultimi progressi nell'Intelligenza Artificiale, e in particolare nel Deep Learning, hanno catalizzato progressi rivoluzionari in diverse applicazioni come la Computer Vision, l'elaborazione del linguaggio naturale e la generazione di contenuti. Tuttavia, i notevoli requisiti computazionali inerenti l'addestramento e l'esecuzione di potenti modelli di Deep Learning hanno ostacolato l'adozione diffusa di queste tecniche in alcuni contesti applicativi. Un'area destinata a trarre grandi benefici dal Deep Learning, specialmente applicato alla computer vision, è il settore automobilistico, in particolare nello sviluppo di sistemi di assistenza alla guida. In questo contesto, la minimizzazione dei costi di inferenza è una priorità per consentire l'implementazione sui dispositivi embedded a basso consumo energetico presenti nei veicoli. Per contro, i costi e le complessità associati alla fase di addestramento sono talvolta notevoli, come è il caso per i recenti modelli per l'elaborazione del linguaggio naturale basadi su Transformers e i modelli di sintesi delle immagini che utilizzano il paradigma del Denoising Diffusion Probabilistic Model. Questa tesi risponde a due obiettivi primari: (i) proporre soluzioni a basso costo computazionale per applicazioni di computer vision in ambito automobilistico e (ii) presentare approcci innovativi alla formulazione di modelli di Deep Learning efficienti utilizzando tecniche di compressione dei dati con perdita. Per raggiungere il primo obiettivo, questo studio sviluppa due modelli per i sistemi di monitoraggio del guidatore e per i sistemi avanzati di assistenza alla guida, utilizzando un approccio di apprendimento multi-task. Questa scelta consente un significativo risparmio computazionale grazie alla condivisione di una parte sostanziale dell'architettura neurale tra i diversi task. Per il secondo obiettivo invece, la tesi introduce un'approssimazione del layer di Attention alla base dei Transformer, definita sfruttando la trasformata coseno discreta. Inoltre, propone una strategia per incorporare tecniche di compressione basate sulla quantizzazione vettoriale nel processo di generazione dell'immagine utilizzando i modelli di diffusione. Attraverso analisi sperimentali e valutazioni quantitative, questa tesi dimostra l'efficacia dei metodi proposti nel ridurre la complessità e i costi computazionali nei contesti interessati. |
Appears in Collections: | Matematica. Tesi di dottorato |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Tesi_PDFA_Review.pdf Until 2025-05-01 | Tesi | 37.81 MB | Adobe PDF | View/Open Request a copy |
This item is licensed under a Creative Commons License