Please use this identifier to cite or link to this item:
https://hdl.handle.net/1889/5650
Title: | Memory interference and performance prediction in GPU-accelerated heterogeneous systems |
Other Titles: | Interferenza di memoria e previsione delle prestazioni nei sistemi eterogenei accelerati da GPU. |
Authors: | Masola, Alessio |
Issue Date: | 2024 |
Publisher: | Università degli Studi di Parma. Dipartimento di Scienze Matematiche, fisiche e informatiche |
Document Type: | Doctoral thesis |
Abstract: | Nowadays, a variety of applications, including automated factories, autonomous vehicles, and Cyber Physical Systems (CPS), are experiencing significant growth. Given the diverse range of challenges that must be addressed, such as real-time management and visualization of a factory's current state through a 3D digital twin, trajectory calculation within autonomous vehicles, visualizing Human Machine Interfaces (HMI), traffic management in smart cities equipped with cameras, IoT devices, and their associated features, a broad array of \emph{heterogeneous devices} with various \emph{hardware accelerators} are being utilized to solve these different problems. In such applications, \emph{power consumption} and \emph{task execution latency} are key aspects to consider, hence investigating approaches that mitigate power consumption while still fully utilizing the computational power provided by the devices becomes necessary.
Modern devices use hardware processors that enable the acceleration of highly parallel and data hungry computational workloads; a widely known example of such parallel processor is the \emph{Graphic Process Unit} (GPU), a hardware peripheral traditionally used for graphics rendering but nowadays it is also used as a general purpose compute accelerator.
This thesis addresses an analysis of the state of the art of techniques that can be employed to \emph{optimize power consumption} and task execution latency, as well as two types of latencies/interference that tasks can potentially experience:
latencies arising from tasks that are concurrently scheduled on the same acceleration unit, i.e., on a partitioned GPU, and the second type under consideration is the latencies experienced by tasks running on embedded boards, specifically on GPU-embedded systems, with a high computational load on the CPU side. Methods are proposed to understand and derive predictive models for latencies in both of the two types of interference.
Furthermore, this thesis concludes with a comparative study of two GPU memory management methodologies: explicit copies versus unified virtual memory. Oggigiorno, una varietà di applicazioni, tra cui fabbriche automatizzate, veicoli autonomi e Sistemi Cyber Fisici (CPS), stanno vivendo una crescita significativa. Date le diverse sfide che devono essere affrontate, come la gestione in tempo reale e la visualizzazione dello stato attuale di una fabbrica attraverso un gemello digitale 3D, il calcolo della traiettoria all'interno dei veicoli autonomi, la visualizzazione delle Interfacce Uomo-Macchina (HMI), la gestione del traffico nelle città intelligenti dotate di telecamere, dispositivi IoT e relative funzionalità, viene utilizzata una vasta gamma di dispositivi eterogenei con vari acceleratori hardware per risolvere questi diversi problemi. In tali applicazioni, il consumo energetico e la latenza nell'esecuzione delle attività sono aspetti chiave da considerare, pertanto diventa necessario investigare approcci che mitigano il consumo energetico pur utilizzando appieno la potenza computazionale fornita dai dispositivi. I dispositivi moderni utilizzano processori hardware che consentono l'accelerazione di carichi di lavoro computazionali altamente paralleli e avidi di dati; un esempio ampiamente conosciuto di tale processore parallelo è l'Unità di Elaborazione Grafica (GPU), un periferico hardware tradizionalmente utilizzato per il rendering grafico ma oggi utilizzato anche come acceleratore di calcolo generale. Questa tesi affronta un'analisi dello stato dell'arte delle tecniche che possono essere impiegate per ottimizzare il consumo energetico e la latenza nell'esecuzione delle attività, nonché due tipi di latenze/interferenze che le attività possono potenzialmente sperimentare: latenze generate da attività pianificate contemporaneamente sulla stessa unità di accelerazione, cioè su una GPU partizionata, e il secondo tipo preso in considerazione è rappresentato dalle latenze sperimentate dalle attività in esecuzione su schede embedded, in particolare su sistemi embedded con GPU, con un elevato carico computazionale sul lato della CPU. Vengono proposti metodi per comprendere e derivare modelli predittivi per le latenze in entrambi i tipi di interferenze. Inoltre, questa tesi si conclude con uno studio comparativo di due metodologie di gestione della memoria GPU: copie esplicite versus memoria virtuale unificata. |
Appears in Collections: | Matematica. Tesi di dottorato |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Tesi_PHD_alessio_PDFA_REVIEWED_FINAL.pdf | Fix Coordinator + Fix First Reviewer | 3.03 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License