PANDAS: Programmable Appliance for Near-Data


Processing Accelerated Storage.

images/pandas.png PANDAS is a (BMBF) funded project aiming to investigate the influence of Near-Data Processing on the database architecture, performance and algorithms.


Even today, transporting data between mass storage and servers is proving more problematic for many big data / cloud applications bottleneck. In PANDAS, both the computing power and the energy efficiency of these demanding applications should be realized through the implementation a novel intelligent mass storage and the development optimized on it software be increased. The technological core is to designed and manufacture a cascadable PCI Express expansion card, having a variety of parallel flash memory banks as mass storage which in turn very quickly adapts to a modern reconfigurable Multi-processor system-on-chip (MPSoC). By the Use of Programmable Logic (FPGA) on the MPSoC High throughput, low latency data processing operations are achieved directly within the mass storage devices (so-called Near-Data Processing, NDP ). The PANDAS card, whose architecture is a unique feature can then be flexible to expand commercial server in Data centers are used. Since the PANDAS platform can be used for a wide variety of applications should, a number of software components will be developed. In particular middleware and Programming tool flows, with which new NDP applications can be created by developers without in-depth Knowledge of the hardware design. As reference application for big data / cloud scenarios becomes the widespread Key value store RocksDB created in a PANDAS-accelerated version and integrated into the data center infrastructure via Docker / VM as an appliance. The partners organized in the PANDAS consortium contribute to the achievement of the Project objectives achieve optimal competencies: the underlying technologies come from current academic research in the field of embedded Systems and their applications of the TU Darmstadt (FPGA-based Hardware accelerator for near-data processing) and data management at the Reutlingen University (new database architectures for the exploitation of persistent semiconductor memories). PRO DESIGN Electronic GmbH leads the actual design and manufacture of the PCI Express card through, while Xelera Technologies GmbH's integration into the data center infrastructure (VMs, containers, etc.) and performs the on-site evaluation in the data center.

Schon heute erweist sich f ür viele Big-Data/Cloud-Anwendungen der Transport von Daten zwischen Massenspeichern und Servern als problematischer Flaschenhals. Im hier vorgeschlagenen Projekt PANDAS (Programmable Appliance for Near-Data processing Accelerated Storage) soll f ür diese anspruchsvollen Anwendungen sowohl die Rechenleistung als auch die Energieeffizienz durch die Realisierung eines neuartigen intelligenten Massenspeichers und die Entwicklung darauf optimierter Software gesteigert werden. Als Basis der Technologie wird im Projekt eine kaskadierbare PCI Express Erweiterungskarte entworfen und gefertigt, die eine Vielzahl von parallelen Flash-Speicherbänken als Massenspeicher bereitstellt, die wiederum sehr schnell an ein modernes rekonfigurierbares Multi-Processor-System-on-Chip (MPSoC) angeschlossen sind. Durch die Verwendung der programmierbaren Logik (FPGA) auf dem MPSoC können Datenverarbeitungsoperationen mit hohem Durchsatz und niedriger Latenz unmittelbar an den Massenspeichern stattfinden (sog. Near-Data Processing, NDP ). Die PANDAS-Karte, deren Architektur ein Alleinstellungsmerkmal auf dem Markt darstellt, kann dann flexibel zur Erweiterung handels üblicher Server in Datenzentren genutzt werden. Da die PANDAS-Plattform f ür verschiedenste Anwendungen nutzbar sein soll, werden flankierend umfangreiche Software-Komponenten entwickelt. Es handelt sich dabei insbesondere um Middleware und Programmierwerkzeugfl üsse, mit denen sich neue NDP-Anwendungen auch durch Entwickler ohne vertiefte Kenntnisse des Hardware-Entwurfs auf dem MPSoC realisieren lassen. Als eine Referenzanwendung f ür Big-Data/Cloud-Szenarien wird der weitverbreitete Key-Value-Store RocksDB in einer PANDAS-beschleunigten Version erstellt und mittels Docker/VM als Appliance in die Datenzentrumsinfrastruktur eingebunden. Die im PANDAS-Konsortium organisierten Partner bringen f ür die Erreichung der Projektziele die optimalen Kompetenzen ein: Die zugrundeliegenden Technologien entstammen aktueller akademischer Forschung am Fachgebiet Eingebettete Systeme und ihre Anwendungen der TU Darmstadt (FPGA-basierte Hardware-Beschleuniger f ür Near-Data Processing) und am Data Management Lab an der Hochschule Reutlingen (neue Datenbankarchitekturen zur Ausnutzung von persistenten Halbleiterspeichern). PRO DESIGN Electronic GmbH f ührt den eigentlichen Entwurf und die Fertigung der PCI Express-Karte durch, während Xelera Technologies GmbH die Integration in die Datenzentren-Infrastruktur (VMs, Container, etc.) und die Vor-Ort-Evaluation im Datenzentrum vornimmt. Diese beiden Industriepartner sind auch federf ührend bei der späteren wirtschaftlichen Verwertung der Technologie, die in neue Produkte bei PRO DESIGN eingehen soll, welche wiederum von Xelera als Teil von Komplettlösungen und Dienstleistungen am Datenzentrumsmarkt angeboten werden können.

Consortium

Research Topics

- database architectures and algorithms for NDP,
- NDP Middleware ,
- Hardware Design

Papers

Result-Set Management for NDP Operations on Smart Storage.
T. Vincon, C. Knoedler, A. Bernhardt, L. Solis-Vasquez, L. Weber, A. Koch, I.Petrov.
In Proc. DaMoN 2022 [PDF (extended)] [Video]
Near-Data Processing in Database Systems on Native Computational Storage under HTAP Workloads.
T. Vincon, C. Knoedler, L. Solis-Vasquez, A. Bernhardt, S. Tamimi, L. Weber, F. Stock, A. Koch, I. Petrov.
In Proc. VLDB 2022 [PDF] [Slides] [Video]
A cost model for NDP-aware query optimization for KV-stores.
C. Knoedler, T. Vincon, A. Bernhardt, L. Solis-Vasquez, L. Weber, I. Petrov, A. Koch.
In Proc. DAMON 2021 [PDF][ Video]
A Framework for the Automatic Generation of FPGA-based Near-Data Processing Accelerators in Smart Storage Systems.
L. Weber, L. Sommer, L. Solis-Vasquez, T. Vincon, C. Knoedler, A. Bernhardt, I. Petrov, A. Koch.
In Proc. Reconfigurable Architectures Workshop. RAW@IPDPS
On the Necessity of Explicit Cross-Layer Data Formats in Near-Data Processing Systems.
L. Weber, T. Vincon, C Knoedler, L. Solis-Vasquez, A. Bernhardt, I. Petrov, A. Koch.
Journal DAPD. 2021 [PDF]
nKV in Action: Accelerating KV-Stores on Native Computational Storage with Near-Data Processing.
T. Vincon, L. Weber, A. Bernhardt, C. Riegger, S. Hardock, C. Knoedler, F. Stock, L. Solis-Vasquez, S. Tamimi, A. Koch, I. Petrov.
In Proc. VLDB 2020.[PDF]
nKV: Near-Data Processing with KV-Stores on Native Computational Storage.
T. Vincon, L. Weber, A. Bernhardt, A. Koch, I. Petrov.
In Proc. DAMON 2020. [PDF]
On the Necessity of Explicit Cross-Layer DataFormats in Near-Data Processing Systems.
T. Vincon, A. Bernhardt, L. Weber, A. Koch, I. Petrov.
In Proc. HardBD 2020 [PDF].
nativeNDP: Processing Big Data Analytics on Native Storage Nodes
T. Vincon, S. Hardock, C. Riegger, A. Koch, I. Petrov.
In Proc. ADBIS 2019 [PDF]