Es ist noch ein langer Weg … – 🤖 Soziale Robotik

Am Forschungszentrum Jülich hat man ein neuronales Netzwerk mit 300 Millionen Synapsen in bislang unerreichter Geschwindigkeit simuliert, wobei es gelang, die Netzwerk-Aktivität viermal schneller als in Echtzeit zu berechnen. Für ihren Rekord nutzte man einen Prototyp des „neuronalen“ IBM-Supercomputers INC-3000.

Es handelt sich um ein Netzwerk, das von seiner Größe her etwa 1 Kubikmillimeter der Hirnrinde entspricht. Es besteht aus 80.000 Neuronen, die über 300 Millionen Synapsen miteinander verbunden sind. Ein solches Netzwerk hat noch keine Lernfunktion. Es soll vielmehr eine realitätsnahe Vernetzung abbilden und erzeugt gerade genügend Stimulus, um zu biorealistischen Aktivitätsmustern zu kommen. Das Netz beschäftigt sich praktisch selbst – man spricht hier auch von einem rekurrenten Netz, das mit den Aktivitätsmustern, die es produziert, wieder eigene Aktivitätsmuster hervorruft. Dieses Netzwerk ist sehr gut untersucht und eignet sich daher, um die Leistungsfähigkeit von Computerarchitekturen hinsichtlich der Simulation von neuronalen Netzen miteinander zu vergleichen. Allerdings umfasst dieses Netzwerk nur etwa ein Millionstel eines menschlichen Gehirns, und ist damit immer noch viel zu klein, um zu verlässlichen Aussagen über das Gehirn an sich zu kommen.

Biologische Gehirne sind vollkommen anders aufgebaut als die Computersysteme, wie sie beispielsweise im High-Performance-Computing (HPC) eingesetzt werden. Während in klassischen Supercomputern nur verhältnismäßig wenige, hochgetaktete Prozessoren unter strikter Trennung von Speicher- und Prozessoreinheiten Berechnungen durchführen, ist ein Gehirn aus einer massiven Anzahl hochgradig vernetzten Neuronen aufgebaut. Jedes Neuron für sich arbeitet zwar extrem langsam und damit energiesparend, dennoch ist unser Gehirn extrem leistungsfähig, da die Nervenzellen vollständig parallel arbeiten. Zudem ist der Grad der Vernetzung im Gehirn extrem. 80 Prozent des Hirnvolumens werden allein von Verbindungen zwischen Nervenzellen belegt. Die eigentlichen Neurone machen dagegen nur 16 bis 20 Prozent aus.

Ein weiteres grundlegendes Problem aller konventionellen Computerarchitekturen ist die strikte Trennung von Prozessor und Speicher. Biologische Nervenzellen dagegen können Informationen sowohl verarbeiten als auch speichern. In herkömmlichen Computersystemen müssen alle Informationen über eine enge Schnittstelle vom Prozessor zu einem Speichersystem transportiert werden, das ist der sogenannte Von-Neumann-Flaschenhals. Dies führt zu einer gewissen Verzögerung, Latenz genannt. Diese Latenz wird sich auch mit neuen Speichertechnologien nicht signifikant verbessern und bestimmt die Simulationsgeschwindigkeit maßgeblich, wie wir in unseren Untersuchungen nachweisen konnten. Die Kommunikation zwischen Nervenzellen ist zudem extrem energiesparend und geschieht fast ausschließlich über extrem spärliche neuronale Aktivitätsmuster. Übersetzt auf unsere Supercomputer bedeutet dies, dass man es ausschließlich mit sehr kurzen Datenpaketen zu tun hat. Die vorrangigen Computerstandards sind aber gerade für große Datenpakete optimiert. Auch bei der Kommunikation entstehen so für kurze Datenpakete große Latenzen.

Man nutze das INC-System von IBM vorrangig, weil sich damit unterschiedliche Schaltungen sehr flexibel herstellen lassen. FPGAs, Field Programmable Gate Arrays, enthalten frei programmierbare Logikbausteine mit eigenem Speicher und weiteren Hardware-Komponenten auf einem Chip. Weil der Speicher so nah an der Logik platziert ist, fallen die zuvor angesprochenen Speicher-Latenzen nicht ins Gewicht. Die Bausteine auf dem FPGA lassen sich außerdem beliebig umprogrammieren. Dies ist hilfreich, um beispielsweise verschiedene Architekturvarianten zu untersuchen. Da man die optimale Architektur und Schaltung im Vorfeld nicht immer eindeutig identifizieren kann, hilft die schnelle Rekonfigurierbarkeit, gute Lösungen herauszuarbeiten. So konnte man auch die optimale Schaltung finden, die den genannten Beschleunigungsfaktor ermöglichte. Derzeit werden in Simulationen noch sehr einfache Neuron- und Synapsenmodelle verwendet, die nur mit einer Handvoll mathematischer Gleichungen beschrieben werden können. Dieses Neuronenmodell ist aber mehr 120 Jahre alt. Es ist absehbar, dass eine realistischere Abbildung der Neuronendynamik und Lernvorgänge noch viel mehr Gleichungen benötigt, beispielsweise zur Beschreibung von Dendriten. Dabei handelt es sich um fein verzweigte Verästelungen, über die sich Nervenzellen untereinander verbinden. Heute weiß man: Diese Dendriten stellen keine passiven Leitungen dar und tragen aktiv zur Informationsverarbeitung bei. Schätzungsweise mehr als zwei Drittel der neuronalen Dynamik hängt davon ab. Diese dendritischen Strukturen finden heute noch gar keine Berücksichtigung. Zukünftig wird man also auch deutlich mehr Recheneinheiten benötigen, als heute in einem Prozessor zur Verfügung stehen, um die Vielzahl der gekoppelten Gleichungen in passabler Zeit zu lösen.

Grundsätzlich sind die Systeme umso schneller, je direkter sie ein neuronales Netzwerk auf Hardware-Ebene nachbilden. Das BrainScaleS-System aus Heidelberg besteht aus mehreren Wafern. Die Neuronen sind mitsamt ihren Verbindungen direkt auf dem Chip angelegt. Dieses System ist naturgemäß sehr schnell. Die Größe des Netzwerks, das sich auf diese Weise darstellen lässt, ist jedoch begrenzt. 300 Millionen Synapsen, wie wir sie simuliert haben, wären damit nicht machbar. Das Problem einer solchen Spezialarchitektur ist außerdem, dass man nachher unter Umständen nicht flexibel genug ist, um neue Features einzubauen.

Das britische System SpiNNaker gleicht dagegen eher einem herkömmlichen Superrechner. Es handelt sich hier um einen massiv-parallelen Computer, der über mehrere Hunderttausend ARM-Prozessoren, die eigentlich für Mobilfunkanwendungen optimiert sind, und ein besonderes Kommunikationsnetzwerk verfügt. Da hier ein zentraler Prozessor und ein davon abgetrennter Speicher vorliegen, läuft man wie bei allen herkömmlichen Rechnern automatisch in die Problematik mit der Latenz, also des verzögerten Transports von Informationen.

Grafikprozessoren (GPUs) werden derzeit vor allem für klassische neuronale Netze eingesetzt, eine realitätsgetreue Abbildung biologischer Netzwerke steht hier meist nicht im Vordergrund. Dabei geht es vor allem um Deep-Learning-Algorithmen. In GPU-basierten Systemen ist der Grad der Parallelität extrem hoch, das heißt, sie verfügen über vergleichsweise viele Recheneinheiten. Doch auch hier müssen Daten zwischen Prozessor und Speicher hin und her transportiert werden, was letztlich wieder das Problem mit der Latenz betont. Verglichen mit dem biologischen Gehirn sind GPUs außerdem immer noch extreme Energiefresser. Ein menschliches Gehirn hat eine Leistung von etwa 20 Watt, typische Serverfarmen mit GPU-basierten Rechenknoten kommen dagegen auf mehrere Mega-Watt, benötigen im Betrieb also das Hunderttausendfache an Energie.

Im Projekt „Advanced Computing Architectures (ACA): towards multi-scale natural-density Neuromorphic Computing” arbeitet man daran, Konzepte zu benennen, die man braucht, um große Netzwerke, die sehr komplex sind, berechnen zu können. Das wäre dann etwa ein Netzwerk mit 1 Milliarde Neurone, das so groß ist wie das Gehirn eines Säugetieres. In dem Projekt kooperiert man mit der RWTH Aachen, der University of Manchester und der Universität Heidelberg, die teils auch eigene neuromorphe Ansätze verfolgen. Übergeordnetes Ziel ist der Bau eines Computersystems, das es ermöglicht, Lernprozesse im Zeitraffer zu untersuchen. Das IBM INC-3000-System kam im Rahmen der Machbarkeitsstudie zum Einsatz und hat gezeigt, dass selbst bei Verwendung modernster Technologien dem erzielbaren Leistungsgewinn grundsätzlich Grenzen gesetzt sind. Neue, unkonventionelle Architekturen, Schaltungs- und Speicherkonzepte sind hier unumgänglich. Hierbei müssen Konzepte der Speicherarchitektur, der Kommunikation und der numerischen Berechnungseinheiten völlig neu elaboriert werden. Langfristiges Ziel ist die Entwicklung einer eigenen Architektur, die speziell auf diese Art von Simulationen zugeschnitten ist. Eine solche neuromorphe Beschleuniger-Architektur könnte dann idealerweise angekoppelt werden an die Jülicher Supercomputing-Infrastruktur. Man redet hier über einen großen Zeithorizont von 15 bis 20 Jahren.

Literatur

Arne Heittmann, Georgia Psychou, Guido Trensch, Charles E. Cox, Winfried W. Wilcke, Markus Diesmann and Tobias G. Noll (2022). Simulating the Cortical Microcircuit Significantly Faster Than Real Time on the IBM INC-3000 Neural Supercomputer, Front. Neurosci. , doi:10.3389/fnins.2021.728460

Schreibe einen Kommentar Antwort abbrechen