6.3 Diskussion mit Schlußfolgerungen
Next: Literaturverzeichnis
Up: 6 Vektor- und Parallelrechner-Implementationen
Previous: 6.2 Resultate auf der
,,This clearly indicates that the problem of adequate
linear solver
algorithms is far from being solved.``
Claude Pommerell et al. [45]
Bei der Implementation von MINIMOS-5 auf der CM-2 wurde
massiv-paralleles Arbeiten der Prozessoren für die
linearen Gleichungslöser des dreidimensionalen Teils
von MINIMOS erreicht.
Der zweidimensionale Programmteil, der
zur Aufbereitung der Anfangsdaten des nachfolgenden
dreidimensionalen Programmteils notwendig ist,
sowie die Matrixassemblierung und andere zwischen den
nichtlinearen Iterationen des dreidimensionalen
Programmteils notwendige Berechnungen wurden
durch den Host-Computer, auch Frontend-Computer genannt,
besorgt.
Der Transport der Daten zwischen dem
Host-Computer und den Tausenden Prozessoren der CM-2
erfolgt durch schnelle Bibliotheksroutinen des Frontend-Computers.
Die folgenden Ergebnisse sind erzielt worden:
-
-
Massiv-parallele Gleichungslöser wurden auf der CM-2
implementiert und lauffähig gemacht.
Zur Beurteilung der Leistungsfähigkeit dieser
Algorithmen werden vergleichbare Meßergebnisse
von Vektorcomputern
herangezogen ([43][112] bzw. Abschnitt 6.1).
Sehr grob kann gesagt werden, daß die erreichten
Geschwindigkeiten etwa 100 Megaflops
auf der Fujitsu VP200, und etwas
weniger als die Hälfte davon auf der Cray-2 ausmachten.
Diese Geschwindigkeiten konnten bei der vorliegenden
Implementation auf der CM-2 aufgrund eines
starken Konvergenzverlustes der Gleichungslöser
nicht erreicht werden.
Zwar ist jede lineare Iteration
auf der CM-2 wesentlich schneller
als auf den Vektorcomputern,
in der Gesamtbeurteilung stellt sich heraus,
daß die arithmetischen Operationen
der Vektorcomputer effektiver sind.
Der tatsächliche Konvergenzverlust
des nichtsymmetrischen Gleichungslösers
rangiert im Bereich
eines Faktors - und stellt sich als
stark vom Rechengitter beeinflußt heraus.
Ein schlüssiger Vergleich zu den Vektorcomputern wird
durch die Breite dieser Streuung erschwert.
-
-
Demgegenüber steht die Tatsache, daß die CM-2 in
ihren großen Konfigurationen (32k bzw. 64k Prozessoren)
eine extrem große Kapazität an Prozessorleistung
und Speichervermögen darstellt.
Die iterative Lösung eines linearen Gleichungssystems
der Dimension nimmt
auf einer 32k-Prozessormaschine
etwa die gleiche Zeit in Anspruch wie
die Lösung eines Problems
mit Punkten. In dieser
Skalierbarkeit der Prozessorleistung liegt das
große Potential der CM-2, die die Lösung sehr
großer Probleme favorisiert.
-
- Unbedingte Notwendigkeit
zur Installation eines Simulationsprogramms
für Halbleiterbauelemente
ist die Verfügbarkeit von Hardware für
die Beschleunigung der Arithmetik in doppelter Genauigkeit.
Nicht alle CMs verfügen darüber.
-
- Die Trennung
des Programms in Teile, die auf dem
Frontend-Computer laufen (Matrix-Assemblierung
und ähnlicher Operationen), und in die Gleichungslöser, die
auf der CM-2 rechnen, ist für eine praktische Nutzung
des Programms z.B. in einer industriellen Umgebung
nicht brauchbar. Grund dafür sind die langen
Transportzeiten der Matrixkoeffizienten
vom Frontend-Computer zur CM-2
und des Lösungsvektors von der CM-2 zum Frontend-Computer.
Eine Produktions-Implementierung müßte vollständig
auf der CM-2 laufen. Für eine solche ist eine
Neuprogrammierung eines großen Teiles von MINIMOS nötig.
-
- Eine beträchtliche Steigerung
der Megaflop-Rate der linearen Gleichungslöser
wäre durch den Einsatz des Slicewise-Datenformates
möglich, bei gleichzeitiger Nutzung der optimierten Stencil-Routinen.
Leider war dies zur Zeit der Untersuchungen nicht
möglich. Eine zehnfache Beschleunigung liegt durchaus
im Bereich des
möglichen (man vergleiche Tabelle 6.4
mit Tabelle 6.5).
Die folgenden Argumente sind in ihrer Natur spekulativ
und der Versuch, eine Perspektive massiv-parallelen Rechnens
in der Bauelement-Simulation zu geben:
-
- Die starke Konvergenz-Degradation durch
die Verwendung parallelisierbarer Vorkonditionierer
ist tatsächlich unbefriedigend. Weitere Forschungen
in diesem Gebiet sind notwendig. Desgleichen ist
die Parallelisierung auf dem Niveau der Gleichungslöser
womöglich nicht der richtige Weg. Eine Parallelisierung
des Randwertproblems in einem früheren Stadium -
etwa nach der Methode der Bereichsaufteilung
(Domain Decomposition) - hat diesbezüglich
ein großes Forschungspotential. Neue Resultate
dieser Methoden auf dem Halbleitersimulations-Sektor
sind zu erwarten.
-
- Die Entwicklung von Computergenerationen,
die in Forschungslabors Verwendung finden, ist zunehmend
geprägt von sehr leistungsfähigen Workstations.
Der numerische Durchsatz in modernen Workstations
dringt in Bereiche vor, die vor nicht allzu langer
Zeit Vektor-Supercomputern vorbehalten waren.
Eine Sättigung dieses Trends ist noch nicht
absehbar. Eine kritische Komponente für den
Einsatz der CM in Forschungsumgebungen - und
eine Voraussetzung für die Akzeptanz einer
solchen Architektur bei den Ingenieuren -
ist die feste Einbindung der CM in schnelle
Datenkommunikationsnetze.
Sehr große Matrizenprobleme
oder Echtzeit-Visualisierung in hoher Auflösung,
Aufgaben für die eine CM gut geeignet ist,
können dann im Zusammenspiel mit
Hochleistungs-Workstations gelöst bzw. realisiert
werden. Solche Systeme werden in Kürze
zur Verfügung stehen.
-
- Die nächste Generation von
CMs wird über eine Teraflop-Rechenleistung verfügen.
Ein arithmetischer Rechendurchsatz dieser Größenordnung
verkleinert das Problem der hohen Iterationszahlen.
-
- Wünschenswert sind weitere Implementationen
von Simulationswerkzeugen auf der CM.
Einige diesbezügliche Aktivitäten sind bereits
im Gange [35][98].
Next: Literaturverzeichnis
Up: 6 Vektor- und Parallelrechner-Implementationen
Previous: 6.2 Resultate auf der
Martin Stiftinger
Fri Oct 14 21:33:54 MET 1994