James Webb Space Telescope und 344 Single Points of Failure – New Stack

Anfang dieses Jahres erschien die größte Lektion in Site Reliability Engineering (SRE) im Weltraum. Letzte Woche sahen wir die ersten besser als erwarteten Bilder des James Webb Space Telescope oder JWST.

Nach zehn Jahren Design und Aufbau mit einem Budget von 9 Milliarden US-Dollar war dies ein Versuch, 344 einzelne Fehlerpunkte zu testen – alles vor der Bereitstellung in der Produktion, wobei das verteilte System eine Million Meilen und einen Monat entfernt war.

Unnötig zu sagen, dass man aus diesem Unterfangen viele Lektionen über die Zuverlässigkeit lernen kann. Beim SRE-Vortrag der WTF im letzten Monat präsentierte Robert Barron seine Perspektive als IBM SRE-Architekt und Hobby-Weltraumfotograf, um die Zuverlässigkeitsmuster aufzudecken, die dieses Kunststück ermöglichten. Und wie die NASA ihrer Automatisierung so sehr vertrauen konnte, dass sie etwas veröffentlichte, auf das sie keine Hoffnung hatte, es zu reparieren. Es ist eine wahre Reise in die Möglichkeit der Beobachtung im großen Maßstab.

Universelle funktionale und nicht-funktionale Anforderungen

“Es ist eine großartige Plattform zur Demonstration von Konzepten für die Standortzuverlässigkeit, da dies Zuverlässigkeit bis an die Grenze ist”, sagte Barron über das James Webb Space Telescope. „Wenn etwas schief geht und wenn es nicht zuverlässig ist, wird es nicht funktionieren. Wir können es nicht erneut veröffentlichen. Es ist nichts, was Sinn macht, es ist eine physische Sache, die richtig funktionieren muss, und ich denke, es gibt eine Menge davon.“ Lektionen und viel Inspiration, die wir aus dieser Arbeit ziehen können. „In unserem täglichen Leben“.

Nach 30 Jahren atemberaubender Bilder des Hubble-Teleskops besteht eine Nachfrage nach neuen kommerziellen und technischen Möglichkeiten, einschließlich der Fähigkeit, durch und durch alte Wolken zu sehen, als sie gebaut wurden.

Bei der Entwicklung des Webb-Teleskops begannen die Konstrukteure mit funktionalen Anforderungen, die wiederum zu vielen nicht funktionalen Anforderungen führten. Zum Beispiel musste es viel leistungsstärker und größer als Hubble sein, aber um das zu erreichen, brauchte es einen viel größeren Spiegel. Es trat jedoch ein Betriebsproblem auf, dass der Spiegel zu groß für eine Rakete war und daher in Stücke gebrochen werden musste. Es wurde zu einer nicht funktionalen Anforderung, einen Klappspiegel zu schaffen. Es entstand eine Lösung, den Spiegel in kleinere Sechsecke zu unterteilen, die zu einem wabenförmigen Spiegel aneinandergereiht werden konnten.

Die zweite nichtfunktionale Anforderung des JWST bestand darin, Hubble zu umgehen, indem es nicht nur unsichtbares Licht, sondern auch heißes Infrarotlicht sah. Aber um genau zu sein, der Spiegel muss kühl bleiben. „Es ist nicht nur kühler, sondern wir müssen auch in der Lage sein, die Temperaturen zu kontrollieren. Genau. Denn jeder Unterschied und wir sehen uns etwas an und denken ‚Oh, das ist ein Star.’ Dies ist eine Galaxie. Das findet man nicht nur im Internet selbst, erklärte Barron, und es ist etwas kühler oder wärmer, als es sein sollte.

Im Gegensatz zu Hubble, das die Erde umkreist, kann sich Webb nicht drehen, da seine Temperatur in Sonne und Schatten stark schwankt. Außerdem muss es weiter von der Erde entfernt sein als Hubble. Vor diesem Hintergrund sind die Steuerungen und Antennen zur Erde gerichtet und das Teleskop ist weggerichtet, wobei die bienenstockförmige Spiegelanordnung in einem zweiten Spiegelsatz reflektiert wird und Bilder zurück zu den Kameras in der Mitte der Wabenspiegel sendet. . Dann war hinter ihnen ein riesiger Satz von Sonnendächern, die die Temperatur des Teleskops kontrollieren.

Wenn die Gemeinkosten steigen

Als die NASA 1995 beschloss, dieses Weltraumteleskop der nächsten Generation zu bauen, ging die Agentur davon aus, dass es etwa 1 Milliarde Dollar kosten würde. Im Jahr 2003 begannen sie mit der Gestaltung, „da sie erkannten, dass Hubble nicht nur skaliert, sondern auch technologische Durchbrüche brauchen – klappbare Spiegel, präzise Temperaturregelung, aufklappbare Hitzeschilde usw.“, sagte Barron. In den nächsten vier Jahren des High-Level-Designs erhöhten sie das Budget auf 3,5 Milliarden US-Dollar und planten eine weitere Milliarde für ein Jahrzehnt Betrieb.

Dann, zwischen 2007 und 2021, war die NASA an der Entwurfs-, Bau- und Testphase des sogenannten James-Webb-Weltraumteleskops beteiligt.

„Wir testen wie gute SREs, und weil wir zehn technologische Durchbrüche haben, die wir machen müssen, haben wir viele Fehler“, sagte Barron. Also testen wir erneut und scheitern und testen erneut und scheitern. Das kostet viel Zeit, und das Projekt steht mehrfach kurz vor dem Abbruch. Am Ende kostete der Bau nur 9,5 Milliarden Dollar. Und diese Milliarde Dollar, von der wir dachten, dass sie ausreichen würde, um 10 Jahre zu arbeiten, würde nur ausreichen, um 5 Jahre zu arbeiten.“

Alles in allem startete JWST im Dezember letzten Jahres, wo es seinen Anfang nahm, und das, was Barron als „Ballett und Ballettbewegung“ bezeichnete, durch den Weltraum.

“Sie können sehen, dass sich das Teleskop über einen Zeitraum von 13 Tagen wie ein Schmetterling öffnet, seine Flügel ausbreitet und nach Hause meldet. Dann beginnt es, sich weiter von der Erde zu entfernen, bis es die Position erreicht, in der es bleiben wird nächsten Jahrzehnt. Diese Reise dauerte insgesamt 30 Tage. .

Da die WTF das SRE-Ereignis war, über das Barron Ende April sprach, wurde JWST als Mitte der Veröffentlichung angesehen: „Bevor wir die Produktion erreichen, führen wir die letzten Tests durch, bevor wir sagen können, dass das System funktioniert, und wir können damit beginnen, tatsächliche wissenschaftliche Daten zu präsentieren .”

Während dieser Bereitstellungsphase bewegen und verändern sich viele Komponenten und Teile, und es wurden viele Fehlerquellen aufgedeckt – 344, um genau zu sein.

„Es ist bekannt, dass Webb während dieses 30-tägigen Prozesses mehr als 300 einzelne Fehlerpunkte hat, von denen jeder perfekt laufen muss, und wenn jeder ausfällt, kann das gesamte Teleskop nicht mehr betrieben werden“, erklärte Barron.

Als diese ersten außergewöhnlichen Bilder zurückkehrten und neue, schwächere Galaxien entdeckten, war es Glück oder eine technische Meisterleistung für extreme Standortzuverlässigkeit?

„Wie kam die NASA an den Punkt, an dem sie einen 10-Milliarden-Dollar-Satelliten ins All schicken konnte, ohne etwas reparieren zu können, ohne einen Astronauten erreichen zu können, um zu sagen: ‚Oh, ich muss etwas bewegen, ich muss neu starten‘ Etwas, ich muss etwas manuelles tun. Wie kann das System vollständig automatisiert werden? Und kann ich darauf vertrauen, dass kein Drache aus dem Weltraum kommt und etwas für das Teleskop tut, das es zum Scheitern bringt? “

-Robert Baron Tweet einbetten

Fülle. Fix. Verlässlichkeit.

Man könnte sagen, das ist mehr als nur ein Vertrauensvorschuss. Barron glaubt, dass das Vertrauen, das die NASA in all dies hatte, ordnungsgemäß funktioniert, von ihrer jahrzehntelangen Geschichte des Sendens von Raumfahrzeugen in den Weltraum herrührt, die auf Werten basiert:

  • Fülle
  • Fix
  • Verlässlichkeit

Das Voyager-Raumschiff, das zu Jupiter, Saturn, Uranus, Neptun und dem Mars-Rover flog, waren in Wirklichkeit Gruppen identischer Doppelschiffe, falls eines ausfallen sollte. In ähnlicher Weise fungieren Türme von Satelliten im Tandem als Safes im Falle eines Ausfalls. Die NASA hat diese Iteration immer begrüßt, aber es war keine Option mit dem JWST-Preisschild.

Wenn die Iteration endet, sucht die nächste NASA nach einer Lösung. Das Hubble-Teleskop wurde mehrmals für vorbeugende Reparaturen und Wartung repariert und aufgerüstet. Laut Barron verbringen Astronauten auf der Internationalen Raumstation tatsächlich 50 % ihrer Zeit mit harter Arbeit.

„Wenn die Astronauten die Internationale Raumstation verlassen, wird sie in sehr kurzer Zeit abstürzen und sie müssen sie zum Verbrennen zurück in die Atmosphäre schicken“, erklärte er.

Aber auch hier waren die nichtfunktionalen Anforderungen der Reparatur für das Webb-Teleskop keine Option, da es von der derzeitigen Kapazität der Astronauten wegschwimmt.

Der nächste Schritt in Richtung Zuverlässigkeit war also der Aufbau des JWST außerhalb der Komponentenarchitektur.

Barron ging eine kurze Geschichte des Weltraumwettlaufs zwischen der Sowjetunion und den Vereinigten Staaten von 1960 bis 1988 durch. Er entdeckte das Muster, dass Redundanz eigentlich keine Rolle spielte, weil beide Charaktere jedes Mal Fehlermodi gemeinsam hatten, z. B. nicht robust genug oder dass der Start während eines Sandsturms stattfand. Er merkte an, dass das sowjetische Raumfahrtprogramm sich entschieden habe, seine Fehler nicht zu veröffentlichen, so dass es weniger wahrscheinlich sei als die NASA, daraus zu lernen.

„Iteration ist sehr gut, aber manchmal löst sie auf Systemebene ein Problem nicht, weil das Problem viel umfassender ist“, was laut Barron auch für SREs gilt. Kubernetes hat beispielsweise Komponenten, Redundanz und Lastenausgleich eingebaut, aber es spielt keine Rolle, ob das Problem mit DNS oder einem Anwendungsfehler zusammenhängt. Zuverlässigkeit erfordert oft mehr als eine einfache Iteration.

Der Hubble-Monolith wurde von Grund auf mit Blick auf Reparierbarkeit und Aufrüstbarkeit gebaut. Da diese Lösung nicht mehr im Spiel war, mussten für jeden einzelnen Fehlerpunkt mehr Tests mit Webb im Vergleich zu Hubble durchgeführt werden. Beispielsweise war jeder Spiegel eine kleinere Komponente, die aus der Ferne reorganisiert werden konnte. Er verglich dies mit Kubernetes, wo man jedem Microservice die richtige Menge an CPU, Speicher und verfügbaren Ressourcen zuweisen möchte.

Tatsächlich sah Webb einige Kompromisse im Zusammenhang mit der Beobachtung, da nur mehrere Selfie-Kameras ihren Zustand überwachen können, da das Hinzufügen weiterer Kameras die Temperatur beeinflussen und ihre Beobachtungen verändern könnte.

Diagramm von zwei Seiten des James-Webb-Teleskops, das die Kosten der Beobachtungsfähigkeit zeigt.  Die Temperatur auf der der Sonne zugewandten Seite beträgt 185 Grad Fahrenheit, während die Seite des verspiegelten Teleskops 388 Grad unter Null liegt, um zu zeigen, dass das Gerät überhitzt und die Ergebnisse verfälscht, wenn zu viele Selfie-Kameras zur Überwachung vorhanden sind, um die ordnungsgemäße Funktion zu gewährleisten

Webb SRE .Strategie

Es besteht kein Zweifel, dass die SRE-Strategie des James Web Space Telescope mehr auf dem Spiel hat als jede Strategie, die auf der Erde eingesetzt wird. Es bleibt ein großartiges Beispiel dafür, wie die Anforderungen an Standortzuverlässigkeitstechnik und -überwachung im Kontext der Bedingungen variieren können. Und manchmal kann Chaos Engineering nur implementiert werden, bevor es in die Produktion geht.

Barron bemerkte einige der SRE-Strategien von JWST:

  • 100 % Verfügbarkeit anstreben (kein Raum für Budgetfehler)
  • Neue Technologien für ein neues Produkt nutzen
  • Investieren Sie alle Anstrengungen in eine große Bereitstellung
  • Maximierung der funktionellen Kapazität durch Reduzierung der Beobachtungsbelastung
  • Priorisieren nichtfunktionaler Anforderungen und Abwägen mit funktionalen Anforderungen
  • Schaffen Sie möglichst redundante Systeme
  • Reduzieren Sie technische Schulden und vermeiden Sie Probleme, die in früheren Bereitstellungen entdeckt wurden
  • Identifizieren Sie so viele einzelne Fehlerpunkte wie möglich und testen Sie dann immer wieder
  • Wägen Sie Beobachtungsanforderungen – Kosten, Belastung, Komplexität – und Vorteile ab
  • Testen Sie immer und erfahren Sie, wie Tests den Geschäftswert steigern

Die JWST-Erfahrung ist auch eine gute Erinnerung daran, dass Sie mit geringeren Einsätzen der NASA, einer viel häufigeren und geringeren Bereitstellungskadenz und weniger als 100 % Betriebszeit mehr Redundanz, Reparierbarkeit und Zuverlässigkeit erleben können, um Ihre Systeme kontinuierlich zu verbessern. Idealerweise unter deutlich weniger Druck.

“Als SREs wollen wir keine 100-prozentige Verfügbarkeit anstreben. Wir wollen das richtige Maß an Verfügbarkeit und wir wollen nicht zu viel ausgeben – weder die Ressourcen noch das Budget – um dieses Ziel zu erreichen. Das tun wir nicht Ich möchte viele neue Technologien für neue Produkte übernehmen“, sagte Barron. „Viele der Lehren aus dem Internet sind, was man nicht tun sollte.“

Offenlegung: Der Autor dieses Artikels war Gastgeber der WTF is SRE-Konferenz.

The New Stack ist eine hundertprozentige Tochtergesellschaft von Insight Partners, einem Investor der folgenden in diesem Artikel erwähnten Unternehmen: Saturn.

Leave a Comment