Riesen-Rechenzentren registrieren tückische Prozessorfehler
Laut Forscherteams von Google und Facebook treten Rechen- und Datenfehler wie Silent Data Corruption (SDC) viel häufiger hinauf, wie man bisher erwartete.
c’t Magazin Von
- Christof Windeck
Sogenannte Hyperscale-Rechenzentren, die zehntausende Server betreiben, zu tun sein sich mit Fehlern herumschlagen, die sonst verkannt bleiben: Durch die gewaltige Anzahl an Prozessorkernen zeugen sich ebenso sehr seltene Probleme detektierbar. Ein Forscherteam von Google beschreibt nun „launenhafte“ (mercurial) Prozessorkerne, die bestimmte Rechenaufgaben falsch verarbeiten.
Typisch zum Besten von sogenannte „Corrupt Execution Errors“ (CEE) ist laut Google, dass sie nicht etwa c/o allen Kernen eines individuellen Prozessors oder Rechenbeschleunigers hervortreten, sondern nur c/o einzelnen. Das sind dann die erwähnten „mercurial Cores“, von denen es „einige wenige pro mehrere Tausend Server“ gibt.
In ihrem Konferenzbeitrag „Cores that don’t count“ (Portable Document Format-Datei) verweisen die Google-Experten unter anderem hinauf die irgendwas ältere Untersuchung von Facebook „Silent Data Corruption at Scale“, die homolog gelagerte Probleme durch Silent Data Corruption (SDC) beschreibt.
Beide Forschungsarbeiten nennen keine konkreten Prozessortypen, die namentlich betroffen wären. Sie erwähnen jedoch klar und deutlich spezialisierte Rechenbeschleuniger, die Google ebenso selbst entwickelt, bspw. Tensor Processing Units (TPUs).
Den Teams geht es tendenziell um die Entwicklung effizienter Methoden, um derartige Fehler zu enttarnen, und zwar sowohl durch zusätzliche Hardware-Funktionen wie ebenso mit Software. Das Facebook-Team schlägt Prüfalgorithmen vor, die jeder einzelne Prozessorkern in gewissen Abständen verarbeitet, etwa im Zuge von Wartungsarbeiten.
Einfluss kleinerer Strukturen
Die Facebook-Forscher sehen keinen direkten Zusammenhang zwischen welcher Fehlerhäufigkeit und feineren Strukturen c/o welcher Chipfertigung (Zitat: „SDCs are a systemic issue across generations“). Das Google-Team vermutet zugegeben kombinieren: Als grundlegende Ursache tippen sie hinauf „immer kleinere Strukturen, die näher an die Grenzen der CMOS-Technik heranrücken, im Verbund mit immer komplexeren Rechenwerken“.
Falsch rechnende Prozessorkerne kommen nachdem den Studien von Facebook und Google jedenfalls merklich häufiger vor, wie es Simulationen und Qualitätsaussagen von Hardware-Herstellern vermuten lassen.
(ciw)
Quelle: www.heise.de