Modern technology gives us many things.

Riesen-Rechenzentren registrieren tückische Prozessorfehler

0 59

Laut Forscherteams von Google und Facebook treten Rechen- und Datenfehler wie Silent Data Corruption (SDC) viel häufiger hinauf, wie man bisher erwartete.

 

 Riesen-Rechenzentren registrieren tückische Prozessorfehler

 Riesen-Rechenzentren registrieren tückische Prozessorfehler

KI-Rechenbeschleuniger Google TPUv1

(Bild: Google)

c’t Magazin Von

  • Christof Windeck

Sogenannte Hyperscale-Rechenzentren, die zehntausende Server betreiben, zu tun sein sich mit Fehlern herumschlagen, die sonst verkannt bleiben: Durch die gewaltige Anzahl an Prozessorkernen zeugen sich ebenso sehr seltene Probleme detektierbar. Ein Forscherteam von Google beschreibt nun „launenhafte“ (mercurial) Prozessorkerne, die bestimmte Rechenaufgaben falsch verarbeiten.

Typisch zum Besten von sogenannte „Corrupt Execution Errors“ (CEE) ist laut Google, dass sie nicht etwa c/o allen Kernen eines individuellen Prozessors oder Rechenbeschleunigers hervortreten, sondern nur c/o einzelnen. Das sind dann die erwähnten „mercurial Cores“, von denen es „einige wenige pro mehrere Tausend Server“ gibt.

In ihrem Konferenzbeitrag „Cores that don’t count“ (Portable Document Format-Datei) verweisen die Google-Experten unter anderem hinauf die irgendwas ältere Untersuchung von Facebook „Silent Data Corruption at Scale“, die homolog gelagerte Probleme durch Silent Data Corruption (SDC) beschreibt.

Beide Forschungsarbeiten nennen keine konkreten Prozessortypen, die namentlich betroffen wären. Sie erwähnen jedoch klar und deutlich spezialisierte Rechenbeschleuniger, die Google ebenso selbst entwickelt, bspw. Tensor Processing Units (TPUs).

Den Teams geht es tendenziell um die Entwicklung effizienter Methoden, um derartige Fehler zu enttarnen, und zwar sowohl durch zusätzliche Hardware-Funktionen wie ebenso mit Software. Das Facebook-Team schlägt Prüfalgorithmen vor, die jeder einzelne Prozessorkern in gewissen Abständen verarbeitet, etwa im Zuge von Wartungsarbeiten.

Die Facebook-Forscher sehen keinen direkten Zusammenhang zwischen welcher Fehlerhäufigkeit und feineren Strukturen c/o welcher Chipfertigung (Zitat: „SDCs are a systemic issue across generations“). Das Google-Team vermutet zugegeben kombinieren: Als grundlegende Ursache tippen sie hinauf „immer kleinere Strukturen, die näher an die Grenzen der CMOS-Technik heranrücken, im Verbund mit immer komplexeren Rechenwerken“.

Falsch rechnende Prozessorkerne kommen nachdem den Studien von Facebook und Google jedenfalls merklich häufiger vor, wie es Simulationen und Qualitätsaussagen von Hardware-Herstellern vermuten lassen.

 

 

(ciw)

Quelle: www.heise.de

Hinterlasse eine Antwort

Deine Email-Adresse wird nicht veröffentlicht.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More