Car-tech

Les superordinateurs deviennent plus puissants et deviennent plus vulnérables à l'échec grâce à -en componentry. Quelques chercheurs lors de la récente conférence SC12 ont proposé des solutions possibles à ce problème croissant.

Sénat 360, 100% Questions d'actualité au Gouvernement (16/10/2018)

Sénat 360, 100% Questions d'actualité au Gouvernement (16/10/2018)

Table des matières:

Anonim

Les systèmes de calcul haute performance (HPC) d'aujourd'hui peuvent avoir 100 000 nœuds ou plus. composants de la mémoire, processeurs, bus et autres circuits. Statistiquement parlant, tous ces composants échoueront à un moment donné, et ils arrêtent les opérations quand ils le font, a déclaré David Fiala, un étudiant au doctorat à la North Carolina State University, lors d'une conférence à SC12.

Le problème n'est pas un nouveau, bien sûr. Lorsque le supercalculateur blanc ASCI (Accelerated Strategic Computing Initiative) de Lawrence Livermore National Laboratory a été mis en ligne en 2001, il avait un temps moyen entre défaillances (MTBF) de seulement cinq heures, en partie grâce à des défaillances de composants. Fiala a déclaré que les efforts de réglage ultérieurs avaient amélioré le MTBF d'ASCI White à 55 heures, mais que le nombre de nœuds de supercalculateurs augmentera, le problème aussi. "Il faut faire quelque chose à ce sujet, ça va empirer au fur et à mesure que nous passerons à l'exascale", a déclaré Fiala, en évoquant comment les supercalculateurs de la prochaine décennie devraient avoir dix fois plus de pouvoir que les modèles actuels. pour faire face à l'échec du système peut ne pas très bien évoluer, a déclaré Fiala. Il a cité le point de contrôle, dans lequel un programme en cours est temporairement arrêté et son état est enregistré sur le disque. Si le programme tombe alors en panne, le système est capable de redémarrer le travail depuis le dernier point de contrôle

NCSUDavid Fiala

Le problème avec le point de contrôle, selon Fiala, est que le nombre de nœuds augmente nécessaire pour faire des points de contrôle se développe aussi bien et croît à un rythme exponentiel. Sur un superordinateur de 100 000 nœuds, par exemple, environ 35% seulement de l'activité sera consacrée à la conduite des travaux. Le reste sera pris en charge par checkpointing et, en cas d'échec du système, Fiala estimera

En raison de tout le matériel supplémentaire requis pour les systèmes exascale, qui pourraient être construits à partir d'un million de composants ou plus, la fiabilité du système

Vieux, bon conseil: sauvegarder les données

Fiala a présenté une technologie que ses collègues et lui-même ont développée pour améliorer la fiabilité.. La technologie aborde le problème de la corruption des données silencieuses, lorsque les systèmes font des erreurs non détectées en écrivant des données sur le disque.

L'approche des chercheurs consiste à exécuter simultanément plusieurs copies ou «clones» d'un programme. Le logiciel, appelé RedMPI, est exécuté conjointement avec MPI (Message Passing Interface), une bibliothèque permettant de séparer les applications en cours sur plusieurs serveurs afin que les différentes parties du programme puissent être exécutées en parallèle.

RedMPI intercepte et copie tous les MPI message qu'une application envoie et envoie des copies du message au clone (ou aux clones) du programme. Si différents clones calculent des réponses différentes, alors les nombres peuvent être recalculés à la volée, ce qui économisera du temps et des ressources pour réexécuter le programme entier.

"Implémenter la redondance n'est pas cher. cela est nécessaire, mais cela évite le besoin de réécrire avec des redémarrages de points de contrôle », a déclaré Fiala. "L'alternative est, bien sûr, de simplement réexécuter les tâches jusqu'à ce que vous pensiez que vous avez la bonne réponse."

Fiala a recommandé d'exécuter deux copies de sauvegarde de chaque programme, pour une triple redondance. Bien que l'exécution de plusieurs copies d'un programme nécessite initialement plus de ressources, avec le temps, il peut être plus efficace, car les programmes n'auraient pas besoin d'être rediffusés pour vérifier les réponses. En outre, le point de reprise peut ne pas être nécessaire lorsque plusieurs copies sont exécutées, ce qui permet également d'économiser sur les ressources système.

UCSCEthan Miller

"Je pense que l'idée de faire de la redondance est vraiment une bonne idée. [Pour] de très gros calculs impliquant des centaines de milliers de nœuds, il y a certainement une chance que des erreurs se fassent sentir" professeur d'informatique à l'Université de Californie à Santa Cruz, qui a assisté à la présentation. Mais il a déclaré que l'approche pourrait ne pas convenir compte tenu de la quantité de trafic réseau qu'une telle redondance pourrait créer. Il a suggéré d'exécuter toutes les applications sur le même ensemble de nœuds, ce qui pourrait minimiser le trafic internoeud.

Dans une autre présentation, Ana Gainaru, étudiante au doctorat de l'Université de l'Illinois à Urbana-Champaign, a présenté une

Le travail combine l'analyse du signal avec l'exploration de données. L'analyse du signal est utilisée pour caractériser le comportement normal, donc lorsqu'une défaillance se produit, elle peut être facilement repérée. L'exploration de données recherche les corrélations entre les échecs signalés séparément. D'autres chercheurs ont montré que les échecs multiples sont parfois corrélés les uns avec les autres, car un échec avec une technologie peut affecter la performance dans d'autres, selon Gainaru. Par exemple, lorsqu'une carte réseau échoue, elle entrave bientôt d'autres processus système qui reposent sur la communication réseau.

Les chercheurs ont découvert que 70% des échecs corrélés offrent une fenêtre d'opportunité de plus de 10 secondes. En d'autres termes, lorsque le premier signe d'une défaillance a été détecté, le système peut avoir jusqu'à 10 secondes pour enregistrer son travail ou déplacer le travail vers un autre nœud, avant qu'une défaillance plus critique se produise. "La prédiction d'échec peut être fusionnée avec d'autres techniques de tolérance aux fautes", a déclaré Gainaru.

Joab Jackson couvre les logiciels d'entreprise et les nouvelles de dernière génération pour

The IDG News Service

. Suivez Joab sur Twitter à @Joab_Jackson. L'adresse e-mail de Joab est [email protected]