Les superordinateurs deviennent plus puissants et deviennent plus vulnérables à l'échec grâce à -en componentry. Quelques chercheurs lors de la récente conférence SC12 ont proposé des solutions possibles à ce problème croissant.

Sénat 360, 100% Questions d'actualité au Gouvernement (16/10/2018)

Table des matières:

RedMPI intercepte et copie tous les MPI message qu'une application envoie et envoie des copies du message au clone (ou aux clones) du programme. Si différents clones calculent des réponses différentes, alors les nombres peuvent être recalculés à la volée, ce qui économisera du temps et des ressources pour réexécuter le programme entier.

Les systèmes de calcul haute performance (HPC) d'aujourd'hui peuvent avoir 100 000 nœuds ou plus. composants de la mémoire, processeurs, bus et autres circuits. Statistiquement parlant, tous ces composants échoueront à un moment donné, et ils arrêtent les opérations quand ils le font, a déclaré David Fiala, un étudiant au doctorat à la North Carolina State University, lors d'une conférence à SC12.

Le problème n'est pas un nouveau, bien sûr. Lorsque le supercalculateur blanc ASCI (Accelerated Strategic Computing Initiative) de Lawrence Livermore National Laboratory a été mis en ligne en 2001, il avait un temps moyen entre défaillances (MTBF) de seulement cinq heures, en partie grâce à des défaillances de composants. Fiala a déclaré que les efforts de réglage ultérieurs avaient amélioré le MTBF d'ASCI White à 55 heures, mais que le nombre de nœuds de supercalculateurs augmentera, le problème aussi. "Il faut faire quelque chose à ce sujet, ça va empirer au fur et à mesure que nous passerons à l'exascale", a déclaré Fiala, en évoquant comment les supercalculateurs de la prochaine décennie devraient avoir dix fois plus de pouvoir que les modèles actuels. pour faire face à l'échec du système peut ne pas très bien évoluer, a déclaré Fiala. Il a cité le point de contrôle, dans lequel un programme en cours est temporairement arrêté et son état est enregistré sur le disque. Si le programme tombe alors en panne, le système est capable de redémarrer le travail depuis le dernier point de contrôle

NCSUDavid Fiala

Le problème avec le point de contrôle, selon Fiala, est que le nombre de nœuds augmente nécessaire pour faire des points de contrôle se développe aussi bien et croît à un rythme exponentiel. Sur un superordinateur de 100 000 nœuds, par exemple, environ 35% seulement de l'activité sera consacrée à la conduite des travaux. Le reste sera pris en charge par checkpointing et, en cas d'échec du système, Fiala estimera

En raison de tout le matériel supplémentaire requis pour les systèmes exascale, qui pourraient être construits à partir d'un million de composants ou plus, la fiabilité du système

Vieux, bon conseil: sauvegarder les données

Fiala a présenté une technologie que ses collègues et lui-même ont développée pour améliorer la fiabilité.. La technologie aborde le problème de la corruption des données silencieuses, lorsque les systèmes font des erreurs non détectées en écrivant des données sur le disque.

L'approche des chercheurs consiste à exécuter simultanément plusieurs copies ou «clones» d'un programme. Le logiciel, appelé RedMPI, est exécuté conjointement avec MPI (Message Passing Interface), une bibliothèque permettant de séparer les applications en cours sur plusieurs serveurs afin que les différentes parties du programme puissent être exécutées en parallèle.

RedMPI intercepte et copie tous les MPI message qu'une application envoie et envoie des copies du message au clone (ou aux clones) du programme. Si différents clones calculent des réponses différentes, alors les nombres peuvent être recalculés à la volée, ce qui économisera du temps et des ressources pour réexécuter le programme entier.

"Implémenter la redondance n'est pas cher. cela est nécessaire, mais cela évite le besoin de réécrire avec des redémarrages de points de contrôle », a déclaré Fiala. "L'alternative est, bien sûr, de simplement réexécuter les tâches jusqu'à ce que vous pensiez que vous avez la bonne réponse."

Fiala a recommandé d'exécuter deux copies de sauvegarde de chaque programme, pour une triple redondance. Bien que l'exécution de plusieurs copies d'un programme nécessite initialement plus de ressources, avec le temps, il peut être plus efficace, car les programmes n'auraient pas besoin d'être rediffusés pour vérifier les réponses. En outre, le point de reprise peut ne pas être nécessaire lorsque plusieurs copies sont exécutées, ce qui permet également d'économiser sur les ressources système.

UCSCEthan Miller

"Je pense que l'idée de faire de la redondance est vraiment une bonne idée. [Pour] de très gros calculs impliquant des centaines de milliers de nœuds, il y a certainement une chance que des erreurs se fassent sentir" professeur d'informatique à l'Université de Californie à Santa Cruz, qui a assisté à la présentation. Mais il a déclaré que l'approche pourrait ne pas convenir compte tenu de la quantité de trafic réseau qu'une telle redondance pourrait créer. Il a suggéré d'exécuter toutes les applications sur le même ensemble de nœuds, ce qui pourrait minimiser le trafic internoeud.

Dans une autre présentation, Ana Gainaru, étudiante au doctorat de l'Université de l'Illinois à Urbana-Champaign, a présenté une

Le travail combine l'analyse du signal avec l'exploration de données. L'analyse du signal est utilisée pour caractériser le comportement normal, donc lorsqu'une défaillance se produit, elle peut être facilement repérée. L'exploration de données recherche les corrélations entre les échecs signalés séparément. D'autres chercheurs ont montré que les échecs multiples sont parfois corrélés les uns avec les autres, car un échec avec une technologie peut affecter la performance dans d'autres, selon Gainaru. Par exemple, lorsqu'une carte réseau échoue, elle entrave bientôt d'autres processus système qui reposent sur la communication réseau.

Les chercheurs ont découvert que 70% des échecs corrélés offrent une fenêtre d'opportunité de plus de 10 secondes. En d'autres termes, lorsque le premier signe d'une défaillance a été détecté, le système peut avoir jusqu'à 10 secondes pour enregistrer son travail ou déplacer le travail vers un autre nœud, avant qu'une défaillance plus critique se produise. "La prédiction d'échec peut être fusionnée avec d'autres techniques de tolérance aux fautes", a déclaré Gainaru.

Joab Jackson couvre les logiciels d'entreprise et les nouvelles de dernière génération pour

The IDG News Service

. Suivez Joab sur Twitter à @Joab_Jackson. L'adresse e-mail de Joab est [email protected]

Les utilisateurs n'ont plus besoin de retirer leurs MacBooks de leurs sacs, grâce à de nouveaux sacs pour ordinateurs portables «compatibles checkpoint». C'est une corvée que d'enlever les ordinateurs portables et de les placer dans des bacs, de sorte que ces sacs permettent aux appareils à rayons X d'examiner les ordinateurs portables de l'intérieur des sacs. Les sacs sont conçus en utilisant les directives fournies par la TSA, qui veut une vue claire de l'ordinateur portable à travers le sac.

La TSA ne certifie pas officiellement les sacs, mais elle a établi quelques règles de base qui peuvent être consultées sur son site Web.

Malgré le nombre croissant de cyberattaques réussies lancées par des pirates informatiques d'Asie de l'Est contre des entreprises et des institutions gouvernementales dans le monde ces dernières années, les cybercriminels d'Europe de l'Est sont une menace plus sophistiquée. Les cybercriminels européens restent une menace plus sophistiquée pour l'Internet mondial, disent les chercheurs en sécurité.

"Alors que les pirates informatiques d'Asie de l'Est dominent les manchettes de la cybersécurité dans le monde avec des intrusions et des menaces persistantes avancées (APT), ce serait une erreur pour conclure que ces attaquants sont la seule ou la plus grande menace criminelle pour l'Internet mondial aujourd'hui " Tom Kellermann, vice-président de la cybersécurité du fournisseur d'antivirus Trend Micro, a déclaré dans un rapport intitulé "Pierre le Grand contre Sun Tzu".

La police de Mumbai a arrêté samedi un chercheur en sécurité qui a enquêté sur des problèmes de sécurité dans des machines à voter électroniques. chercheur en sécurité qui a enquêté sur les machines à voter électroniques (EVM) utilisées lors des élections indiennes a été arrêté par la police à Mumbai samedi. Hari Prasad et d'autres chercheurs ont publié une vidéo plus tôt cette année montrant comment, après avoir bricolé avec l'électronique interne d'un EVM, ils pourraient effectuer des attaques

En avril, Prasad a déclaré à IDG News Service que son groupe de chercheurs avait accès à une EVM opérationnelle. lors d'une élection par le biais d'une source anonyme.

Les superordinateurs deviennent plus puissants et deviennent plus vulnérables à l'échec grâce à -en componentry. Quelques chercheurs lors de la récente conférence SC12 ont proposé des solutions possibles à ce problème croissant.

Sénat 360, 100% Questions d'actualité au Gouvernement (16/10/2018)

Table des matières:

Articles intéressants

Meilleurs outils de programmation pour le tutorat des enfants

3 meilleurs outils d'écriture d'images USB compatibles avec l'interface graphique sous Linux

10 meilleurs plugins de blocs Gutenberg utiles pour WordPress

3 autres alternatives VoIP à Skype

Academix GNU/Linux

Outils pour accéder au système de fichiers Linux à partir de Windows

Meilleurs outils de programmation pour le tutorat des enfants

3 meilleurs outils d'écriture d'images USB compatibles avec l'interface graphique sous Linux

10 meilleurs plugins de blocs Gutenberg utiles pour WordPress

Meilleurs outils de programmation pour le tutorat des enfants

3 meilleurs outils d'écriture d'images USB compatibles avec l'interface graphique sous Linux

10 meilleurs plugins de blocs Gutenberg utiles pour WordPress

Les superordinateurs deviennent plus puissants et deviennent plus vulnérables à l'échec grâce à -en componentry. Quelques chercheurs lors de la récente conférence SC12 ont proposé des solutions possibles à ce problème croissant.

Sénat 360, 100% Questions d'actualité au Gouvernement (16/10/2018)

Table des matières:

Conseillé

Articles intéressants