lundi 24 février 2025

Exploitation des SI, de leurs éléments constitutifs

 Des processus d’exploitation des SI, de leurs éléments constitutifs sont à définir.

Les SI, leurs éléments constitutifs, sont parfois associés à des éléments d'autres natures (immeubles, usines, moyens de transport…). L’activité fait alors partie de l’exploitation d’ensemble

L'exploitation vise à les faire fonctionner conformément aux besoins, pour des coûts compétitifs, en maîtrisant les risques associés. Elle a des objectifs tels que la maîtrise, l'efficacité du fonctionnement, son optimisation, le respect des engagements pris sur la disponibilité, les performances, le maintien en conditions opérationnelles.

Elle est réalisée par des équipes spécialisées de professionnels du numérique, par exemple pour les grands systèmes, réseaux, ou directement par les utilisateurs.

Les principales tâches à réaliser sont présentées ci-dessus.

L’exploitation porte sur un ou plusieurs SI, équipements, logiciels, pour un ou plusieurs utilisateurs. Les demandeurs et les réalisateurs sont des utilisateurs finals ou des professionnels du numérique.

Le mouvement DevOps préconise d'appliquer les méthodes agiles à l'exploitation. Des outils DevOps sont utilisables : planification, création, vérification, empaquetage, livraison (release), configuration, surveillance.

Des choix sont à faire sur la centralisation de l’exploitation par des professionnels du numérique, pour plusieurs SI, pour tous leurs éléments constitutifs, y compris ceux installés sur des sites distants, ainsi que sur la mise en place d’outils communs pour les systèmes internes et les clouds.

La prise en charge, la gestion des utilisateurs sont traitées avec le déploiement.

Prise en charge des SI, de leurs éléments constitutifs

Le périmètre à prendre en charge est nouveau, ou est déjà exploité par une autre équipe. Il est parfois souhaitable (réversibilité) de définir des obligations pour l’équipe d’ingénierie ou pour l’équipe d’exploitation sortante, en termes de nature des livrables à fournir (SI, éléments constitutifs testés, documentés, gestions de configuration à jour…), de transfert de connaissances, d’assistance.

1) Des choix sont à faire sur les modalités de prise de connaissance du périmètre à exploiter. L’objectif est que l’équipe d’exploitation connaisse aussi bien que possible les caractéristiques des SI, de leurs éléments constitutifs, les éventuels SI remplacés. La prise de connaissance est essentiellement réalisée à partir de la documentation, de la gestion de configuration, de la réalisation d’essais. Elle est associable à des contrôles, par exemple de la documentation, des tests. Des présentations sont parfois demandées aux concepteurs, aux responsables de la maintenance/évolution.

Pour les grands systèmes, la prise de connaissance est un travail très lourd. Elle est plus facile pour les SI, les éléments constitutifs bien structurés, bien documentés, avec l’aide de l’équipe d'ingénierie, de maintenance.

Les équipes d’exploitation participent parfois à la recette des résultats de l'ingénierie, de la maintenance.

2) La mise en exploitation recouvre l'installation initiale, ou la modification, de l'environnement de production, l'intégration de nouveaux SI, éléments constitutifs, des évolutions des matériels, de nouvelles versions de logiciels, dans les processus d’exploitation. Son contenu dépend des limites de fourniture définies entre ingénierie, maintenance, déploiement et exploitation. Elle est susceptible d’inclure des activités telles que :

– l'établissement ou la mise à jour des procédures d’exploitation ;

– le chargement des logiciels, de leurs modifications, des données, dans l'environnement de production ;

– le paramétrage des logiciels pour l’exploitation ;

– la création, la gestion technique d’ensembles d’informations (fichiers, bases de données...) ;

– l'intégration des SI, de leurs éléments constitutifs dans les outils d’exploitation, le paramétrage de ces outils ;

– pour les évolutions des applications, la restructuration si nécessaire des données des utilisateurs ;

– la préparation ou l'évolution des plans de secours.

Elle s'appuie sur les travaux de préparation effectués par l'équipe d'ingénierie, de maintenance, par exemple sur les fichiers de définition établis dans le cadre d'une démarche d'IaC (infrastructure as code). 

Des solutions d'automatisation des cycles de mise en production sont parfois mises en place.

Pour les grands systèmes, les logiciels, les paramétrages, une fois testés en environnement d'intégration, sont le plus souvent transférés automatiquement vers les systèmes de pré-production, de production, de secours.

Les plannings d'intégration et de mise en production sont à définir de façon cohérente. Le mouvement DevOps préconise une mise en exploitation régulière des logiciels développés, la répétition contribuant à fiabiliser le processus global, à faire fonctionner une boucle d'amélioration courte.

Le pilotage du fonctionnement des SI, de leurs éléments constitutifs est effectué pour lancer les travaux, répondre à une demande d’exploitation, sur la base d’une information fournie par un SI, un équipement (compte-rendu d’exécution d’une tâche, signalement d’incident…).

Pilotage externe

Le pilotage externe est effectué par des personnes (utilisateurs, exploitants…) ou par des SI, des équipements externes. 

Les choix de processus, d’outils, relatifs au pilotage externe portent par exemple sur :

– la nature des commandes ;

– la centralisation du pilotage des SI collectifs en un seul point, la mise en place de commandes à distance d'équipements monitorables ;

– l'automatisation des tâches d’exploitation répétitives, comme les sauvegardes, le lancement des scripts, l'ordonnancement automatique de l’exécution des programmes.

Les commandes du fonctionnement des SI, de leurs éléments constitutifs, permettent leur mise en marche, l'accès externe à d’autres SI, à leurs éléments constitutifs, le lancement de l’exécution des logiciels, la réponse à leurs sollicitations relatives à leur fonctionnement, la gestion technique de certains fichiers, la suspension, l'arrêt du fonctionnement.

Pour les systèmes collectifs, le pilotage est effectué par les utilisateurs, et par une équipe d’exploitation centrale. Le pilotage par l'exploitant central des traitements batch périodiques, des traitements à la demande, inclut la vérification immédiate de leur bonne exécution, la mise à disposition des résultats obtenus (par exemple des impressions en gros volume), la fourniture au demandeur d’informations sur leur exécution.

Pour les machines virtuelles, notamment dans le cas du cloud, des fonctions de pilotage permettent le provisionnement des machines virtuelles, le déploiement et l’optimisation, la gestion d'un catalogue des services, l’accès aux services.

Pilotage interne

Des fonctions de pilotage interne sont mises en œuvre, à partir de la mise en marche des SI, de leurs éléments constitutifs. Les logiciels dont l’exécution est lancée pilotent d’autres logiciels, des composants matériels, des équipements, des SI. Des choix sont à faire sur leurs fonctions de pilotage.

Le pilotage interne, automatique, porte par exemple sur le partage entre les logiciels des ressources communes (mémoires, processeurs…), la sécurisation des traitements, la traçabilité, l'accès aux traitements, aux données, l’optimisation du fonctionnement, la gestion des priorités, des interruptions, l’équilibrage des charges (load balancing), la virtualisation, la conteneurisation, la coordination de l’exécution des fonctions.

Dans les réseaux de télécommunications, les commandes manuelles des équipements ont été remplacées depuis longtemps par des dispositifs de pilotage automatique, fondés sur des systèmes de signalisation. L’ingénierie du trafic (traffic engineeringTE), qui correspond à la régulation du trafic dans les réseaux, est largement automatisée. Pour les réseaux de paquets, une répartition optimale des paquets sur les liaisons, le plus souvent complètement automatique, est effectuée pour éviter la congestion.

Les fonctions des middleware permettent le pilotage des systèmes répartis (communication, interopérabilité entre éléments).

Les économies réalisables par le pilotage automatique sont à mettre en balance avec les coûts d’investissement et de fonctionnement des outils, la sécurité de l’exploitation. Pour de très grands nombres d’équipements, pour des demandes de traitements nombreuses, la centralisation, l’automatisation des tâches répétitives sont les seules solutions envisageables.

Des choix sont à faire sur la nature, l’étendue de la surveillance en temps réel du fonctionnement des SI, de leurs éléments constitutifs, les méthodes et outils à mettre en œuvre. Ils portent sur les informations recherchées, leur origine, les moyens de les obtenir. Ces activités sont à automatiser au maximum.

Un des objectifs est d’identifier les dysfonctionnements survenus de façon exhaustive, et, s’ils sont visibles par l’utilisateur, si possible avant lui.

Selon l’architecture définie, les messages, les informations pour la surveillance sont à envoyer vers un équipement numérique de contrôle, ou vers une plateforme centrale pour plusieurs SI, des équipements distants.

Les performances des SI, des équipements, sont des informations fondamentales, et difficiles à mesurer de façon satisfaisante et complète. Les délais de traitement, la disponibilité sont à mesurer vus de l’utilisateur, et pour les SI, leurs éléments constitutifs. Des robots sont susceptibles d’être utilisés. Des prestataires de services testent le fonctionnement de sites web, des réseaux mobiles.

Les besoins de messages d’information, d’alerte, portent sur les dysfonctionnements, les comptes rendus d’exécution des logiciels. Les messages doivent être clairs, pertinents, utiles, priorisés. Pour les grands systèmes, les messages reçus sont très nombreux. Des outils sont à mettre en place pour permettre une prise de connaissance rapide et efficace de l’information utile.

Les dysfonctionnements à signaler sont les arrêts (anormaux) du fonctionnement des équipements, des logiciels, des liaisons, les durées de traitement excessives, les défauts des équipements, des liaisons réseau.

Les niveaux d’exigence sont plus ou moins élevés selon les parties concernées des SI. Dans les réseaux de télécommunications numériques, par exemple, les dysfonctionnements des réseaux d’infrastructure ont un impact fort sur la qualité de service du réseau. Il est utile de disposer à tout moment d’une vue complète et précise de leur fonctionnement.

Ces besoins correspondent à des exigences susceptibles d’être définies en termes de « monitorabilité » des SI, des éléments constitutifs à exploiter : messages, interfonctionnement avec les outils centraux de surveillance…

Les réponses à ces besoins sont encore partielles. Les équipements, les logiciels par exemple ont tendance à envoyer des messages très nombreux, pas obligatoirement très utiles, non priorisés.

Les activités d’exploitation préventives sont systématiques, ou sont réalisées sur la base du suivi du fonctionnement.

1) L'optimisation permanente des SI par l'exploitation permet d'éviter une dégradation des performances. Des actions d'optimisation sont également demandées si nécessaire aux équipes d'ingénierie.

Après chargement initial des données "utilisateurs" et démarrage des nouveaux SI, leur fonctionnement entraîne des mises à jour des données stockées. Des choix sont à faire sur les processus techniques à mettre en œuvre pour optimiser le stockage de ces données sur les équipements matériels : mesure du taux d’utilisation des données, du taux de remplissage des supports de stockage, réorganisation, synchronisation, restructuration des données stockées, mise en évidence de données ni consultées ni mises à jour depuis longtemps, vérification de l’existence des capacités nécessaires au stockage des volumes de données prévus, recherche de solutions pour le stockage de quantités de données imprévues, purge des fichiers inutiles. Des outils sont nécessaires pour réaliser ces actions.

Ces processus contribuent à l’optimisation des performances des SI, et à une utilisation économique des ressources de stockage. Le prix des ressources de stockage n'étant plus très important, c’est le premier objectif qui est prioritaire.

2) L’examen des volumes traités, de leurs tendances d’évolution, des performances des SI, de leur taux de charge, peut conduire à modifier les paramètres de fonctionnement, en vue de traiter dans les meilleures conditions des volumes plus importants, à prévoir des extensions de capacité.

En cas de survenance d’un nombre anormal de dysfonctionnements causés par un élément particulier (par exemple error-prone modules), d’un dysfonctionnement particulièrement grave ayant pour origine un élément constitutif, l'exploitant demande à l'ingénierie, à la maintenance de le refondre, le remplacer...

3) En cas de non-respect par les utilisateurs des règles définies par l'entreprise pour l'utilisation des SI, de leurs éléments constitutifs, l'exploitant doit pouvoir intervenir aux niveaux hiérarchiques nécessaires.

4) L’exploitant réalise habituellement des actions récurrentes visant à permettre ou à faciliter une reprise du fonctionnement des SI en cas de dysfonctionnement grave, telles que la sauvegarde des données des utilisateurs, des logiciels, des données techniques stockées, leur surveillance, la définition, la mise à jour des procédures de reprise en cas d'incident, la préparation des plans de secours, la réalisation d’exercices de secours.

La sauvegarde est le dernier rempart de la protection des données contre les actions malveillantes. La durée de restauration des données ne doit pas être excessive.

Des choix sont à faire sur les processus, les techniques, les périodicités de sauvegarde des informations stockées : informations à sauvegarder, règles à respecter, capacités de stockage, logiciels de sauvegarde et de restauration des informations, localisation, qualité des sauvegardes réalisées, durée de conservation des informations, vérification de leur qualité, utilisation pour réaliser des tests de restauration, sauvegarde physique totale, incrémentale, en ligne, sauvegarde logique. Pour mémoire, le délai moyen de détection d'une intrusion est de 210 jours.

La nature, la fréquence des exercices de secours, de gestion des crises relatives aux attaques informatiques, sont à définir, avec le donneur d’ordres, notamment pour ceux qui demandent la participation des utilisateurs.

5) En ce qui concerne la sécurité, les exploitants ont la possibilité de réaliser, ou de faire réaliser, des contrôles de l’efficacité des protections des SI, tels que des tests d’intrusion, de faux phishing, permettant d'identifier les points faibles des protections mises en place. Il peut être judicieux de constituer deux équipes de sécurité numérique, une défensive et une offensive (red team).

L’exploitation inclut le traitement des dysfonctionnements des SI, de leurs éléments constitutifs. Des choix sont à faire sur son contenu, ses modalités.

Les dysfonctionnements sont constatés par l'exploitant, ou lui sont signalés par d'autres acteurs (utilisateurs, assistance...). L’exploitant les qualifie, met en place si nécessaire (et si c'est possible) une solution de contournement, de secours, permettant un fonctionnement au moins partiel, corrige ce qui relève de lui, ou fait réaliser les maintenances nécessaires par les équipes techniques concernées. 

La conservation de traces est utile pour connaître les opérations réalisées préalablement à un dysfonctionnement, ainsi que les modifications techniques récentes sur les éléments qui ont mal fonctionné.

Dans le cas de services d’accès Internet, il arrive que les clients signalent au fournisseur d’accès des dysfonctionnements des fonctions des sites web. Les fournisseurs d’accès sont parfois conduits de ce fait à s’intéresser au fonctionnement des services fournis par les fournisseurs d’autres services.

Des choix sont à faire sur le contenu du traitement des actions malveillantes par l’exploitation, ses modalités.

Certaines protections sont automatiques : antivirus, protection contre les fenêtres surgissantes, chiffrement, déchiffrement des informations, DRM, contrôles d'accès, signature numérique, contrôle des communications numériques avec l’extérieur (pare-feu...), contrôle de conformité de la sécurisation des équipements, prévention/détection d'intrusions (IDS/IPS, EDR), prévention des pertes, des fuites de données. Les exploitants surveillent leur fonctionnement.

Les actions malveillantes ayant passé les barrages mis en place sont constatées par l'exploitant, ou lui sont signalées par d'autres acteurs.

L’exploitant est susceptible d'utiliser des SIEM (security information event management), qui ont pour fonction de gérer les événements de sécurité d’un ou de plusieurs SI.

Les attaques externes peuvent être contrées automatiquement ou par l'exploitant, par exemple par l’élimination des flux malveillants, au niveau d’un pare-feu, du serveur attaqué, la mise en place d’un serveur tampon de protection.

Aucun commentaire:

Enregistrer un commentaire