5 façons de préparer votre infrastructure de données pour l’IA
Article
14 min

5 façons de préparer votre infrastructure de données pour l’IA

Les organisations souhaitent réaliser les avantages transformateurs de l’IA, mais un manque de préparation de l’infrastructure de données peut amplifier les risques qui y sont liés. Découvrez cinq façons de vous préparer à l’IA, et consultez les principales conclusions du rapport canadien sur le nuage hybride de CDW.

Expert CDW Expert CDW
Contenu
Analyse des données travaillant avec la technologie d’IA robotisée dans un système de gestion des flux de travail d’analyse et de planification d’affaires pour produire des rapports avec les IRC connectés à la base de données. Stratégie d’entreprise pour les finances.

Les modèles d’IA générative largement accessibles et les capacités en croissance rapide ont contribué à accélérer l’adoption de l’IA au Canada. Notre rapport canadien sur le nuage hybride a révélé que 55 pour cent des organisations interrogées prévoient d’investir dans l’IA et l’IA générative au cours des 12 prochains mois.

Cependant, ces plans d’adoption de l’IA ne correspondent pas au niveau de préparation des données dans l’ensemble des organisations canadiennes. Une constatation clé du rapport canadien sur le nuage hybride est que seulement trois pour cent des organisations ont déclaré que leur infrastructure de données était prête à relever les défis de l’IA, notamment au chapitre de l’intégration de la confidentialité, de la traçabilité et de la sécurité.

D’une part, les organisations veulent réaliser les avantages transformateurs de l’IA, mais d’autre part, un manque de préparation de l’infrastructure de données peut amplifier les risques liés à l’IA.

Dans ce blogue, nos experts en nuage hybride et en IA mettent en lumière les facteurs fondamentaux nécessaires à la réussite de l’IA et énumèrent les cinq façons par lesquelles vous pouvez tirer le meilleur parti de votre investissement en IA. Nous présentons également des tendances et des perspectives clés qui peuvent aider les directeurs de la technologie, les responsables des TI et les chefs d’entreprise à tracer le parcours de leur infrastructure hybride.

La réussite de l’IA repose sur la préparation des données

« Bien que les organisations soient enthousiastes face à l’IA et ses avantages, elles ne disposent pas du processus et de la gouvernance des données nécessaires pour faire face aux défis que cela représente », explique K.J. Burke, directeur des technologies sur le terrain, Infrastructure hybride chez CDW Canada.

Dans une configuration d’entreprise, les systèmes d’IA dépendent fortement de l’intégrité et de la disponibilité des données organisationnelles pour stimuler les résultats commerciaux. Si ces données ou les systèmes qui les prennent en charge ne sont pas aptes au traitement par IA, cela peut entraîner des résultats involontaires et potentiellement nocifs.

Imaginez un vendeur utilisant l’IA pour générer une nouvelle brochure de produit basée sur des données de vente non publiées. Sans transparence et garde-fous en place, ils peuvent en venir à divulguer des renseignements confidentiels dans le domaine public, ce qui peut entraîner des risques commerciaux.

Par conséquent, pour les entreprises qui prévoient adopter l’IA, la première étape consiste à évaluer l’état de préparation de leur infrastructure de données, qui comprend les composants physiques et logiciels pour la consommation, le stockage et le partage des données.

Les organisations ont noté que pour permettre une architecture compatible avec l’IA dans leurs environnements informatiques, la gouvernance, la traçabilité, l’agilité et l’évolutivité des données doivent s’améliorer. Cependant, le manque de préparation de l’infrastructure de données est perçu comme un obstacle à la pleine réalisation de la valeur des investissements dans l’IA.

5 façons de préparer votre infrastructure de données pour les initiatives d’IA

1. Assurer la sécurité des données

« L’adoption croissante du nuage a créé de nouveaux silos de données qui peuvent rendre plus difficile d’assurer la sécurité dans l’ensemble de l’infrastructure de données distribuées », remarque M. Burke.

Les architectures informatiques hybrides offrant une faible interopérabilité peuvent donner lieu à des silos de données où les données stockées sur un système (par exemple, le nuage public) peuvent ne pas être facilement accessibles par les autres systèmes (serveurs sur place).

Cette éclosion de données crée des défis de sécurité qui causent des goulots d’étranglement pour les initiatives d’IA, car il est plus difficile de protéger les données dans tous les environnements, si chacun suit des mesures de sécurité distinctes.

Pour surmonter cet aspect, les organisations doivent créer une stratégie holistique de gestion et de gouvernance des données, et travailler à la consolidation des contrôles de sécurité des divers composants informatiques. Les principaux objectifs de cette stratégie sont décrits ci-dessous.

Chiffrer vos données sources

Les systèmes d’IA interagissent avec de grandes quantités de données, souvent transférées entre différents systèmes ou stockées dans le nuage. Le chiffrement protège les données pendant ces transferts et en stockage, assurant que les données restent illisibles et sécurisées même en cas de violation.

Le chiffrement permet également de bénéficier d’une protection contre les menaces internes. Bien que les employés ou les administrateurs puissent avoir accès aux systèmes, le chiffrement des données garantit que même si une personne bénéficiant d’un accès tente d’utiliser les données à mauvais escient, elle ne peut pas facilement les déchiffrer.

Mettre en œuvre un contrôle d’accès basé sur les rôles (role-based access control, RBAC) et une gestion des identités robustes

Il existe un besoin particulier de mettre en place des politiques de sécurité globales comprenant le RBAC et la gestion des identités afin d’empêcher les données sensibles de tomber entre de mauvaises mains.

Les organisations doivent configurer des systèmes de stockage de données offrant des contrôles d’accès affinés, à la fois pour l’IA et les agents humains. Qu’il s’agisse de données d’entraînement dans le nuage ou de fichiers locaux sur l’ordinateur d’un employé, chaque demande de données doit être validée avant d’accorder l’accès.

L’utilisation d’une solution centralisée de contrôle d’accès peut contribuer grandement à l’application des politiques de sécurité dans les architectures hybrides. Elle peut aider à mettre en œuvre des politiques de sécurité sur tous les composants informatiques grâce à un plan de contrôle unifié plus facile à gérer et à sécuriser.

Sécurisez vos modèles d’IA

De nombreuses organisations affinent les modèles de base à source ouverte pour construire leurs propres applications de l’IA génératives, mais celles-ci peuvent être criblées de vulnérabilités. Les mêmes problèmes se retrouvent également dans les modèles entrainés sur mesure.

Il est essentiel d’équiper les modèles de mécanismes de défense antagonistes visant à prévenir différents scénarios d’attaque, notamment les attaques par inversion de modèle. De telles attaques peuvent tromper le modèle en révélant des renseignements commerciaux sensibles.

En même temps, il est essentiel de sécuriser l’accès aux environnements où les modèles d’IA sont stockés et hébergés afin de prévenir les attaques par infiltration.

S’assurer que les fournisseurs tiers réussissent les contrôles de sécurité

Les petites organisations qui ne peuvent pas entraîner ou peaufiner leurs propres modèles comptent généralement sur des fournisseurs tiers comme OpenAI pour obtenir des fonctionnalités d’IA. Ces fournisseurs peuvent être en mesure d’accéder à vos données organisationnelles pour produire des résultats qui découlent de l’IA.

Si vous travaillez avec des fournisseurs tiers, assurez-vous que vos données et votre pipeline d’IA respectent des pratiques de sécurité strictes, notamment le chiffrement, le contrôle d’accès et des examens de sécurité réguliers.

2. Prévenir l’utilisation de données sensibles pour l’entraînement de l’IA

« La curation de données est essentielle, car les organisations cherchent à générer de la valeur à la fois pour l’analyse et la création d’actifs d’IA. De plus, à mesure que les organisations curent et affinent leurs données, elles deviennent encore plus précieuses. Il est donc plus important que la résilience des données soit améliorée. » a déclaré M. Burke.

Selon le rapport canadien sur le nuage hybride, 35 pour cent des répondants ont déclaré avoir besoin de fonctionnalités telles que le masquage des données, le caviardage, etc., qui pourraient empêcher les données sensibles de se retrouver dans les données destinées à l’entraînement de l’IA.

Qu’une organisation forme ses propres modèles d’IA ou qu’elle tire parti de modèles préformés en conjonction avec la génération augmentée d'information contextuelle (GAIC), les données sensibles doivent être tenues à l’écart du processus.

Les renseignements permettant d'identifier une personne (PII) peuvent s’infiltrer dans les ensembles de données utilisés pour l’entraînement de l’IA, ce qui peut mettre la confiance des clients en danger. Si les systèmes d’IA en contact avec la clientèle sont entrainés à l’aide de ces données ou ont un accès non vérifié à celles-ci, les risques de mauvaise manipulation des données deviennent plus importants.

C’est pourquoi les organisations doivent intégrer des techniques de curation des données permettant de réduire les risques de fuite de données sensibles dans un modèle d’IA. Voici quelques techniques qui pourraient vous aider :

Masquage et caviardage des données

Les techniques de masquage des données remplacent les éléments sensibles comme les noms, les numéros d’assurance sociale ou les numéros de carte de crédit par des pseudonymes ou des caractères aléatoires avant qu’ils soient saisis dans un modèle d’IA.

Par contre, le caviardage supprime ou masque complètement les portions sensibles des données. Ces techniques garantissent que les données utilisées pour l'entraînement sont représentatives, mais anonymisées ou dépersonnalisées.

Anonymisation des données

Les techniques d'anonymisation des données transforment les jeux de données afin que les détails individuels ou sensibles ne puissent pas être liés aux sources des données d'origine.

L’anonymisation supprime ou masque les identifiants directs (comme les noms, adresses et numéros de téléphone) et indirects (comme le sexe ou les codes postaux) pour empêcher la réidentification des personnes.

Des techniques avancées comme la confidentialité différentielle garantissent que les données agrégées sont anonymisées tout en fournissant des informations précises.

En utilisant ces techniques, les organisations peuvent empêcher efficacement l’utilisation de données sensibles pour l'entraînement de l’IA tout en extrayant des informations précieuses de leurs ensembles de données.

3. Améliorer la qualité des données et des analyses utilisées pour la prise de décision

Des données de bonne qualité pour l'entraînement de l’IA, sont des données exactes, complètes et cohérentes. Comme l’a dit Reginald Hernandez, architecte de solutions sur le terrain chez CDW Canada, « La qualité des données et des analyses est le fondement d’une prise de décision efficace en matière d’IA. »

Des données de mauvaise qualité peuvent mener à des résultats biaisés ou incorrects, affectant la prise de décision, entraînant des occasions perdues, des processus inefficaces et même des problèmes de conformité. 

Selon le rapport canadien sur le nuage hybride, plus d’un tiers des organisations (36 pour cent) ont déclaré qu’elles prioriseront la qualité des données pour la prise de décision au cours des 12 prochains mois.

Ici, la qualité des données a deux significations différentes si elle concerne un système d’IA :

  • Qualité des données utilisées pour entraîner un modèle d’IA : ensembles de données sélectifs spécialement conçus pour entraîner un modèle sur des capacités spécifiques telles que l’analyse de données, la reconnaissance vocale, etc.
  • Qualité des données avec lesquelles un modèle d’IA interagit : données organisationnelles générales comme les feuilles de calcul, les documents, etc., avec lesquelles un modèle d’IA peut interagir pour accomplir des tâches données. Ces données peuvent ou non faire partie des données d'entraînement de l’IA.

Si vous entraînez votre propre modèle d’IA, il est essentiel que vous utilisiez des données propres afin qu’elles n’introduisent pas d’impuretés dans son apprentissage. D’autre part, si vous utilisez un modèle préalablement entraîné comme ChatGPT, vous ne devez pas y soumettre des données de mauvaise qualité, car cela pourrait générer des réponses inexactes.

L’amélioration de la qualité des données implique une approche systématique qui garantit que les données qui alimentent les modèles d’IA, et les données avec lesquelles elles interagissent, sont adaptées à la consommation. Ce processus comprend généralement le profilage, le nettoyage, la normalisation et la surveillance des données.

Profilage des données

Le profilage des données est essentiel pour évaluer l’état actuel des données et comprendre leur structure, leur qualité et leurs caractéristiques statistiques. Les ingénieurs des données utilisent des techniques telles que les résumés statistiques pour révéler la propagation des données dans une organisation, ce qui les aide à élaborer une feuille de route de transformation.

Nettoyage des données

Le nettoyage des données consiste à corriger les incohérences dans les données pour les préparer à leur utilisation par l’IA. Le processus est très subjectif et dépend de ce qui ne va pas dans un ensemble de données déterminé. Des valeurs manquantes sont ajoutées, les doublons sont supprimés et les faux points de données sont corrigés pour rendre les données conformes à une certaine référence de qualité.

Normalisation des données

La normalisation garantit que les données sont conformes à des formats et des unités cohérents dans tous les ensembles de données, ce qui est essentiel pour assurer l'entraînement uniforme des modèles d’IA. L’accent est mis sur la création de valeurs de données dans divers formats, comme les types de devises, les dates et les adresses, et ce, de manière cohérente dans l’ensemble de données.

Surveillance des données

La surveillance des données garantit le maintien de la qualité des données avec le temps. Les organisations doivent définir des mesures quant à la qualité des données afin de rendre la surveillance viable, ainsi que des contrôles de qualité automatisés pour rattraper toute baisse de la qualité globale des données.

4. Élaborer des politiques de gestion et de conformité des données

« Avant même d’introduire l’IA dans leur environnement informatique, les organisations doivent commencer à élaborer un plan de gestion des données pouvant harmoniser les personnes, les processus et la technologie afin de réduire les risques liés à l’IA. L’établissement d’un centre d’excellence (CdE) en IA qui permet une approche partagée entre les TI et les différentes équipes commerciales peut aider les organisations à identifier les synergies, à traiter les interdépendances et à travailler vers des objectifs commerciaux communs », déclare M. Burke.

Un plan de gestion des données peut aider les organisations non seulement à s’assurer que leurs données sont de haute qualité, dignes de confiance et sécurisées, mais aussi à respecter les normes juridiques et éthiques.

Deux éléments essentiels de ce plan sont les politiques de gestion des données qui visent à créer une source unique de vérité, ainsi que des cadres de conformité robustes qui peuvent aider à contrôler la confidentialité, l’utilisation et la protection des données.

Gestion des données maîtresses (GDM)

La gestion des données maîtresses aide à centraliser et à normaliser les données critiques dans l’ensemble de l’organisation, créant ainsi une source unique de vérité. En consolidant les données maîtresses (comme les profils de clients, les produits, etc.) dans un système unifié, la GDM assure la cohérence, l’exactitude et la fiabilité de toutes les applications basées sur l’IA.

Elle aide également à améliorer la préparation des données grâce aux avantages suivants.

  • Amélioration de la cohérence des données : s’assure que tous les systèmes d’une organisation font référence au même ensemble cohérent de points de données en fournissant une vue holistique des données, souvent appelées application de données à 360 degrés.
  • Moins d’anomalies dans les données : aide à éliminer les enregistrements en double et à maintenir l’intégrité des données, réduisant le risque d'entraînement faussé du modèle d’IA causé par des données redondantes ou contradictoires.
  • Meilleure intégration des données : crée un cadre où les données provenant de différentes sources (systèmes PGI, GRC, bases de données, etc.) peuvent être intégrées de façon transparente.

Politiques et cadres de conformité des données

L’élaboration d’un cadre de conformité solide est essentielle pour s’assurer que les modèles d’IA respectent les règlements provinciaux ou nationaux, et évitent les pénalités et maintiennent la confiance des utilisateurs.

Les trois étapes que les organisations peuvent suivre pour établir la conformité des données sont les suivantes.

  • Vérifications régulières des données : effectuer des vérifications régulières pour s’assurer que les modèles d’IA et les données sur lesquelles ils comptent sont conformes à toutes les réglementations pertinentes. Cela concerne la vérification de l’utilisation des données personnelles, le respect des politiques de conservation et la surveillance des activités de traitement des données.
  • Origine et traçabilité des données : suivre le flux de données tout au long de son cycle de vie, de la collecte au traitement en passant par son utilisation dans les modèles d’IA. La traçabilité des données aide les organisations à assurer la transparence, leur permettant de retracer la façon dont les données ont été obtenues et utilisées dans les systèmes d’IA.
  • IA éthique : établir des lignes directrices éthiques pour le développement et l’utilisation de modèles d’IA, en veillant à ce que les systèmes d’IA ne renforcent pas les préjugés, n’effectuent pas de discrimination et n’enfreignent pas la vie privée.

5. Travailler avec des experts en solutions d’IA pour en simplifier l’adoption

Même après avoir investi dans l’infrastructure sous-jacente, l’IA demeure un territoire inconnu pour de nombreuses organisations canadiennes. Elles doivent exécuter plusieurs essais pilotes et validations de principe avant d’être confiantes face à l’implémentation de l’IA à l’échelle de l’organisation.

C’est là que l’expertise des fournisseurs de solutions d’IA, comme CDW, entre en jeu. Ils apportent l’expérience, les compétences et les connaissances nécessaires pour relever les défis uniques d’une organisation qui cherche à mettre à profit ses données.

Les experts en solutions d’IA peuvent aider les organisations à naviguer dans plusieurs aspects clés du parcours de préparation des données.

  • Cadre de gouvernance des données : établir des politiques et des procédures pour la gestion des données, en assurant la conformité aux exigences en matière de confidentialité et de réglementation.
  • Identifier les cas d’utilisation de l’IA générative : déterminer les cas d’utilisation les plus appropriés de l’IA générative qui peuvent constituer le meilleur usage des données organisationnelles.
  • Gestion du changement et développement des compétences : s’adapter aux nouveaux flux de travail axés sur les données et préparer les équipes à gérer efficacement les données pour les projets d’IA.
  • Contrôler les coûts associés aux projets d’IA : guider les équipes informatiques sur la façon d’optimiser les coûts de l’infrastructure d’IA, des talents et des licences pour le développement durable de l’IA.

« Nous voyons souvent des scénarios comme l’étalement infonuagique, où les organisations élargissent massivement leurs ressources infonuagiques, ce qui peut gonfler rapidement les coûts. Cette croissance non contrôlée peut avoir lieu en raison du manque d’expertise ou de compréhension des projets infonuagiques complexes.

« CDW peut aider les organisations à adopter une approche stratégique pour déployer une infrastructure prête pour l’IA qui est rentable et les aider à atteindre les résultats escomptés en matière d’IA, adaptés à la conformité et à la gouvernance », déclare M. Hernandez.

Les experts en solutions d’IA peuvent aider les organisations à orienter la gestion du changement, un aspect clé de l’intégration de l’IA dans les flux de travail, sans perturber les opérations existantes. Ils facilitent le processus d’adoption, en s’assurant que les employés disposent des compétences et de la compréhension nécessaires pour travailler aux côtés des systèmes d’IA.

Comment CDW vous aide à construire une infrastructure de données prête pour l'IA

Notre expertise de longue date dans l’espace de l’infrastructure hybride et nos partenariats technologiques clés avec des fournisseurs de premier plan peuvent vous aider à démarrer vos projets d’IA en toute confiance. Que vous souhaitiez entraîner un modèle d’IA à partir de zéro, mettre en œuvre des flux de travail d’IA sans risque ou sourcer la technologie de centre de données, CDW peut vous aider à répondre à vos besoins uniques.

Vous pouvez également explorer les principales tendances et stratégies, et recevoir des points clés à retenir pour vous aider à réussir, dans notre rapport canadien sur le nuage hybride 2024.