Mohamed Louadi: Les données et les imprimés à l’âge de l’intelligence artificielle en Tunisie

Par Mohamed Louadi, PhD. Professeur des universités à l’ISG, Université de Tunis - En 2024, Saudi Aramco, une compagnie pétrolière se classait encore une fois en tête des entreprises les plus rentables au monde. Juste derrière elle figuraient Apple, Alphabet (la maison mère de Google) et Microsoft, trois géants de l'industrie technologique, dont les modèles économiques reposent largement sur la gestion et la monétisation des données. Meta (Facebook) y était classée 8ème alors qu’elle était au 10ème rang l’année précédente.
La proximité dans le classement des entreprises soupçonnées de faire commerce des données et une compagnie pétrolière ne manque pas de piquant si on se souvient du fameux «data is the new oil», une boutade datant de 2006 généralement attribuée à Clive Humby, un spécialiste en science des données.
Les données sont-elles encore importantes?
Quel que soit l’époque, les données, et par conséquent l’information, demeureront les ressources les plus importantes pour les entreprises. Car quelle que soit la ressource qu’on juge la plus importante (le capital humain, les machines, les immobilisations, l’expertise, les moyens financiers, les partenariats, etc.), l’information la concernant sera encore plus importante parce qu’elle est indispensable pour sa gestion.
En plus de leur importance évidente à l’ère de l’information, les données deviennent encore plus essentielles à l’ère de l’IA dont elles sont le socle fondamental. Toutes les stratégies IA que nous avons consultées consacrent au moins une section sinon un chapitre entier à l’importance croissante des données. Notre pays est malheureusement très en retard dans le parachèvement d’une telle entreprise à juger par notre rang dans les classements internationaux en matière d’IA.
Nous n’avons pas la prétention de nous attarder ici sur les raisons complexes et multiples de ce retard. Mais il y a un aspect tout simple qui nous interpelle et qui est en rapport direct avec les données et le traitement que lui réservent nos organismes, particulièrement nos organismes publics ou semi-publics.
Les systèmes informatiques et les bases de données qui sont le piédestal informationnel des entreprises sont des technologies de traitement des données par excellence. Tout système requiert des données en entrée. Les systèmes informatiques dépendent dans une large mesure de la saisie des données à partir, entre autres, d’imprimés (formulaires). Ces imprimés sont la plupart du temps remplis par des humains.
Toutefois, l’examen des imprimés conçus et utilisés par nos organismes révèle un manque évident de soin accordé aux données qu’ils sont censés recueillir, mais qui seront tout de même saisies dans les systèmes.
Les écrans de saisie des données sont un peu la bouche des systèmes informatiques des entreprises. Afin d’être fiables dans leur traitement, ces systèmes requièrent que les données qui leur sont fournies soient déjà fiables. Un système informatique ne disposant pas de données fiables en entrée restituera une information erronée quelle que soit sa qualité et sa technologie de base. C’est ce que les spécialistes appellent l’effet GIGO (garbage in, garbage out).
Quelles erreurs stigmatisent les données ? Parlant d’imprimés, ce sont surtout les fautes de frappe qui sont pointées du doigt. Personne ne s’étonne plus des erreurs glissées dans les états-civils, par exemple : un célibataire (homme ou femme) qui se découvre marié, parfois à une personne de même sexe, un citoyen qui apprend qu’il est décédé à son insu, un certificat de décès dans lequel le défunt est mentionné comme ayant signalé son propre décès, etc. Des erreurs qu’on impute généralement aux fautes de frappe à la saisie.
Comment expliquer ces erreurs grotesques?
Et en Tunisie?
Chez nous, malgré les vœux pieux affirmant notre engagement dans la transformation numérique (quand donc ?), l’imprimé continue de régner en monarque absolu. Cette «technologie» datant au moins de l’ère napoléonienne a encore pignon sur rue, surtout dans le secteur public. L’arabe et le français dominent encore largement dans les documents imprimés, malgré les efforts officiels d’arabisation des systèmes informatiques du secteur public.
Et bien que l’imprimé sévisse encore sous d’autres cieux, le nôtre n’a guère évolué et obéit souvent à une logique périmée. Il reste singulièrement rare de voir des imprimés à cases, plus adaptés à l’ère informatique.
Bien heureusement, certains organismes tunisiens, font exception (Figure 1).
Figure 1. Certains organismes publics se sont adaptés à l’informatique, facilitant ainsi une lecture automatique ultérieure grâce à des procédés de reconnaissance optique des caractères. Les autres sont restés figés dans une autre époque.
Quelques exemples
Il n’est pas rare que pour obtenir l’identité d’un citoyen ou d’un client, le champ de l’imprimé soit libellé: «Nom et prénom» impliquant que les deux éléments de données soient fournis en vrac dans le même espace (Figure 2). Que faire dans le cas où l’identité est Mohamed Amira, par exemple ? Quel est le nom et quel est le prénom ?
Dans d’autres cas, le champ est libellé «Nom et prénom ou raison sociale» (Figures 2 et 3). On se demande dans quel champ de la base de données ira l’information si c’est la raison sociale qui est fournie ? Comment un système informatique peut-il différencier le nom et le prénom d’une personne de la raison sociale lorsqu'ils sont saisis dans un seul et même champ ? Et où ces informations seront-elles stockées dans la base de données ? Et d’ailleurs, pourquoi, en français, met-on le nom de famille avant le prénom, alors qu’en arabe, c’est l'inverse ?
Figure 2. Les noms, prénom et raison sociale, tels que demandés dans un très grand nombre d’imprimés administratif.
La réponse à ces questions est souvent que l’agent de saisie saura faire la distinction. Il reconnaitra, en prenant sur lui l’initiative de corriger l’erreur du distrait qui aura inscrit son prénom d’abord (محمد عميرة, plutôt que أميرة محمد).
Et c’est justement là que le bât blesse car la proportion des entreprises souffrant de l’erreur humaine dans la phase de saisie est de 33 % globalement et de 25 % en France.
La saisie: le principal point d’achoppement
D'après des études menées en France en 2023, 33 % des erreurs dans les données sont survenues lors de la collecte et 4 % lors de la saisie, malgré les contrôles de validation et les contraintes d’intégrité habituels.
Déjà en 2015, Experian Marketing Services, une multinationale spécialisée dans les données et l'analytique, avait publié les résultats de son étude annuelle sur la qualité des données dans plusieurs pays européens. Parmi les constats, il apparaît que 61 % des erreurs détectées dans les données des entreprises étaient dues à des facteurs humains. Deux ans plus tard, une autre étude menée dans huit pays révèle que 92 % des entreprises estiment, qu’en moyenne, 27 % de leurs données sont erronées ou incomplètes. Dans d’autres études, ces erreurs affectent jusqu’à 12 % du chiffre d’affaires, comme quoi les mauvaises données sont mauvaises pour les affaires (bad data is bad business !).
Des données excessivement détaillées, superflues et inadaptées à la saisie informatique
Lorsqu’ils demandent le numéro de la carte d’identité nationale (CIN), nos imprimés exigent systématiquement la date de sa délivrance et, souvent tout aussi systématiquement, le lieu de son obtention (Figure 2). Que répondre ? Un poste de police, une ville, un gouvernorat, une délégation, … ? Et dans tous les cas, quelle est l’utilité d’une telle donnée pour une entreprise publique, semi-publique ou même privée ?
Figure 3. (1) L’espace au numéro de la CIN est d’à peine 1,5 cm alors que sa nature (CIN ou passeport) s’étend sur le reste de la ligne. (2) L’espace réservé au nom de la ville est de deux centimètres et l’espace réservé à l’adresse est à peine moins étroit que celui du code postal qui n’est pourtant composé que de quatre chiffres. (3) Dans un autre imprimé conçu pour un grand supermarché, l’espace réservé à l’adresse électronique laisse songeur.
L’importance des données pour l’IA
Nous sommes littéralement submergés par le mot data et ses dérivés: depuis les classiques database et databank, apparurent tour à tour les datawarehouse, data store, data mart, data lake, datamining, data as a service, big data, data analytics, et maintenant dataset et autre data synthesis (Figure 4). Aujourd’hui le regain d’importance des données est dû au fait qu’elles sont le fondement de toute IA.
Figure 4. La fréquence d’utilisation du mot «données» dans les livres publiés entre 1800 et 2019 telle que répertoriée par la visionneuse de Google Books.
La tendance de presque toutes les bureaucraties repose sur le double principe suivant: (a) toute information peut potentiellement être nécessaire et (b) il est plus simple de tout demander que de faire preuve de discernement.
Plutôt que de nous cantonner à l’accumulation de données souvent inutiles, voire abusives, il serait plus judicieux de privilégier des données complètes, utiles et surtout fiables, en éliminant les détails superflus (comme le lieu d’obtention d’une carte d’identité).
Cet article avait pour objectif de sensibiliser les entreprises publiques, plus friandes d’imprimés, à l’importance des données. La qualité des données, traditionnellement l’affaire des systèmes informatiques classiques, est essentielle pour une IA désormais incontournable. Il est remarquable que l’IA dépende autant de la phase de saisie, qui devient ainsi la plus cruciale de toutes les étapes de manipulation des données et des informations.
Pour corriger cette situation, deux initiatives au moins sont nécessaires:
1. Dresser un inventaire exhaustif de tous les imprimés présentement utilisés dans les organismes publics. Compte tenu de leur nombre exorbitant, la priorité devrait être donnée aux imprimés externes. Cette étape au semblant fastidieux devrait être facilitée par l’utilisation du SICAD (Site de l’Information et de la Communication Administrative) qui constitue un dépôt important d’imprimés administratifs en ligne.
2. Définir des normes pour la conception des imprimés concernant les informations essentielles dont les organismes ont besoin pour mener à bien leur mission. Cela inclut la création d’une charte complète et la codification de tous les imprimés. Si une donnée est demandée mais n’est pas destinée à un système informatique ou qui ne peut être numérisée, cela constitue probablement un indicateur de son inutilité.
Comme le dit souvent mon dentiste, la bouche est la porte d’entrée du corps, elle détermine sa bonne santé. De la même manière, la saisie des données est le premier filtre de qualité des systèmes au sein d’une entreprise.
L’ignorer et tout progrès vers la digitalisation et l’ère de l’IA ne serait qu’une illusion, bâtie sur de l’argile.
Mohamed Louadi, PhD
Professeur des universités à l’ISG, Université de Tunis
- Ecrire un commentaire
- Commenter