Comment les autorités publiques peuvent-elles utiliser le big data pour servir l’intérêt général ?

L’auteur remercie Edgar Gastón Jacobs, coordinateur des projets juridiques chez SKEMA Brésil et Claude Revel, directrice de SKEMA PUBLIKA, pour leurs contributions.

Un besoin vital de recueillir davantage d’informations

Parmi l’éventail des capacités dont un État a besoin afin de fonctionner efficacement et d’exploiter les résultats de son développement, les informations sont des données essentielles. Sans informations fiables sur la localisation et les activités des agents économiques sur son territoire, un État ne peut pas aisément exercer ses fonctions coercitives, fiscales et administratives. Les données ont même été décrites comme étant l’élément vital de toute prise de décision.

De nombreux pays ont pris conscience de la nécessité capitale de recueillir davantage d’informations, mais ils souffrent toujours d’une « anémie statistique ». L’une des façons de comprendre cela est de chercher la réponse à la question suivante : quel est le temps moyen écoulé entre les différentes observations d’un ménage donné dans les enquêtes sur les dépenses ou les richesses représentatives au niveau national ? Selon une étude récente, l’intervalle moyen de revisite est considérablement inférieur à un sur 10 ans aux États-Unis et à un sur 1 000 ans en Afrique ! Cette même étude suggère une source de données alternative dont la fréquence est bien plus élevée : l’imagerie satellitaire. Exploiter de nouvelles sources d’information fondées sur la technologie signifie entrer dans le domaine des big data.

Que sont exactement les big data ?

Les 5V du Fonds monétaire international

Dans une enquête exhaustive datant de 2017, le FMI clarifie le concept de big data en le déclinant en cinq V : Volume, Vitesse, Variété mais également Véracité et Volatilité. En d’autres termes, les big data concernent des quantités massives de données, disponibles à une fréquence élevée et pour un large éventail de sujets, mais qui peuvent ne pas identifier précisément le sujet latent d’intérêt et être fortement influencées par les changements et usages technologiques. Le FMI procure également une classification des big data qui peuvent être générées par les réseaux sociaux, les entreprises, les organismes publics ou les capteurs (comme les capteurs météorologiques ou les GPS, etc.).

*Figure 1 : Classification des big data. Source*

Typologie de la Banque mondiale

Une autre façon d’envisager les big data est d’adopter la typologie proposée par la Banque mondiale dans son Rapport sur le développement mondial 2021 Des données pour de meilleures vies. Les données peuvent être traditionnelles ou nouvelles, générées à des fins publiques ou commerciales (figure 2). Les nouvelles données peuvent être comprises comme provenant de nouveaux outils mais aussi d’utilisations qui s’écartent de l’objectif initial de la collecte de données, comme l’analyse des sentiments des données Twitter.

*Figure 2 : Typologie des big data. Source*

Les inquiétudes concernant la façon dont les big data pourraient devenir un instrument de domination politique et économique doivent être prises au sérieux. Les big data pourraient conduire à un capitalisme de surveillance, voire à une nouvelle forme de totalitarisme. Comme le soutiennent Acemoglu et Robinson, il existe une passerelle étroite entre un État fort et une société autonomisée où l’État est suffisamment puissant pour favoriser le développement économique mais reste sous le contrôle de la société.

Des données qui méritent une attention particulière

Certaines données, notamment celles relatives à la santé, méritent une attention particulière. La création d’une taxonomie fondée sur les risques à partir de ce qui était à l’origine considéré comme des « données sensibles » dans le secteur de la santé pourrait être une solution. De ce point de vue, la collecte et le traitement des big data (données biométriques par exemple), dans les domaines de la médecine et de la santé publique doivent respecter l’autonomie des individus, atteindre l’équité et protéger la vie privée. Comment s’assurer que les participants à un projet de recherche exploitant les big data ont donné leur consentement ? Comment corriger les biais potentiels dus à l’entraînement de l’algorithme sur des sources de données non représentatives ? Dans quelle mesure est-il difficile de retrouver l’identité des participants à partir de big data prétendument dépersonnalisés (rendus anonymes) ?

Les États sont clairement soucieux de protéger les données neurales de leurs citoyens, prélevées et traitées par des dispositifs neuraux ou des outils numériques. Aujourd’hui, ces données peuvent être utilisées dans le cadre d’activités de marketing, de campagnes politiques, de profilage dans le domaine de la santé, voire de procédures judiciaires. Au Brésil, un projet de loi inclut cette question dans la loi sur la protection des données, au Chili un amendement à la Constitution protège les « neurorights » (droits des neurones), et le Conseil de l’Europe a publié un rapport détaillé sur la question.

L’utilisation des big data par les États pour le développement économique et social – Exemples

Big Data et Covid-19 : une réponse en temps de crise

La pandémie de Covid-19 a nécessité la mise en œuvre de mesures économiques et sanitaires rapides. Plus précisément, il fallait répondre aux questions suivantes : que se passe-t-il au niveau de l’activité économique et comment la mobilité réagit-elle aux campagnes de communication et aux mesures de confinement ? Les gouvernements n’avaient pas le luxe d’attendre les statistiques officielles ou de mener des enquêtes démographiques. Cependant, les big data ont contribué à fournir des indicateurs complémentaires et inédits. En utilisant les données de Google Trends et des techniques de données d’apprentissage automatique, l’OCDE a développé un suivi hebdomadaire de l’activité économique permettant de faire des prévisions immédiates de l’état de l’économie ; on aurait également pu utiliser les données sur les transactions par carte de paiement pour obtenir une perspective granulaire des dépenses quotidiennes par secteur d’activité et l’analyse textuelle pour en évaluer l’incertitude. Parallèlement, la géolocalisation associée aux réseaux mobiles et aux données des plateformes a permis de détecter en temps réel les schémas de mobilité de la population (voir également).

*Figure 3 : Suivi hebdomadaire de l’activité économique en France. Source*

Enfin, les données satellitaires ont mis en évidence qu’une forte pollution est, malheureusement, un indicateur de l’activité économique. Par exemple, les niveaux de dioxyde d’azote dans la troposphère ont considérablement augmenté en Chine une fois que les mesures de confinement ont été allégées.

Une « vue du dessus » pour fournir des services aux personnes qui en ont le plus besoin

Comme nous l’avons souligné dans l’introduction, de nombreux pays ne disposent pas des capacités financières et administratives nécessaires pour mener des enquêtes de population fréquentes et rigoureuses. Autrement dit, comment aider et fournir des services publics aux personnes qui en ont le plus besoin si vous ne savez pas où elles se trouvent ni si leurs conditions de vie ont évolué ? Une solution consiste à utiliser une vue du dessus, en combinaison avec les données traditionnelles. En résumé, des algorithmes (par exemple, des réseaux neuronaux convolutifs) peuvent être entraînés à « reconnaître » les caractéristiques de la population ou de la pauvreté (comme le type de bâtiments et de structures) dans des images satellites diurnes et nocturnes. Des cartes à 30 mètres de résolution ont ainsi été créées et indiquent où se trouve la population ainsi que sa répartition démographique (âge ou sexe entre autres). Ces informations sont cruciales pour planifier l’allocation des ressources liées à la santé, à l’éducation et aux infrastructures. En ce qui concerne les conditions de vie, cette étude (voir également) montre de quelle façon une carte détaillée de la pauvreté au Nigeria peut être générée (figure 4).

*Figure 4 : Carte détaillée de la pauvreté au Nigeria établie à partir de données satellitaires et d’une IA. Source*

De toute évidence, les données satellitaires permettent une gamme illimitée d’applications si l’unité d’intérêt est visible par les capteurs. Par exemple, elles permettent de suivre la déforestation, qui contribue aux émissions de carbone, au déclin de la biodiversité et à l’émergence de maladies infectieuses.

À bien des égards, l’utilisation des données satellitaires et de l’intelligence artificielle dans la recherche incarne la manière dont les big data s’inspirent des initiatives publiques et les complètent. Les données satellitaires sont librement disponibles en ligne (comme le programme NASA/USGS Landsat), les algorithmes sont entraînés à l’aide des enquêtes démographiques et sanitaires (également disponibles gratuitement), et le code et les résultats sont souvent accessibles au public (comme pour la cartographie de la pauvreté en Afrique). En outre, les données satellitaires présentent de nombreuses caractéristiques attractives (cohérence, fiabilité, transparence, et longévité notamment) faisant de l’observation de la Terre un outil au service du développement durable.

Les Big Data pour une responsabilité des États accrue

Enfin, les big data peuvent améliorer la responsabilité des États. Les statistiques officielles de croissance et d’inflation de certains pays semblent parfois « trop belles pour être vraies ». Le cas du taux d’inflation officiel de l’Argentine, qui semblait sans rapport avec l’expérience pratique, en est un exemple emblématique. Le Billions Prices Project a « récupéré » (collecté) des prix en ligne sur des sites de détaillants et a démontré que l’inflation était sous-estimée de 10 à 20 points de pourcentage. La manipulation de l’indice officiel des prix a pris fin avec l’élection d’un nouveau gouvernement en 2015, mais le Billions Prices Project démontre que la société civile peut avoir accès aux outils nécessaires pour vérifier la crédibilité des statistiques gouvernementales. Comme le soulignent les auteurs de l’étude, leur méthodologie peut être utilisée dans tous les pays et peut mieux refléter l’évolution des prix dans un environnement en mutation rapide, dominé par des chocs technologiques (des produits nouveaux et améliorés par exemple) mais également exogènes (comme une guerre affectant les chaînes d’approvisionnement mondiales).

Une autre façon d’appréhender les big data comme dispositif permettant de vérifier la discipline d’un État est l’accès aux sites web dédiés à la transparence publique, comme au Brésil. Grâce à ces informations en ligne, les citoyens peuvent contrôler les activités financières de leur gouvernement en temps réel.

Peut-on faire confiance aux gouvernements qui utilisent les Big Data ?

Favorisation du bien-être ou nuisance pour la société ?

Les big data présentent d’énormes opportunités, mais également certains défis et risques (figure 5). Au-delà de la nécessité de nouveaux outils et de nouvelles compétences pour analyser ces données d’importants Volume, Vitesse et Variété, des inquiétudes subsistent quant à leur Véracité et leur Volatilité. Comme le soulignent le FMI ou l’INSEE, certaines des variétés de big data sont un sous-produit d’activités commerciales. Il n’existe aucune garantie que la méthodologie, la qualité, l’échantillon (souvent non représentatif) ou l’accès du public restent stables dans le temps. Par exemple, qu’advient-il de la cohérence des séries temporelles générées, en termes de contenu ou d’usages, si une plateforme sociale modifie son algorithme pour mettre l’accent sur certains sujets spécifiques ou attirer un nouveau segment de la population ?

*Figure 5 : Opportunités, défis et risques des big data. Source*

Plus largement, la Banque mondiale fournit un cadre conceptuel qui illustre que la dualité de la technologie des big data (figure 6) peut favoriser le bien-être mais également nuire à la société.

*Figure 6 : Avantages et inconvénients potentiels des big data. Source*

Noam Chomsky souligne que la technologie est fondamentalement neutre. C’est un peu comme un marteau : le marteau ne se soucie pas de savoir si vous l’utilisez pour construire une maison ou si un tortionnaire l’utilise pour broyer un crâne. De même, un gouvernement peut utiliser des données pour améliorer la situation de ses citoyens, ou pour développer une société de surveillance dominée par la gouvernementalité algorithmique. États et organisations internationales (telles que l’OCDE) plaident souvent en faveur de lignes directrices éthiques fortes régissant l’utilisation conjointe des big data et de l’IA concernant les questions liées à la vie privée, à la transparence et aux biais algorithmiques, à l’accès et au stockage des données, à la réglementation des plateformes.

Compte tenu des tendances actuelles, un tel cadre éthique est grandement nécessaire. Dans son ouvrage Algorithmes : la bombe à retardement, Cathy O’Neil nous rappelle que les gouvernements, les entreprises et les politiciens utilisent de plus en plus les big data et les algorithmes pour observer, prédire, et parfois influencer nos comportements individuels dans tous les aspects de la vie (aller à l’école, trouver un emploi, obtenir un prêt, se soigner, faire des choix politiques…), tandis que l’AI Global Surveillance Index (Indice de surveillance mondiale de l’IA) souligne que le monde ressemble de plus en plus à un mélange entre le panoptique de Jeremy Bentham et le Minority Report de Philip K. Dick (figure 7). En effet, le déploiement de capteurs, l’utilisation de systèmes de reconnaissance faciale et les outils de police intelligente basés sur les données sont devenus courants dans de nombreux pays.

Toutefois, au-delà des questions évidentes de respect de la vie privée, qui doivent être prises en compte au même titre que les questions d’efficacité et de réduction de coûts, il existe un risque que les algorithmes, notamment pour la police et la justice, soient perçus comme plus fiables, et donc plus conformes au bien public, car non entachés de subjectivité humaine. Cela serait une erreur : il a été largement documenté que les systèmes de reconnaissance faciale (notamment pour identifier des suspects potentiels) ou les instruments d’évaluation des risques (pour prédire les récidives par exemple) sont encore des instruments très imparfaits qui perpétuent et exacerbent souvent les biais existants en raison des algorithmes qui apprennent de modèles historiques et les répètent. On ne sait toujours pas comment concilier justice algorithmique et droits de l’homme. Au mieux, l’IA devrait augmenter l’intelligence humaine, mais pas la remplacer. Plus largement, l’utilisation des big data doit être réglementée afin, comme le soutient la Commission européenne, que les gouvernements utilisent les big data uniquement dans l’intérêt public.

*Figure 7 : Adoption de technologies de surveillance et de prédiction. Source*

Il existe également un paradoxe inhérent lorsque des données personnelles sont publiées à des fins de transparence dans le secteur public. Des informations sur les citoyens, notamment ceux qui occupent une fonction publique, peuvent être mises à disposition pour lutter contre la corruption et éviter les conflits d’intérêts. Toutefois, la quantité de données mises à disposition doit suivre des principes de proportionnalité stricts afin de respecter les droits individuels.

Un contrat social pour les données

Tirer parti des big data pour le bien nécessite donc, comme le plaide la Banque mondiale, un contrat social pour les données qui aligne valeur des données, confiance et équité (figure 8). Pour réaliser ce nouveau contrat social, il faut extraire de la valeur des big data et établir une relation de confiance.

*Figure 8 : Définir un nouveau contrat social dans les sociétés à forte intensité de données. Source*

Le FMI souligne que les pays devront renforcer leurs agences statistiques nationales afin de « faire parler les big data », en recrutant des équipes pluridisciplinaires, en élaborant de nouveaux cadres statistiques et en créant des partenariats stratégiques avec des prestataires privés. Certains pays en développement peuvent également bénéficier de l’augmentation des capacités et de l’assistance technique financés par les aides étrangères officielles. L’OCDE, dans le cadre de son projet multidisciplinaire Nouvelles sources de croissance : le capital fondé sur la connaissance, indique également que les preuves fondées sur le rôle transformateur des big data devraient s’élargir et s’améliorer, afin de générer des politiques optimisant le rapport bénéfice/risque.

La confiance sera établie si les gouvernements peuvent démontrer de manière tangible que les big data sont utilisés pour le bien commun. À cet égard, le cas de l’Estonie doit être analysé de manière approfondie. Ce pays a massivement investi dans une administration en ligne centrée sur l’utilisateur, avec un accès en ligne à de nombreux services publics, une utilisation conjointe public-privé de l’identification électronique et la possibilité pour les citoyens de contrôler les autorités publiques accédant à leurs données et à quelles fins. L’Estonie a également été confrontée à une cyberattaque spectaculaire en 2007 qui a brièvement paralysé le pays. L’occurrence croissante de cyberopérations parrainées par des pays ou des criminels nous rappelle que les sources de données peuvent être violées, que les informations peuvent être manipulées et que les droits des citoyens peuvent être enfreints. Par conséquent, les big data serviront l’intérêt public si un État veille à ce que ses citoyens soient protégés des menaces internes et externes grâce à des réglementations nationales plus strictes et à une meilleure protection en matière de cybersécurité. En gardant ces réserves à l’esprit, les big data peuvent aider les pays à atteindre leurs objectifs en matière de développement durable, à condition que ces politiques soient soumises à des principes rigoureux qui restent à définir. Comme le reconnaît la résolution de l’ONU Transformer notre monde : le Programme de développement durable à l’horizon 2030, alors, et seulement alors, l’utilisation adéquate des big data facilitera la mesure, le suivi et le compte-rendu des progrès accomplis en vue de la réalisation des objectifs pertinents, et sera donc une force positive.

L’utilisation publique des big data n’a de sens qu’avec un contrôle politique et de la société civile. Il est également crucial de se rappeler les leçons tirées d’utilisations publiques passées des données. Par exemple, l’historien Gregory Daddis raconte comment, durant la guerre américano-vietnamienne, les données étaient devenues une fin en soi. Les États peuvent ainsi travailler ensemble, notamment à travers leur implication dans des organisations multilatérales et intergouvernementales (par exemple, l’ONU, la Banque mondiale, le FMI, l’OCDE) pour développer des principes internationaux communs régissant les big data afin d’orienter de manière proactive leur accès et leurs applications vers un objectif de croissance inclusive. SKEMA PUBLIKA possède l’état d’esprit international et impartial requis ainsi que les compétences multidisciplinaires nécessaires pour assister les États et délivrer des recommandations opérationnelles.