Travailler avec une masse de données

Un des créneaux de l’industrie qui semble promis à une croissance importante au cours des prochaines années est celui des données massives, un segment du marché que l’on désigne souvent sous son appellation anglaise, le big data.

Selon une prédiction de la firme IDC, le marché mondial des produits et les services liés aux données massives devrait croître à un taux composé de 27 % pour atteindre une valeur de 37 milliards de dollars d’ici 2017, un taux de croissance qui est six fois celui du secteur des technologies de l’information et des communications.

D’autres analystes de la firme Markets and Markets parlent d’un marché de 14,87 milliards de dollars en 2013, croissant au taux composé de 25,5 % pour atteindre 46,34 milliards en 2018. Avec une telle croissance et une telle importance, nous n’avons pas fini d’en entendre parler. Aussi bien s’entendre pour en parler avec des expressions françaises qui conviennent. À la rubrique big data, le Grand dictionnaire terminologique nous suggère données volumineuses ainsi que données de masse, données massives ou mégadonnées. Ma préférence personnelle va à « données massives », plus pour sa sonorité que pour quelque nuance lexicale.

Le fait de parler des « données » massives semble limiter le périmètre de la réalité que ce marché sous-entend, la donnée étant la plus petite unité d’information qui est impliquée dans la chose, fut-elle en grand nombre, au point de s’assembler en grandes masses volumineuses. Comme le soulignait il y a plusieurs mois mon ex-collègue et chroniqueur Gérard Blanc, on a tendance à regrouper sous l’appellation « données massives » tout ce qui se rapporte à la création de ces masses de données, à leur traitement comme à leur gestion. On procède à cette extension de sens tant en français qu’en anglais d’ailleurs. Personnellement, j’aimerais mieux qu’on parle du créneau de la « gestion des données massives » ou du « traitement des données volumineuses ».

Et il vrai que ces données sont massives. Le volume des données créées ne cesse de croître : on parle de 2,8 zettaoctets en 2012 (un zettaoctet = 10²¹ octets ou 1 milliard de téraoctets). C’est gros. Et on prévoit 40 zettaoctets par an d’ici 2020. À titre d’information, le centre de données de la NSA pourrait stocker 1 yottaoctet, soit 1000 zettaoctets.

La nature des données s’est fondamentalement diversifiée au cours de la dernière décennie. Avec la croissance des transactions en ligne, du passage au tout numérique et par la montée fulgurante des réseaux sociaux, le volume des données créées dépasse ce que l’on peut s’imaginer.

Les courriels sont un exemple : il circule environ 182,9 milliards de courriels par jour en 2013, soit 5 800 courriels à la seconde.

On compterait autour de 3,2 milliards de comptes sur les divers réseaux sociaux, lesquels sont détenus par un peu plus d’un milliard de personnes. À titre d’exemple, environ 500 millions de messages sont envoyés sur le réseau social Twitter chaque jour, soit environ 5 700 messages à la seconde. Le réseau Facebook, qui compte 1,19 milliard d’utilisateurs actifs, enregistre 4,5 milliards de « j’aime » par jour.

Toutes ces données constituent, pour le moins, une masse d’information que les analystes veulent pouvoir harnacher pour en tirer une valeur qui peut se transformer en opportunité en matière de stratégie d’affaires, de développement de produits et de services, d’analyse sociopolitique, etc.

Le phénomène des données massives est- il nouveau ? Pas vraiment. Le traitement, la gestion et l’analyse des données, quelles soient massives et non-structurées plutôt que structurées et à une échelle plus raisonnable demeurent du traitement, de la gestion et de l’analyse de données. S’il existe des outils et des méthodes spécialisées, on continue d’appliquer des principes que l’on connaît depuis la création des entrepôts de données (data warehouse) et des outils de forage de données (data mining). Il n’est donc pas étonnant que ce domaine intéresse de prime abord ceux dont c’est le métier de traiter et d’analyser les données, soit les spécialistes de l’informatique décisionnelle, une expression que je préfère à celle d’intelligence d’affaires (business intelligence).

Pour l’informaticien, le défi demeure de donner une signification aux données et d’en tirer de la valeur, peu importe la masse des données.

Note de la rédaction

Lorsqu’il est question de technologies de l’information, nombre d’expressions sont d’abord créées en anglais et l’emploi de mots français pour décrire de nouvelles tendances, de nouveaux appareils ou de nouvelles réalités est souvent à la remorque de la langue d’origine. Dans une vie précédente, comme journaliste en TI pendant 20 ans, j’ai souvent été confronté au défi de trouver des expressions françaises pour des technologies inventées en anglais. cette chronique est ma contribution à la discussion visant à favoriser l’usage d’expressions françaises en TI.

(Note: ce billet a d’abord été publié sur mon blogue au Réseau Action TI – le 9 janvier 2014 à 17h07)