Les enjeux du Big Data en discussion au Berlin Big Data Center
Le 5 novembre 2015 s’est déroulé au Berlin Big Data Center (BBDC) [1] un séminaire sur la problématique du Big Data et de ses différentes applications. Il a démarré par une session plénière, où une présentation générale du Big Data et de son développement a été effectuée. Puis s’est ensuite déroulée une session de différentes tables rondes, organisées par sujets d’application du Big Data : la mobilité, la santé, l’économie numérique et l’industrie 4.0. Le contenu du présent article correspond aux échanges qui ont été tenus à cette occasion.
Le Prof. Volker Markl a introduit l’évènement en session plénière. Selon lui, le Big Data est freiné dans son développement par un manque d’outil adapté pour l’utilisation de données massives. D’un côté, il existe des solutions adaptées pour l’analyse performante de données tels R, Matlab ou Python, mais les volumes de données exploitables restent limités. De l’autre côté, les bases de données volumineuses sont gérées par des logiciels comme SQL ou Oracle, mais ceux-ci ne sont pas adaptés à l’analyse de données en profondeur. Les outils permettant un traitement efficace de données en quantités importantes sont en développement.
A ce frein technique s’ajoute également un frein de formation. En effet, les utilisateurs de Hadoop, qui est un outil basique pour le traitement des données massives, sont environ 100.000, tandis que les utilisateurs de R ou de Matlab se comptent en millions. Il faut donc pallier un manque de formation aux enjeux et aux techniques du Big Data. Dans l’optique de rendre davantage accessible le Big Data, le BBDC a ainsi développé une plateforme open-source nommée “Apache Flint”, qui permet des opérations de données plus puissantes que Hadoop.
Le Big Data permet d’introduire de la flexibilité dans les procédures, que ce soit l’optimisation d’une chaîne de production dans le cas d’une usine numérisée, ou la conception d’un plan de circulation en fonction de plusieurs facteurs dans le cadre de la mobilité (météorologie, trafic, …). Le modèle économique du Big Data doit être envisagé du fournisseur de solution vers les consommateurs. En effet, les solutions sont développées à destination des utilisateurs, suivant leur profil. C’est le cas en santé où chaque donnée en rapport avec un patient appelle un traitement spécifique. De même que pour l’internet des objets, les applications proposées se réfèrent à un profil d’utilisateur déterminé par un traitement des données.
Le Big Data agrège également des sources différentes de données. Il est ainsi nécessaire de composer avec l’hétérogénéité de ces données pour un traitement optimal. Dans le domaine de l’industrie 4.0, des données provenant de différentes entreprises sont fusionnées, et dans le secteur de la mobilité, les données issues des infrastructures de transport (sociétés de transport, directions des équipements, …) sont traitées avec les données issues des usagers.
Enfin, le cadre législatif concernant le Big Data est actuellement en débat. L’intégration du Big Data dans les différents domaines d’applications doit permettre d’améliorer la qualité du service délivré par ces applications et de faciliter l’accès à l’information. La protection de la vie privée apparaît comme un risque majeur à prendre en compte et donc, l’instauration de règles de protection est nécessaire. La question de la propriété des données est aussi à l’ordre du jour. Dans le cas de la santé, si l’analyse des données est fausse amenant ainsi à un faux diagnostic, quel en est le coût et qui est responsable ?
Pour chaque domaine d’application du traitement des données massives, la question a été posée de la confiance à accorder aux sources des données et des moyens de prouver leur fiabilité. La protection des échanges de données a aussi été abordée, afin de permettre une utilisation des données en réseau entre chaque utilisateur. La solution d’une structure externalisée, comme par exemple un nuage informatique, a été envisagée comme support pour le traitement des données disponibles.
Plus d’informations :
[1] Le BBDC est l’un des deux centres de compétences en Allemagne financé par le Ministère fédéral de l’enseignement et de la recherche (BMBF) pour appuyer la recherche dans le domaine du Big Data (voir l’article https://www.science-allemagne.fr/fr/actualites/technologies-de-linformation-et-de-la-communication-tic/lallemagne-intensifie-la-recherche-dans-le-big-data/) . Le BBDC est un regroupement de chercheurs et de professionnels du secteur issus du Centre Konrad-Zuse pour la technique de l’information (ZIB, Berlin), de l’Université technique de Berlin (TU Berlin), du Centre de recherche allemand sur l’intelligence artificielle (DFKI), de l’Institut Fritz Haber de la société Max-Planck (FHI, Berlin) et de l’Ecole Beuth des sciences appliquées de Berlin.
Source : Participation du rédacteur à l’évènement
Rédacteur : Aurélien Gaufrès, aurelien.gaufres[at]diplomatie.gouv.fr – www.science-allemagne.fr