Faut-il avoir peur du Big Data ?

Enseignant-Chercheur à Télécom ParisTech, Stephen Clémençon est responsable du Mastère Spécialisé Big Data et titulaire de la Chaire Machine Learning for Big Data.
L’évocation du terme Big Data provoque bien souvent une réaction ambivalente. Un engouement certain pour ce que les masses de données aujourd’hui disponibles, combinées à des sciences et technologies de l’information en plein essor, pourraient permettre d’accomplir dans de nombreux secteurs ( science, médecine, commerce, transports, communication, sécurité), à l’instar des progrès réalisés ces vingt dernières années dans le domaine de l’internet. Mais aussi une crainte, fondée parfois sur des dangers bien réels: une automatisation des processus de décision pouvant s’accompagner d’une perte de contrôle, l’impact sur l’emploi, la dépendance de certaines activités à l’égard des systèmes d’information et la disparition de la vie privée.
S’il est encore aujourd’hui difficile de percevoir précisément comment organiser une régulation efficace sans pour autant brider les avancées promises, la maîtrise de ces risques passe en partie par l’éducation et la formation, une plus grande diffusion d’une «culture des données et des algorithmes».
Les peurs suscitées par l’automatisation ne sont pas nouvelles. Dans le cas du traitement des masses d’information numérisées, cette automatisation est pourtant inévitable et souhaitable. Perçue à tort comme une discipline visant à remplacer l’expertise d’un opérateur humain par des machines réalisant des tâches automatisées définies par des données, l’apprentissage statistique (machine-learning) a au contraire pour objectif de nous aider à exploiter les données brutes collectées par les capteurs modernes ( téléscope spatial, spectromètre de masse, téléphones mobiles), portant une information complexe qu’il nous est absolument impossible d’embrasser sans un traitement mathématique adéquat, mis en œuvre au moyen de programmes informatiques dédiés. Il est aujourd’hui à l’œuvre dans de nombreux domaines et s’incarne avec succès dans des applications telles que la vidéosurveillance, la maintenance prédictive des grands systèmes et infrastructures ou les moteurs de recommandation sur le web par exemple.
Un contrôle indispensable
On peut anticiper que ce corpus de connaissances et techniques à l’interface des mathématiques et de l’informatique, en progrès constant depuis quelques décennies, sera encore à l’origine de nombreuses innovations à fort impact sociétal, économique ou scientifique pour peu que son potentiel soit compris par un public de plus en plus large, qu’il soit maîtrisé par un nombre croissant d’ingénieurs et de cadres techniques et qu’il se confronte aux enjeux de la société moderne. Le véritable danger de l’automatisation du traitement des données massives résiderait au contraire dans une pénurie d’expertise et de compétences permettant de vérifier les conditions dans lesquelles les données sont collectées, d’assurer leur véracité et le bien fondé des modèles statistiques sur lesquels reposent les applications modernes et d’interpréter les résultats.
Si le Big Data correspond à une sorte de Nirvana pour la Statistique, dont les méthodes sont d’autant plus fiables qu’elles sont fondées sur l’observation d’expériences «en grand nombre», le contrôle des conditions d’acquisition des données et des hypothèses de validité des algorithmes prédictifs est indispensable au succès des modèles calculés par les machines. La culture probabiliste et statistique devrait ainsi prendre une place de plus en plus importante dans la plupart des cursus universitaires, et pas seulement celui de ces nouveaux spécialistes des statistiques algorithmiques, les «data scientists». Sa diffusion accrue ferait en particulier s’évanouir la crainte d’un monde où le Big Data permettrait de prédire sans erreur nos comportements, la date de notre mort... Les «grands nombres» permettant d’estimer la performance prédictive des modèles, d’évaluer les risques avec précision et d’optimiser les décisions en univers incertain mais pas de réduire le caractère intrinsèquement aléatoire de certains phénomènes.
SERVICE:
Comme toute introduction d'une sphère d'innovation - celle-ci relativement pointue - dans le domaine des technologies et systèmes d'information, il y aura une période plus floue.
En Anglais nous utilisons souvent l'acronyme VUCA ou VICA en français - Volatilité, Incertitude, (Uncertainty) Complexité et Ambiguïté lorsque nous sommes dans cette situation.
En effet, il émerge présentement une phase plus d'adaptative pour les utilisateurs, les développeurs, et le personnel du monde académique, de l'apprentissage professionnel inhérent au secteur de cette branche de l'informatique et son inter-relation dans le développement des connaissances dans son ensemble.
Au fur et à mesure de cette évolution toutefois nous deviendrons collectivement plus confortables avec les forces, faiblesses, opportunités et menaces (SWOT en Anglais originaire de l'université Standford) et le cerveau humain apportera sa valeur au sein de du ''Big Data''.
Par Sylvie T. Leduc, le 21/09/2015 à 18:12 Signaler un abus
@AnonymousHuman
.
Dans la météo, l'évolution des variables descriptives repose sur des modèles dynamiques et déterministes ... On fixe les conditions initiales des variables (température, pression, vent, etc) à un moment donné et les formules mathématiques du modèle évaluent l'évolution des variables dans le temps. La taille des modèles (nombre de variables et d'équations mathématiques dans le modèle) est tellement monstrueuse que la résolution est approximée et la qualité des simulations se dégradent quand l'horizon de temps grandit.
.
Ce n'est pas la même logique que le machine learning où l'on se base sur un historique de données pour prédire l'avenir selon un % de vraisemblance.
.
Par exemple, vous avez une base de donnée avec 300 photos : certaines avec des chats, d'autres sans chats. Vous présentez une nouvelle photo en demandant : y-a t'il un chat sur cette nouvelle photo ? L'algorithme va regarder les photos avec chat, puis les photos sans chat et vous répondre que la nouvelle photo ressemble selon X% à une photos sans chat (0% = il y a un chat, 100% = il n'y a pas de chat, 40% = il semble qu'il y ait un chat, mais ce n'est pas sur, etc).
Par snoop lenrage, le 21/09/2015 à 15:04 Signaler un abus
Un système dynamique comme la prévision météo n'est pas fiable a plus de 10 jours ,
est c'est pour cela que les plus gros calculateurs de la planète sont mobilises sauf erreur. Ça donne une idée des limites de 'big data' en terme de prédiction.
Avec une différence de taille , la météo sait quelle données collecter pour faire la prévision.
Par AnonymousHuman, le 21/09/2015 à 13:43 Signaler un abus
Pour le "big data" comme pour toutes les technologies humaines ce qui est important c'est qu'on en fait. La découverte du fer à été très utile du point de vue de l'outillage mais terriblement nocive du point de vue de la dangerosité des armes...
Il faut donc se méfier du "big data" tout particulièrement dans les possibilités qu'il offre aux pouvoirs économiques, politiques et policiers d'espionnage et de contrôle des populations. Des pare-feux législatifs doivent urgemment être mis en place, peut-être même dans les constitutions des nations.
Il est par contre bien évident que cette technologie permet de nombreux progrès dans un tas de domaines et qu'il faut l'utiliser autant qu'on peut pour améliorer notre vie... sans empiéter sur notre vie privée et nos libertés individuelles !
Par Bentiens, le 21/09/2015 à 11:56 Signaler un abus
Nous remercions humblement ce monsieur de nous expliquer ce que nous devons penser, bien qu'il le fasse en utilisant un jargon très classique :
"On peut anticiper que ce corpus de connaissances et techniques à l’interface des mathématiques et de l’informatique, en progrès constant depuis quelques décennies, sera encore à l’origine de nombreuses innovations à fort impact sociétal, économique ou scientifique pour peu que son potentiel soit compris par un public de plus en plus large, qu’il soit maîtrisé par un nombre croissant d’ingénieurs et de cadres techniques et qu’il se confronte aux enjeux de la société moderne. "
Ce n'est pas parce qu'un "corpus" de données s’agrandit qu'il est en "progrès constant" ... ce raisonnement est d'ailleurs à un moment donné , la négation même de la statistique!
Encore faudrait-il que le "corpus" de données soit pertinent ( disons "exact" pour faire simple ) .. ce qui est loin d'être le cas aujourd'hui, pour une foule de raisons, entre autre le fait qu'un nombre indéfini d'utilisateurs informatique mentionnent n'importe quoi dans nombre de formulaire Internet.
Par pascapple, le 21/09/2015 à 10:34 Signaler un abus