* * Premium * Actu * Economie * Sport24 * Culture * Lifestyle * Madame * Figaro Store * FigaroTV * Santé * Figarochic.cn * Histoire * Bourse * Nautisme * Golf * TVmag * Scope * Voyage * Enchères * Vin * Evene * Météo consult * Le particulier * Cadremploi * La chaine météo * Keljob * Kelformation * Explorimmo * Propriétés de France * Ticketac * Vodeo * Cplussur Abonnez-vous * Twitter * Facebook * Newsletter ____________________ (BUTTON) Rechercher Menu En direct Suivre Recherche Etudiant Etudiant Etudiant * Education day - 27/01 * News * Les Voix du Sup * Orientation * Stage - 1er Emploi * Vie étudiante * Agenda Menu Etudiant Premium Abonnez-vous Menu En direct ____________________ (BUTTON) * Actualité + Le Figaro Premium + Abonnez-vous + International + Élections régionales 2015 + Politique + Le Scan Politique + Société + Figaro Vox + Figaro Etudiant o News o BAC 2015 o Orientation o Stage - 1er emploi o Vie étudiante o International o Communication & Marketing : la mutation permanente o L'actualité du numérique avec SUPINFO o Les objets connectés : la révolution avec l’ECE Paris o Séjours linguistiques avec EF o Prépa Concours + Science & Environnement + Tech & Web + Figaro Magazine + Figaro Santé + FigaroTV / vidéos + Blogs + Diaporamas + Infographies + Toute l'actu + La Personal Economy + Cop21 en France + Agir pour le climat + Les trésors de voyage + Les Bons Moments + Chemins faisant + L'Observatoire Entreprise & Santé * Economie * Sport * Culture * Lifestyle * Madame * Edition abonnés * Services * Tous les sites du Figaro 6789 formations * [Sélectionner un type d'établissement___..] * (ex: marketing)_____ * (BUTTON) Rechercher Recherche avancée Le top des recherches * École de commerce * Étudier à l'étranger * École d'ingénieurs * École du web * Master droit * Master informatique * Master management des RH * Plus de formations Vous êtes ici Orientation > Les voix du Sup > Faut-il avoir peur du Big Data ? Faut-il avoir peur du Big Data ? * Par Stéphan Clémençon * Publié le 18/09/2015 à 18:21 [PHOce5ba676-5e1e-11e5-8fca-a3f08050c3b9-805x453.jpg] Stephen Clémençon Recevez nos newsletters : ____________________ (BUTTON) Recevoir notre newsletter Fermer * 9 * * * Enseignant-Chercheur à Télécom ParisTech, Stephen Clémençon est responsable du Mastère Spécialisé Big Data et titulaire de la Chaire Machine Learning for Big Data. L’évocation du terme Big Data provoque bien souvent une réaction ambivalente. Un engouement certain pour ce que les masses de données aujourd’hui disponibles, combinées à des sciences et technologies de l’information en plein essor, pourraient permettre d’accomplir dans de nombreux secteurs ( science, médecine, commerce, transports, communication, sécurité), à l’instar des progrès réalisés ces vingt dernières années dans le domaine de l’internet. Mais aussi une crainte, fondée parfois sur des dangers bien réels: une automatisation des processus de décision pouvant s’accompagner d’une perte de contrôle, l’impact sur l’emploi, la dépendance de certaines activités à l’égard des systèmes d’information et la disparition de la vie privée. S’il est encore aujourd’hui difficile de percevoir précisément comment organiser une régulation efficace sans pour autant brider les avancées promises, la maîtrise de ces risques passe en partie par l’éducation et la formation, une plus grande diffusion d’une «culture des données et des algorithmes». Les peurs suscitées par l’automatisation ne sont pas nouvelles. Dans le cas du traitement des masses d’information numérisées, cette automatisation est pourtant inévitable et souhaitable. Perçue à tort comme une discipline visant à remplacer l’expertise d’un opérateur humain par des machines réalisant des tâches automatisées définies par des données, l’apprentissage statistique (machine-learning) a au contraire pour objectif de nous aider à exploiter les données brutes collectées par les capteurs modernes ( téléscope spatial, spectromètre de masse, téléphones mobiles), portant une information complexe qu’il nous est absolument impossible d’embrasser sans un traitement mathématique adéquat, mis en œuvre au moyen de programmes informatiques dédiés. Il est aujourd’hui à l’œuvre dans de nombreux domaines et s’incarne avec succès dans des applications telles que la vidéosurveillance, la maintenance prédictive des grands systèmes et infrastructures ou les moteurs de recommandation sur le web par exemple. Un contrôle indispensable On peut anticiper que ce corpus de connaissances et techniques à l’interface des mathématiques et de l’informatique, en progrès constant depuis quelques décennies, sera encore à l’origine de nombreuses innovations à fort impact sociétal, économique ou scientifique pour peu que son potentiel soit compris par un public de plus en plus large, qu’il soit maîtrisé par un nombre croissant d’ingénieurs et de cadres techniques et qu’il se confronte aux enjeux de la société moderne. Le véritable danger de l’automatisation du traitement des données massives résiderait au contraire dans une pénurie d’expertise et de compétences permettant de vérifier les conditions dans lesquelles les données sont collectées, d’assurer leur véracité et le bien fondé des modèles statistiques sur lesquels reposent les applications modernes et d’interpréter les résultats. Si le Big Data correspond à une sorte de Nirvana pour la Statistique, dont les méthodes sont d’autant plus fiables qu’elles sont fondées sur l’observation d’expériences «en grand nombre», le contrôle des conditions d’acquisition des données et des hypothèses de validité des algorithmes prédictifs est indispensable au succès des modèles calculés par les machines. La culture probabiliste et statistique devrait ainsi prendre une place de plus en plus importante dans la plupart des cursus universitaires, et pas seulement celui de ces nouveaux spécialistes des statistiques algorithmiques, les «data scientists». Sa diffusion accrue ferait en particulier s’évanouir la crainte d’un monde où le Big Data permettrait de prédire sans erreur nos comportements, la date de notre mort... Les «grands nombres» permettant d’estimer la performance prédictive des modèles, d’évaluer les risques avec précision et d’optimiser les décisions en univers incertain mais pas de réduire le caractère intrinsèquement aléatoire de certains phénomènes. SERVICE: » Trouvez la formation qui révélera vos talents à lire aussi * «Il faut former aussi les jeunes à l’intrapreneuriat» * Pour un enseignement total de la créativité dans les écoles de management * «Il faut faciliter la vie aux étudiants qui veulent entreprendre» * Figaro étudiant sur Facebook * Figaro étudiant sur Twitter Réagir à cet article * [nophoto.jpg] Comme toute introduction d'une sphère d'innovation - celle-ci relativement pointue - dans le domaine des technologies et systèmes d'information, il y aura une période plus floue. En Anglais nous utilisons souvent l'acronyme VUCA ou VICA en français - Volatilité, Incertitude, (Uncertainty) Complexité et Ambiguïté lorsque nous sommes dans cette situation. En effet, il émerge présentement une phase plus d'adaptative pour les utilisateurs, les développeurs, et le personnel du monde académique, de l'apprentissage professionnel inhérent au secteur de cette branche de l'informatique et son inter-relation dans le développement des connaissances dans son ensemble. Au fur et à mesure de cette évolution toutefois nous deviendrons collectivement plus confortables avec les forces, faiblesses, opportunités et menaces (SWOT en Anglais originaire de l'université Standford) et le cerveau humain apportera sa valeur au sein de du ''Big Data''. Par Sylvie T. Leduc, le 21/09/2015 à 18:12 Signaler un abus * [avatar-29.jpg] @AnonymousHuman . Dans la météo, l'évolution des variables descriptives repose sur des modèles dynamiques et déterministes ... On fixe les conditions initiales des variables (température, pression, vent, etc) à un moment donné et les formules mathématiques du modèle évaluent l'évolution des variables dans le temps. La taille des modèles (nombre de variables et d'équations mathématiques dans le modèle) est tellement monstrueuse que la résolution est approximée et la qualité des simulations se dégradent quand l'horizon de temps grandit. . Ce n'est pas la même logique que le machine learning où l'on se base sur un historique de données pour prédire l'avenir selon un % de vraisemblance. . Par exemple, vous avez une base de donnée avec 300 photos : certaines avec des chats, d'autres sans chats. Vous présentez une nouvelle photo en demandant : y-a t'il un chat sur cette nouvelle photo ? L'algorithme va regarder les photos avec chat, puis les photos sans chat et vous répondre que la nouvelle photo ressemble selon X% à une photos sans chat (0% = il y a un chat, 100% = il n'y a pas de chat, 40% = il semble qu'il y ait un chat, mais ce n'est pas sur, etc). Par snoop lenrage, le 21/09/2015 à 15:04 Signaler un abus * [avatar-30.jpg] Un système dynamique comme la prévision météo n'est pas fiable a plus de 10 jours , est c'est pour cela que les plus gros calculateurs de la planète sont mobilises sauf erreur. Ça donne une idée des limites de 'big data' en terme de prédiction. Avec une différence de taille , la météo sait quelle données collecter pour faire la prévision. Par AnonymousHuman, le 21/09/2015 à 13:43 Signaler un abus * [nophoto.jpg] Pour le "big data" comme pour toutes les technologies humaines ce qui est important c'est qu'on en fait. La découverte du fer à été très utile du point de vue de l'outillage mais terriblement nocive du point de vue de la dangerosité des armes... Il faut donc se méfier du "big data" tout particulièrement dans les possibilités qu'il offre aux pouvoirs économiques, politiques et policiers d'espionnage et de contrôle des populations. Des pare-feux législatifs doivent urgemment être mis en place, peut-être même dans les constitutions des nations. Il est par contre bien évident que cette technologie permet de nombreux progrès dans un tas de domaines et qu'il faut l'utiliser autant qu'on peut pour améliorer notre vie... sans empiéter sur notre vie privée et nos libertés individuelles ! Par Bentiens, le 21/09/2015 à 11:56 Signaler un abus * [avatar-46.jpg] Nous remercions humblement ce monsieur de nous expliquer ce que nous devons penser, bien qu'il le fasse en utilisant un jargon très classique : "On peut anticiper que ce corpus de connaissances et techniques à l’interface des mathématiques et de l’informatique, en progrès constant depuis quelques décennies, sera encore à l’origine de nombreuses innovations à fort impact sociétal, économique ou scientifique pour peu que son potentiel soit compris par un public de plus en plus large, qu’il soit maîtrisé par un nombre croissant d’ingénieurs et de cadres techniques et qu’il se confronte aux enjeux de la société moderne. " Ce n'est pas parce qu'un "corpus" de données s’agrandit qu'il est en "progrès constant" ... ce raisonnement est d'ailleurs à un moment donné , la négation même de la statistique! Encore faudrait-il que le "corpus" de données soit pertinent ( disons "exact" pour faire simple ) .. ce qui est loin d'être le cas aujourd'hui, pour une foule de raisons, entre autre le fait qu'un nombre indéfini d'utilisateurs informatique mentionnent n'importe quoi dans nombre de formulaire Internet. Par pascapple, le 21/09/2015 à 10:34 Signaler un abus * 1 * 2 * suivant › Rester connecté Découvrez l'abonnement Figaro Digital L'intégral du Figaro en numérique Créez votre compte Figaro Etudiant Partagez, contribuez et archivez * Plan du site * Mentions légales * Contactez-nous * Archives X [apb-illus.png] [apb-illus-s.png] [apb-titre.png] [apb-titre-s.png] Recevez votre invitation gratuite Je m'inscris ! [apb-date.png] XiTi