#big data


Abonnez-vous
| | radar

Pourquoi il faut relativiser les prédictions de la science des données

Image d'illsutration | Marcin Ignac/Creative Commons via Flicrk

Faut-il avaler sans sourciller toutes les prédictions de la science des données, ce nouvel oracle du numérique? Non, selon Andrea Jones-Rooy, professeure de data science à l’Université de New York, dans une tribune publiée par Quartz. Elle rappelle que les données ne sont qu’un énième outil façonné par l’homme, et qu’elles n’existent que parce qu’on a bien voulu les collecter, à l’exclusion de tout le reste. Autrement dit, les données, à elles seules, ne veulent rien dire, en dehors du cadre où il a été prévu de les exploiter.

Pourquoi c’est important. De plus en plus de voix s’élèvent contre les biais des algorithmes, qui résultent de choix parfois inconscients réalisés pendant leur développement. La chercheuse rappelle ainsi les quatre principales typologies d’erreurs pouvant être introduites dans les données: l’erreur aléatoire, l’erreur systématique, l’erreur dans le choix de ce qu’on mesure, et enfin l’erreur d’exclusion, qui provient de populations délibérément ignorées dans le choix des données.

link

Lire l'article sur le site de Quartz (EN)

| | news

Les données des restaurants sur Internet servent à prédire les facteurs socio-économiques d'un quartier

Les données en ligne des restaurants pourraient permettre d'estimer les facteurs socio-économique d'un quartier d'après une équipe du MIT | Yinan Chen, Pixabay

Les données en ligne des restaurants seraient suffisantes pour déterminer les facteurs socio-économiques du quartier dans lesquels ils se trouvent, d’après une équipe du MIT de Boston, qui a testé cette approche sur des grandes villes chinoises.

Pourquoi c’est intéressant. Les données démographiques et économiques, ainsi que les habitudes de consommation des habitants, sont des informations de plus en plus recherchées dans le cadre du développement urbain, notamment pour les projets de smart city. À Toronto par exemple, le groupe frère de Google, Sidewalk, déploie une myriade de capteurs pour obtenir ces précieuses données. Il y aurait donc plus simple, selon les chercheurs du Massuchusetts Institute of Technology (MIT), qui publient leur étude dans PNAS.

| | radar

A Los Angeles, les ratés de la police qui devait prévoir le crime à partir des big data

Des figurines sur des composants informatiques (image d'illustration) | Creative Commons

Prédire la criminalité future à partir de la criminalité passée, à l’aune des techniques de big data: plusieurs polices s’y sont essayées aux Etats-Unis, notamment à Los Angeles. Les expérimentations sont cependant loin de fournir les résultats escomptés, raconte le magazine californien Government Technology.

Pourquoi c’est délicat. L’idée d’une police prédictive capable de prévoir l’avenir à partir des statistiques passées les plus détaillées possibles semble séduisante de prime abord. Pourtant, elle a un énorme défaut: elle considère qu’un résultat passé va nécessairement se répéter. Ces technologies reproduisent aussi les biais, furent-ils inconscients, de leurs créateurs, ce qui implique de redoubler de prudence dans leur évaluation et leur utilisation.

link

Lire l'article dans Government Technology (EN)