WWW2012 : La messagerie et le web des données
Cet article fait partie d'un groupe d'articles liés à la conférence mondiale du web www2012 à laquelle nous avons assisté du 16 au 20 avril.
Le lundi après-midi, nous avons pu assister à une conférence présentée par Romain Vuillemot, Michal Laclavik et Vitor Carvalho au sujet de la messagerie et du web des données.
Il nous a été expliqué que des algorithmes peuvent être utilisés afin de récupérer puis trier les données obtenues depuis les réseaux sociaux. Il s’agit principalement de l’adresse mail, du nom et du prénom ainsi que de la localisation de l’utilisateur. Par la suite, ces données peuvent être liées les unes aux autres avec notamment les relations d’amitié, de lieu… de quoi se constituer une bonne base de données assez rapidement et plutôt facilement.
De la même manière, d’autres algorithmes peuvent être créés afin de filtrer le contenu des e-mails d’une entreprise. Cela pourrait être utilisé afin de rechercher des mots-clés et en faire une synthèse via laquelle il serait possible d’évaluer le ressenti d’une entreprise.
Mieux encore, il serait possible de suivre les communications (en interne) des employés, ou les pièces jointes.
Toutes ces démonstrations ont été vraiment impressionnantes, mais laissez nous vous donner quelques chiffres ! Des chercheurs ont réussi, pour une base de données de 517 377 e-mails (2,5 Go), à récupérer, après numérisation et indexation, les données suivantes : 167 613 personnes détectées, 26 013 numéros de téléphones, 4 997 adresses, 162 754 adresses mails supplémentaires.
Cette expérience est à mettre en relation avec la déclaration de Tim Berners Lee qui indiquait “qu’il suffit de faire une analyse en profondeur des paquets qui transitent sur votre connexion et toute information intéressante peut-être trouvée.”