WWW2012 : Le web anti-social
Ce workshop présentait le travail lié à la détection du spam, que ce soit sur les réseaux sociaux, dans les commentaires ou d'autres publications en ligne.
Cet article fait partie d’un groupe d’articles liés à la conférence mondiale du web www2012 à laquelle nous avons assisté du 16 au 20 avril. Plus d’informations ici.
Nous avons par exemple pu avoir quelques explications de la part de Kyumin Lee qui travaille à la détection du spam sur Twitter, sur les trending topics notamment. Avec ses techniques, il parvient à avoir un pourcentage de spam sur un mot-clé particulier et cela bien avant Twitter lui-même. Nous vous invitons à découvrir plus en détail son travail via ce PDF.
La qualité du domaine est liée à la qualité lexicale et au choix de langage (espagnol et anglais majoritairement).
Le meilleur moyen d’évaluer un contenu web est de de se baser sur des informations factuelles. Il y a 3 approches d’évaluation différentes pour évaluer un contenu web :
- Utiliser des statistiques pour déterminer la qualité. Par exemple, les articles mis en avant sur Wikipedia sont plus longs que les autres et contiennent plus de faits.
- Déterminer le nombre de relations entre articles. Plus il y a d’éditeurs, plus la densité factuelle est importante.
- Compter le nombre d’occurrences d’un mot permet aussi d’évaluer le nombre de faits dans un article.
La cartographie et le web :
Plus la cartographie est déformée et les échelles modifiées, moins la précision est bonne et moins l’évaluation de la position est efficace. Nous passons donc sur une carte virtuelle améliorée qui laisse plus d’espace entre les éléments.
L’OCR est utilisé pour reconnaître les éléments d’une carte. Les erreurs sont ensuite corrigée et la position déterminée sur une carte physique. Les valeurs de position sont ensuite extraites et, après un repositionnement virtuel, l’espace est recrée. Cette méthode n’est pas encore totalement efficace mais propose toujours une amélioration, ce qui n’est pas négligeable en terme de lisibilité.