Big data : données, données, donnez-moi ! - #DATAGUEULE 15
"Il y a beaucoup de données structurées sur le Web et nous sommes »a déclaré Alon Halevy lors d'une conférence à la conférence New England Database Day au Massachusetts Institute of Technology, . Halevy se référait en partie à des sources dites« deep web »., telles que les bases de données qui se trouvent derrière des sites Web pilotés par des formulaires tels que Cars.com ou Realtor.com. Google soumet des requêtes à divers formulaires depuis un certain temps, récupérant les pages Web résultantes et les incluant dans son index de recherche si l'information semble utile.
[Plus loin: Les meilleurs services de streaming TV]
Mais l'entreprise veut analyser les données trouvées dans des tableaux structurés sur de nombreux sites Web, a déclaré Halevy, en offrant par exemple un tableau sur une page Web qui liste les présidents américains.Et il y a des ramifications de ces tables - milliard d'entre eux, selon Halevy. Il a "réalisé très rapidement que plus de 98% d'entre eux ne sont pas si intéressants", mais même après un filtrage important, il reste environ 154 millions de tables à indexer.
L'un des objectifs ultimes de Google est de fournir des résultats "d'une requête de recherche, en particulier un exploratoire comme" voyage au Vietnam ", par opposition à une requête pour un fait spécifique, comme" la population du Vietnam ", a déclaré Halevy. L'ancienne requête produirait des informations sur les exigences de visa, la météo et les voyages organisés, par exemple.
L'idée a des échos du service de recherche proposé par Kosmix, mais Google veut aller plus loin, selon Halevy. "Kosmix vous donnera un" aspect ", mais il est attaché à une source d'information", at-il dit.
Recherche de "Voyage au Vietnam" sur Kosmix donne un ensemble organisé de résultats, y compris les critiques de restaurants du New York Times, Yahoo et Flickr, les informations shopping de Shopping.com et les résultats Web généraux de Google.
"Dans notre cas, tous les aspects pourraient être simplement des résultats de recherche sur le Web, mais nous les organiserions différemment", a déclaré Halevy.
Microsoft Research développe une recherche cartographique pour les données non structurées
Microsoft Research India développe une technologie conçue pour les recherches cartographiques utilisant des données d'adresses non structurées. L'Inde a développé une technologie qui permettra aux utilisateurs de rechercher des cartes même dans des pays comme l'Inde où les adresses ne sont souvent pas structurées.
De plus en plus d'employés ignorent les politiques de sécurité des données et s'engagent dans des activités susceptibles de mettre en danger une entreprise, selon un sondage publié mercredi par le Ponemon Institute. aux lecteurs USB ou désactiver les paramètres de sécurité dans les appareils mobiles comme les ordinateurs portables, ce qui pourrait mettre en danger les données d'une entreprise, selon l'enquête. Le taux de comportements non conformes a été plus faible dans ce dernier sondage compa
Environ 69% des 967 informaticiens interrogés ont déclaré avoir copié des données confidentielles sur des clés USB , même si c'était contre les règles. Certains ont même perdu des clés USB qui stockent des données d'entreprise confidentielles, mais ne les ont pas signalées immédiatement.