Android

Google Researcher cible les données structurées du Web

Big data : données, données, donnez-moi ! - #DATAGUEULE 15

Big data : données, données, donnez-moi ! - #DATAGUEULE 15
Anonim

"Il y a beaucoup de données structurées sur le Web et nous sommes »a déclaré Alon Halevy lors d'une conférence à la conférence New England Database Day au Massachusetts Institute of Technology, . Halevy se référait en partie à des sources dites« deep web »., telles que les bases de données qui se trouvent derrière des sites Web pilotés par des formulaires tels que Cars.com ou Realtor.com. Google soumet des requêtes à divers formulaires depuis un certain temps, récupérant les pages Web résultantes et les incluant dans son index de recherche si l'information semble utile.

[Plus loin: Les meilleurs services de streaming TV]

Mais l'entreprise veut analyser les données trouvées dans des tableaux structurés sur de nombreux sites Web, a déclaré Halevy, en offrant par exemple un tableau sur une page Web qui liste les présidents américains.

Et il y a des ramifications de ces tables - milliard d'entre eux, selon Halevy. Il a "réalisé très rapidement que plus de 98% d'entre eux ne sont pas si intéressants", mais même après un filtrage important, il reste environ 154 millions de tables à indexer.

L'un des objectifs ultimes de Google est de fournir des résultats "d'une requête de recherche, en particulier un exploratoire comme" voyage au Vietnam ", par opposition à une requête pour un fait spécifique, comme" la population du Vietnam ", a déclaré Halevy. L'ancienne requête produirait des informations sur les exigences de visa, la météo et les voyages organisés, par exemple.

L'idée a des échos du service de recherche proposé par Kosmix, mais Google veut aller plus loin, selon Halevy. "Kosmix vous donnera un" aspect ", mais il est attaché à une source d'information", at-il dit.

Recherche de "Voyage au Vietnam" sur Kosmix donne un ensemble organisé de résultats, y compris les critiques de restaurants du New York Times, Yahoo et Flickr, les informations shopping de Shopping.com et les résultats Web généraux de Google.

"Dans notre cas, tous les aspects pourraient être simplement des résultats de recherche sur le Web, mais nous les organiserions différemment", a déclaré Halevy.