Car-tech

Google: 129 millions de livres différents ont été publiés

What we learned from 5 million books

What we learned from 5 million books
Anonim

Pour ceux qui se sont déjà demandés combien de livres différents existent dans le monde, Google a une réponse pour vous: 129 864 880, selon Leonid Taycher, un ingénieur logiciel Google qui travaille sur le projet Google Books.

Estimation du nombre La publication de livres dans le monde est plus qu'un simple exercice de curiosité pour le géant de la recherche: il fournit également une feuille de route de certains des travaux qui restent à accomplir pour atteindre l'objectif ambitieux de l'entreprise d'organiser toute l'information mondiale. vous faites partie d'une entreprise qui essaie de numériser tous les livres du monde, la première question que vous vous posez souvent est: «Combien de livres y a-t-il?», a expliqué Taycher dans un article annonçant l'estimation. > [Lectures supplémentaires: Les meilleurs services de streaming TV]

Pour arriver à une approximation raisonnable, l'entreprise a commencé par ingérer des informations de livres à partir de plusieurs systèmes de catalogage, tels que les ISBN (International Standard Book Numbers).

Ces catalogues, quoique utiles, ne fournissent pas un décompte définitif, toutefois. Par exemple, les ISBN n'ont été attribués aux livres que depuis les années 1960 et ont tendance à n'être utilisés que dans les pays occidentaux.

Plusieurs livres ont été attribués à des numéros ISBN individuels, et les éditeurs ont attribué des ISBN à des articles autres que des livres. Tels que des t-shirts et des DVD.

Les ingénieurs de Google ont donc des programmes écrits pour traiter environ 150 de ces catalogues et répertoires, et éliminer autant de doublons que possible.

L'entreprise devait également faire un certain nombre de

Par exemple, les éditions à couverture souple et à couverture rigide d'un texte sont comptées comme deux livres, comme le sont les nombreuses versions différentes d'un texte populaire, comme celui de Shakespeare. "Hamlet", en raison des avant-propos et des commentaires qu'ils peuvent contenir. En juin, la société a scanné 12 millions de livres, selon une présentation donnée par Jon Orwant, directeur technique de Google Books, à la conférence technique annuelle USENIX à Boston. Ces livres ont été écrits dans environ 480 langues (dont 3 livres dans la langue Klingon originaire de Star Trek).

La société prévoit d'achever la numérisation des livres existants en une décennie. La collection virtuelle qui en résultera sera composée de quatre milliards de pages et de deux milliards de mots, a dit Orwant.

Environ 20% des livres du monde sont dans le domaine public, a expliqué Orwant. Environ 10 à 15% de ces livres sont imprimés. Les livres restants - la grande majorité de tous les titres - sont toujours sous copyright mais épuisés. Google est en train d'emprunter des copies de ces livres afin de les numériser, à partir d'environ 40 grandes bibliothèques à travers le monde.

C'est cet acte de numériser des livres qui sont épuisés mais toujours couverts par le droit d'auteur qui a été respecté Avec une certaine résistance de la part de l'industrie de l'édition.

La société attend maintenant un jugement de la Cour de District des États-Unis pour le District Sud de New York, pour savoir si elle peut scanner ces livres. l'Association of American Publishers a déposé séparément des recours collectifs contre le géant de la recherche, affirmant que l'entreprise enfreint les droits d'auteur de l'auteur en scannant les livres.

Google a prétendu vouloir vendre des copies numériques de ces documents. imprimer des livres, et réserver des redevances pour les auteurs à réclamer.

. Une fois que tous ces volumes ont été numérisés, leur contenu peut être soumis à analyse, ce qui peut conduire à de nouvelles idées. Les linguistes peuvent découvrir quand certains mots se sont répandus ou ont commencé à utiliser ces mots.

Le Google Recherche de Livres pourrait également aider à répondre à des questions historiques exceptionnelles: par exemple, il pourrait informer le débat sur Isaac Newton et Gottfried Leibniz - ou quelqu'un d'autre - entièrement inventé le calcul.

"Nous pouvons rechercher non seulement un phrase mais pour un concept ", a expliqué Orwant. "Nous pouvons prendre toutes les différentes façons [que l'idée de] l'infini peut être infléchie, traduire cela en différentes langues, et faire une recherche en parallèle."

"Mon espoir est que nous commençons à exposer beaucoup plus de

Juan Carlos Perez, rédacteur en chef d'IDG News Service, a contribué à ce rapport.

Joab Jackson couvre les logiciels d'entreprise et des nouvelles générales de dernière technologie pour

The IDG News Service

. Suivez Joab sur Twitter à @Joab_Jackson. L'adresse e-mail de Joab est [email protected]