Sites Internet

Un nouveau logiciel détecte les données de site Web d'éraflure

COMMENT METTRE EN CONFORMITÉ SON SITE INTERNET AVEC LE RGPD ?

COMMENT METTRE EN CONFORMITÉ SON SITE INTERNET AVEC LE RGPD ?
Anonim

Les sites Web tels que les sites d'emploi sont confrontés à un problème persistant: leurs données sont constamment dérobées par des robots automatisés.

Les données se retrouvent sur d'autres sites d'emploi concurrents qui ont volé le contenu. C'est un problème qui sévit sur n'importe quel site Web dont la propriété intellectuelle doit être publiée gratuitement, ou même avec des modèles d'abonnement.

Mais une société de sécurité basée à Atlanta spécialisée dans la détection de bots a développé un logiciel capable de détecter ces scrap

[Plus d'informations: Comment supprimer les logiciels malveillants de votre PC Windows]

Le produit principal de Pramana, HumanPresent, détecte les bots automatisés qui, par exemple, entrent des spams dans des formulaires Web ou s'enregistrent gratuitement comptes de courrier électronique à utiliser pour le spam.

Pramana a maintenant développé un module appelé «data mining and screen scraping prevention» pour HumanPresent. Selon David Crowder, PDG de Pramana, HumanPresent peut détecter les bots en notant les différences dans la façon dont un humain interagit normalement avec un Web. page et en contraste avec le comportement des robots. Il examine plus de 30 métriques, telles que les traits du clavier, les clics de souris et le calendrier de ces actions.

HumanPresent examine les transactions individuelles, mais le module d'exploration de données a été modifié pour examiner une période temporelle lorsqu'un bot ou humain est sur le site, a déclaré Crowder.

Les robots d'extraction de données ont tendance à contourner complètement l'interface utilisateur d'un navigateur. Par exemple, un bot peut demander une page Web avec beaucoup, beaucoup de données, mais ne fait jamais défiler ou clique sur une page. Si une série de pages est ouverte et visualisée de cette manière, cela pourrait signifier qu'un robot d'exploration de données est arrivé.

Pramana attribue un identifiant unique au visiteur, et après avoir analysé le comportement du visiteur, peut décider s'il doit étiqueter le visiteur un bot ou pas. Un opérateur de site Web peut alors choisir plusieurs façons de gérer la situation:

L'adresse IP (Internet Protocol) de l'ordinateur du robot peut être bloquée de façon permanente. Un site Web d'enchères de voitures qui teste le module d'exploration de données de Pramana a décidé de déplacer les robots suspects dans un "bac à sable" où des données complètement fausses sont fournies.

"Il s'agit vraiment de données erronées"

D'autres options consistent à inviter le visiteur du site Web à un défi ou à une tâche, ce que certains robots ne sont pas capables de réaliser.

L'exploration de données coûte cher aux entreprises. Les entreprises qui vendent des données premium constateront que leurs concurrents achèteront un abonnement, puis utiliseront des robots automatisés pour voler les données de leurs propres sites. Dans un exemple, un site Web qui a des gigaoctets de données sur les prix des voitures d'occasion a trouvé que leurs données avaient été grattées et étaient en vente sur eBay.

"Ils sont en concurrence avec leur propre contenu", a déclaré Crowder. Les sites Web ont des conceptions médiocres qui facilitent le raclage des données. Crowder a dit que le site de voiture d'occasion avait des URL (Uniform Resource Locators) qui pourraient être modifiées pour révéler plus de données.

Le module data-mining sera inclus dans le produit HumanPresent pour le moment, mais Pramana envisage de le vendre séparément, a déclaré Crowder. Pramana propose HumanPresent soit en tant qu'appliance sur site, soit en tant que configuration de type logiciel.

Pour l'offre SaaS (logiciel en tant que service), la technologie de Pramana est intégrée dans une application Web et les informations de session sont renvoyées à Pramana pour l'analyse. Crowder a déclaré que Pramana a été en mesure de réduire considérablement le temps de latence dans sa dernière version. Pour les clients qui ont besoin de plus de vitesse, l'appareil est disponible.