Actions

Siphonnage flickr

De erg

Révision datée du 24 janvier 2024 à 11:53 par Nanspoi (discussion | contributions) (Se procurer le script)

Scraping/Siphonnage du groupe "Flickr erg_brussels"

Table des matières

Plusieurs options: Premièrement, l'API semblait être une solution viable, malheureusement, pour des questions de propriété intellectuelle et autre(...), l'API Flickr ne permet pas vraiment d'extraire chacune des images d'un groupe. Ceci dit il était possible récupérer des données sur les photos en questions : FlickrAPI(Apllication Programming Interface

Comment fonctionne une API ?:

Il existe plusieurs façons d'utiliser une API, mais les trois méthodes principales sont :

   Requêtes HTTP directes : Cela implique l'envoi de requêtes HTTP directement à l'endpoint de l'API. Vous pouvez utiliser n'importe quel langage de programmation qui supporte les requêtes HTTP pour interagir avec l'API. Cependant, cette méthode nécessite une bonne compréhension des protocoles HTTP et des codes de statut.
   Utilisation d'un SDK (Kit de développement logiciel) : De nombreuses API fournissent des SDK pour des langages de programmation populaires comme Python, Java, JavaScript, etc. Ces SDK simplifient le processus de réalisation d'appels API en fournissant des fonctions et des classes préconstruites. Ils gèrent les détails de bas niveau tels que la construction des URL, la gestion des en-têtes et la gestion des réponses.
   Utilisation d'un client API : Un client API est un outil qui fournit une interface conviviale pour interagir avec une API. Ces clients disposent généralement de fonctionnalités comme l'auto-complétion, la coloration syntaxique et la documentation intégrée. Des exemples de clients API incluent Postman et Swagger UI.

( partie générée avec GPT-4 )

Pour apprendre les basics de façon plus sûre, solide.

Alors, de nombreuses données sont extraites, (description, url, user_id, group_id...) seulement, nous n'avons pas les photos, ou du moins si nous obtenons les urls, il ne s'agit que des thumbnails.

Bien heureusement, il se trouve qu'un.e internaute s'est trouvé.e dans une situation assez similaire, ce qui nous a permis de faire ce travail en un rien de temps :

Se procurer le script

Le repository

Clonez le repository, (installez git au préalable). Une fois que vous avez le repository, il vous faudra installer le contenu du fichier requirements.txt (le fichier requirements.txt donne accès aux librairies python dont vous allez avoir besoin afin de faire fonctionner le script)

Utiliser le script

Comme nous l'explique le repo, une fois que vous avez installé les librairies requises, il vous faudra créer un fichier json, nommé credentials.json, qui permettra au script de se saisir de votre API_KEY et SECRET_KEY (plus d'infos sur le repo). Maintenant que tout est en place, il vous suffit simplement de lancer le script et de lui passer les paramètres que vous souhaitez. En l'occurence, tapez dans votre terminal:

   python scraper.py --group https://www.flickr.com/groups/erg_brussells
   ^^^^^^^^^^^^^^^^^ ^^^^^^^ ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
   Lancer le script  passer le   l'url du groupe en question.
                     paramètre
                     "group" 

Pour plus d'infos sur comment lancer un script python

En théorie, les pages contenant les images sont "siphonnées", nous avons également accès aux métadonnées des images qui nous intéressent, mais rien ne nous empêche d'en rajouter, ce dans la méthode get_photos (ligne 41 du script).