Web scraping
Package bs4
et requests
Charger les library
import requests
from bs4 import BeautifulSoup
Récupérer la page
page = requests.get("https://www.")
soup = BeautifulSoup(page, 'html.parser')
Obtenir le code html d'une page web. Dans le cas où l'url ne se termine par pas .html ajouter page.text
.
Filtrer les elements
find(filtre)
trouver le premier élément. Le résultat est une variable.findAll(filtre)
oufind_all()
trouver tous les éléments. Le résultat est une liste.
Condition possible
Code | Elément | Exemple |
---|---|---|
id='id' ou class_='classe' |
id ou classe | |
'baliseHtml' |
balise Html | 'section' |
'baliseHtml', {'class' : 'classe'} |
balise avec la classe |
Plusieurs éléments :
[element1, element2]
ou{element1, elelemt 2}
unique
Example
sommaire.find('a', {'class' : 'teaser__link'}, href=True)
lien['href']
element.get_text()
récupérer le contenu de la balise.