Aller au contenu

Informatique

Web scraping

gdemare/informatique

Informatique

gdemare/informatique

Home
Informatique
Untitled
SAS
SAS
- automatiser avec SAS
- Centroïdes
- Formater les données
- Manipuler les données
- Statistique
  Statistique
  - ANOVA
  - Graphique
  - Probabilité et statistique
  - Tests statistiques
  - Clustering
    Clustering
    
    CAH
    
    Centres mobiles
    
    Clustering des variables
  - Modèles
    Modèles
    
    Analyse discriminante
    
    Arbre de decision
    
    Espérance maximisation
    
    Régression linéaire
    
    Régression logistique
  - Réduction de dimensions
    Réduction de dimensions
    
    ACM
    
    ACP
    
    AFC
Bioinformatique
Bioinformatique
- Bioinformatique
- Séquences
Database
Database
- Fichier
  Fichier
  - Json
- Langage
  Langage
  - Sql
- Logiciel
  Logiciel
  - Business object
  - Talend
Logiciels et os
Logiciels et os
- OS
- Ressources web
- écran AERI
- Logiciels
  Logiciels
- Os
  Os
  - Android
  - Liens logiciel
  - Ubuntu
  - Windows
  - Liseuse
Programmation
Programmation
- Bonnes pratiques de programmation
- Git
- Java
- Unix
  Unix
- Web
  Web
  - Css
  - Html
  - Java script
  - Php
Python
Python
- Bases
  Bases
  - Dataframe
  - Formater les données
  - Python
  - Ressources
  - Tenseur
  - Divers
    Divers
    
    Cartographie
    
    Modules supplémentaires
    
    Streamlit
    
    Traitement d images
    
    Traitement du signal
    
    Web scraping Web scraping
    Table des matières
    
    Charger les library
    
    Récupérer la page
    
    Filtrer les elements
    
    Condition possible
- Bioinformatique
  Bioinformatique
  - Spectrométrie
  - Séquence
- Clustering
  Clustering
  - CAH
- Math
  Math
- Modèles
  Modèles
  - Arbre décision
  - Modèles
  - Régression
  - Réseau de neurones
    Réseau de neurones
    
    Pytorch
    
    TensorFlow
    
    Couche convulsive
- Réduction de dimensions
  Réduction de dimensions
  - ACP
R
R
- Bases
  Bases
  - PKNCA et les unités
  - R
  - Cinétique
  - Dataframe
  - Format
  - Ressources
  - Autres
    Autres
    
    Carte
    
    Diagramme
    
    Développer
    
    Rapport
    
    Tableau de bord
- Bioinformatique
  Bioinformatique
- Descriptions
  Descriptions
  - Graphiques
  - Clustering
    Clustering
    
    CAH
    
    Centres mobiles
    
    Clustering
  - Réduction de dimensions
    Réduction de dimensions
    
    ACM
    
    ACP
    
    AFC
    
    Positionnement multidimensionnel
- Mathématique
  Mathématique
  - Probabilité statistique
- Models
  Models
  - Classification
  - Prédiction
  - Préparer les données
  - Régression
  - Réseau de neurones
  - Classification
    Classification
    
    ANOVA
    
    Support Vecteur Machine
    
    Analyse discriminante
    
    Arbre de décision
    
    Classificateur baysien
    
    Forêt aléatoire
    
    Régression logistique
  - Régression
    Régression
    
    Régression linéaire
    
    Step
  - Séries temporelles
    Séries temporelles
    
    Série temporelle simple

Web scraping

Package bs4 et requests

Charger les library

import requests
from bs4 import BeautifulSoup

Récupérer la page

page = requests.get("https://www.")
soup = BeautifulSoup(page, 'html.parser')

Obtenir le code html d'une page web. Dans le cas où l'url ne se termine par pas .html ajouter page.text.

Filtrer les elements

find(filtre) trouver le premier élément. Le résultat est une variable.
findAll(filtre) ou find_all() trouver tous les éléments. Le résultat est une liste.

Condition possible

Code	Elément	Exemple
`id='id'` ou `class_='classe'`	id ou classe
`'baliseHtml'`	balise Html	`'section'`
`'baliseHtml', {'class' : 'classe'}`	balise avec la classe

Plusieurs éléments :

[element1, element2] ou
{element1, elelemt 2} unique

Example

sommaire.find('a', {'class' : 'teaser__link'}, href=True)
lien['href']

element.get_text() récupérer le contenu de la balise.