Récupérer le contenu d’une page Web avec PHP

Dans ce billet je diffuse un script qui utilise la bibliothèque PHP « Curl ». Cette bibliothèque permet d’interagir avec une page Web distante.

Vous pouvez générer des requête POST ou GET, récupérer le code source de la page, manipuler les éléments distants….

La bibliothèque se travail en local avec un serveur Apache.

Le morceau de code ci-dessous se connecte au site Wikipedia sur la Page « Megadeth » et vous affiche le titre de la page. Il fait appel à des notions de Javascript (DOM), de PHP avec des expressions régulières.

Libre à vous de travailler ce code pour l’adapter suivant vos besoins.

<?php
//La page qu'on veut utiliser
$wikipediaURL = 'http://fr.wikipedia.org/wiki/Megadeth';

//On initialise cURL
$ch = curl_init();
//On lui transmet la variable qui contient l'URL
curl_setopt($ch, CURLOPT_URL, $wikipediaURL);
//On lui demdande de nous retourner la page
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
//On envoie un user-agent pour ne pas être considéré comme un bot malicieux
curl_setopt($ch, CURLOPT_USERAGENT, 'Le blog de Samy Dindane (www.dinduks.com');
//On exécute notre requête et met le résultat dans une variable
$resultat = curl_exec($ch);
//On ferme la connexion cURL
curl_close($ch);

//On crée un nouveau document DOMDocument
$wikipediaPage = new DOMDocument();
//On y charge le contenu qu'on a récupéré avec cURL
$wikipediaPage->loadHTML($resultat);

//On parcourt les balises <div>
foreach($wikipediaPage->getElementsByTagName('div') as $div){
//Si l'id de la page est bodyContent
if($div->getAttribute('id') == <bodyContent>){

//On met le contenu du premier dans une variable
$premierP = trim($div->getElementsByTagName('p')->item(0)->nodeValue);
//Si le premier est vide ou ne contient pas du texte
while($premierP == ' ' || $premierP == ' ' || $premierP == ''){
//On le supprime
$div->removeChild($div->getElementsByTagName('p')->item(0));
//Et on passe au suivant
$premierP = trim($div->getElementsByTagName('p')->item(0)->nodeValue);
};

//Un joli try pour éviter les messages d'erreur
try{
//On parcourt toutes les tables
foreach( $div->getElementsByTagName('table') as $table ){
//Et on les supprime
$div->removeChild($table);
}
} catch(Exception $e){
//On censure :P
}

//On récupère le contenu de la fameuse balise dans une variable
$description = '' . $div->getElementsByTagName('p')->item(0)->nodeValue. '';
}
}

//On enlève la syntaxe propre à Wikipedia
$description = preg_replace('/\[[0-9]*\][,]|\[[0-9]*\]/', '', $description);

//On affiche de résultat
echo $description;

?>

Le script présenté ci-dessus est diffusé par dinduks.com qui à fait un très bon tuto avec des exmples illustrés sur cette bibliothèque.

8 réflexions au sujet de « Récupérer le contenu d’une page Web avec PHP »

Moi dit :

25 février 2018 à 19 h 09 min

Le code est mauvais

Répondre
Serge dit :

9 décembre 2014 à 19 h 02 min

Bonjour,
j’ai essayé ton script mais je n’ai qu’une partie de la page et avec des partie en erreur 404.
En fait mon but est d’intégrer dans mon site wordpress les résultats/classements de mon équipe de basket depuis le site de la ffbb.
Peux-tu m’aider stp?

Merci infiniment.

Répondre
1. N0lek dit :
  
  10 décembre 2014 à 14 h 26 min
  
  Salut, je t’ai contacté sur ton email
  
  Cdlt
  
  Répondre
  1. najoha dit :
    
    7 septembre 2015 à 0 h 43 min
    
    Bonjour,
    Je souhaite creer un site pour mon club de basket sur wordpress et je voudrai savoir s’il est possible de recuperer les resultats /classements presents sur le site de la federation?
    Merci d’avance
    
    Répondre
  2. Kent dit :
    
    27 janvier 2016 à 19 h 01 min
    
    Salut
    
    Etant dans le même cas de figure, je suis bien curieux de savoir si vous avez trouvé une solution au problème…
    
    Répondre
    1. Rédacteur dit :
      
      28 janvier 2016 à 9 h 13 min
      
      Bonjour, l’article ci-dessus détail une procédure sur un exemple donné, théoriquement celle-ci s’applique sur tout type de site et data, je ne peux pas écrire les scripts pour tout les visiteurs.
      
      Une grande tasse de café, quelques heures à manipuler CURL et vous arriverez à parser ce que vous souhaitez !
      
      Bon courage !
      
      Répondre
Paul dit :

21 mai 2013 à 12 h 30 min

Bonjour Tinei,
j’ai déjà rencontré cette erreur quand j’ai lancé une boucle sur plusieurs sites.
Par exemple, je charge le contenu de 200 sites à la suite. Dans ce cas, il semblerait que les sockets prennent trop de retard et que le contenu n’arrive plus à être géré par le script php.

Je te conseille de débugger :

$ch = curl_init();
$timeout = 5; // set to zero for no timeout
curl_setopt ($ch, CURLOPT_URL, ‘http://ton_url’);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

$file_contents = curl_exec($ch);
//vérifie le contenu de $file_content

$html = str_get_html($file_contents);
//vérifie le contenu de $html

Répondre
Tinei dit :

20 mai 2013 à 14 h 50 min

Bonjour.
Ça ne marche pas.
Etant sur Google Chrome, quand je lance la page:

Erreur HTTP 500 (Internal Server Error) : Une situation inattendue s’est produite tandis que le serveur tentait de traiter la demande.
Cela peut être dû à une opération de maintenance ou à une configuration incorrecte.

Ce message apparaît souvent quand on a une erreur dans le php.
Peut-être y a t-il une erreur ? Pouvez-vous vérifier ?

Répondre

8 réflexions au sujet de « Récupérer le contenu d’une page Web avec PHP »

Laisser un commentaire Annuler la réponse