Парсинг html-сайтов с помощью PHP быстрый старт

Получение HTML-документа

<?php
// Создать DOM из URL или файла
$html = file_get_html('http://www.google.com/');
 
// Находим все изображения
foreach($html->find('img') as $element) 
   echo $element->src . '<br>';
 
// Находим все ссылки 
foreach($html->find('a') as $element) 
   echo $element->href . '<br>';
?>

Модификация HTML-элементов

<?php
// Создаём DOM-объект документа из строки
$html = str_get_html
('<div id="hello">Hello</div><div id="world">World</div>');
 
$html->find('div', 1)->class = 'bar';
 
$html->find('div[id=hello]', 0)->innertext = 'foo';
 
echo $html;
/*
На выходе:
<div id="hello">foo</div>
<div id="world" class="bar">World</div>
*/
?>

Извлечение HTML-содержимого

<?php
// Выводим содержимое (без тегов) из HTML
echo file_get_html('http://www.google.com/')->plaintext;
?>

Парсим Slashdot.Org

<?php
// Создаём DOM-объект документа из URL
 $html = file_get_html('http://slashdot.org/');
 
//Находим элементы статей
foreach($html->find('div.article') as $article) {
  $item['title'] = $article->find('div.title', 0)->plaintext;
  $item['intro'] = $article->find('div.intro', 0)->plaintext;
  $item['details'] = 
  $article->find('div.details', 0)->plaintext;
  $articles[] = $item;
}
 
print_r($articles);
?>

Добавить комментарий