Имеется страница:
http://wap4u.ru/bash/index.php?url=&fon=FFFFFF&txt=76625B&stxt=9E8379&page=1
В конце ссылки, &page=1(тут работает навигация)
На каждую страницу, выводится по 6 цитат.
Задача: Мне нужно спарсить 3000 страниц, тоесть от &page=1 до &page=3000
Как мне это реализовать?
Я систему понимаю, нам нужно в цикл for() передавать начальное значение, и конечное.
И потом в самом цикле увеличивать.
Код:
$ot=1; //страница от которой парсим |
$do=3000; //страница до которой парсим |
$dir='dir'; //папка куда сохраняем |
//////////////////// |
for($bn=$ot;$bn<$do;$bn++) |
{ |
$site = http://wap4u.ru/bash/index.php?url=&fon=FFFFFF&txt=76625B&stxt=9E8379&page=$bn; |
а вот тут что делать, не знаю |
} |
P.S.При копировнии, нужно вырезать рекламу и прочие div-классы
Для каждой цитаты, отдельный файл
<?php
set_time_limit(0);
//////настройки//////
$ot=1; //ID темы от которой парсим
$do=5; //ID темы до которой парсим
$site='http://wap4u.ru/bash/index.php?url=&fon=FFFFFF&txt=76625B&stxt=9E8379&page='; //адрес форума
$dir='txt'; //папка куда сохраняем темы
////////////////////
for($bn=$ot;$bn<$do;$bn++){
$f = file_get_contents(''.$site.''.$bn.'');
$expl = explode('<div class="text">', $f);
$f = explode('<br/> <br/>Стр.:', $expl[1]);
$text = trim(str_replace(array(' ', '"'), array(' ', '"'), $f[0]));
$ff=fopen("$dir/page_$bn.txt","w");
fwrite($ff,$text);
fclose;
}
?>
Работает.
Ещё вопрос, нужно удалить дату.
Как это сделать?
Ведь на каждой странице она разная
Отредактировано Istsam (2011.02.22 17:05)