#1 2011.08.08 11:20

alina
Участник
Зарегистрирован: 2011.03.10
Сообщений: 13
Карма: 0
Профиль

Помощь по грабберу

Здраствуйте,может поможет ктото разобратся?пишу свой первый граббер с сайта cyka.name     граббер практически готов ,но никак неудается вырезать некоторые элементы со страницы вроде все перепробовала чтото никак........а именно это ссылка "НА Главную"    и   "ВНИМАНИЕ (!)
» Перед просмотром все читаем соглашение сайта."

Подскажите как вырезать стандартные методы вроде некатят

Неактивен

#2 2011.08.08 11:41

Gemorroj
Administrator
Откуда: Белоруссия
Зарегистрирован: 2007.11.03
Сообщений: 6594
Карма: 107
Профиль Веб-сайт

Re: Помощь по грабберу

что такое "стандартные методы"?
не стоит учиться по статьям типа "как написать граббер за 5 минут".
P.S. там по-моему даже банальный str_replace подходит.

Неактивен

#3 2011.08.08 11:47

alina
Участник
Зарегистрирован: 2011.03.10
Сообщений: 13
Карма: 0
Профиль

Re: Помощь по грабберу

нет str_replace  невырезает или у меня руки  не из того места ...

Неактивен

#4 2011.08.08 13:18

Nu3oN
Moderator
Откуда: БелгородЭ
Зарегистрирован: 2010.04.28
Сообщений: 805
Карма: 11
Профиль Веб-сайт

Re: Помощь по грабберу

Посмотри в какой кодировке скрипт парсера? если ansi то смени на utf8...


Я буду лучше голоден, но между креслом и рулем и на дороге.

Неактивен

#5 2011.08.08 13:23

Gemorroj
Administrator
Откуда: Белоруссия
Зарегистрирован: 2007.11.03
Сообщений: 6594
Карма: 107
Профиль Веб-сайт

Re: Помощь по грабберу

alina, выкладывай скрипт, будем все вместе смотреть smile

Неактивен

#6 2011.08.08 13:47

alina
Участник
Зарегистрирован: 2011.03.10
Сообщений: 13
Карма: 0
Профиль

Re: Помощь по грабберу

Код:

1
span style="color: #0000BB"><?phpsession_name('SessionID'); session_start();$host= "cyka.name"; $path="/xxx/?".$_SERVER ['QUERY_STRING'];$fp=fsockopen($host,80,$errno, $errstr,10);if(!$fp) { echo "$errstr ($errno)<br/>\n"; }else{$data = "";$post=0; foreach($_POST as $key=>$value){$post=1; $data.="&$key=$value";} if($data)$data=substr ($data,1);if($post) $headers = "POST $path HTTP/1.0\r\n";else$headers = "GET $path HTTP/1.0\r\n"; $headers.= "Host: $host\r\n";$headers.= "Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif,image/x-bitmap, */*;q=0.1\r\n";$headers.= "Accept-Charset: utf-8;q=0.6 windows-1251;q=0.1*;q=0.1\r\n";$headers.= "Accept-Encoding: utf-8\r\n";$headers.= "Accept-Language: ru, en;q=0.9\r\n";$headers.= "User-Agent: ".$_SERVER ['HTTP_USER_AGENT']."\r\n";if($post){ $headers.= "Content-type: application/x-www-form-urlencoded\r\n";$headers.= "Content-Length: ".strlen ($data)."\r\n";$headers.= "\r\n"; $headers.= $data;}else $headers.="\r\n";@fwrite($fp, $headers); while($file != "\r\n") $file = @fgets($fp, 128);$file = ''; while(!feof($fp)) $file.= @fgets($fp, 4096); @fclose($fp); }##########################################################################################################$file=preg_replace('|<!DOCTYPE(.*?)<body>|is','',$file);$file=str_replace('/xxx/index.php?mode=get','http://cyka.name/xxx/index.php?mode=get', $file);//////////////////////////////////// Реклама ////////////////////////////////////////////////////////////$file=str_replace('<b>© cyka.name - 2o1o</b>','', $file);$file=preg_replace('|<a href="http:\/\/cyka\.name">|is','<a href="./index.php">',$file);/////////////////////////////////// Счетчики ////////////////////////////////////////////////////////////$file=str_replace('<a href="http://gigatop.net/in.php?17485"><img src="http://gigatop.net/c.php?17485" alt="sex"/></a>','', $file);$file=str_replace('<a href="http://o5top.ru/in.php?4389"><img src="http://o5top.ru/img.php?4389-small" alt="sex"/></a>','', $file);$file=str_replace('<a href="http://topwap.us/click.php?1351"><img src="http://topwap.us/image.php?1351,small" alt="sex"/></a>','', $file);$file=str_replace('<a href="http://wap-list.mobi/453.in"><img src="http://wap-list.mobi/453.top" alt="sex"/></a>','', $file);$file=str_replace('<a href="http://imtop.ru/11712/in/"><img src="http://imtop.ru/11712/small.png" alt="sex"/></a>','', $file);$file=str_replace('<a href="http://waplog.net/c.shtml?355753"><img src="http://c.waplog.net/355753.cnt" alt="sex"/></a>','', $file);echo $file?>

вот ..............

Неактивен

#7 2011.08.08 14:16

Nu3oN
Moderator
Откуда: БелгородЭ
Зарегистрирован: 2010.04.28
Сообщений: 805
Карма: 11
Профиль Веб-сайт

Re: Помощь по грабберу

добавив после $file=preg_replace('|<!DOCTYPE(.*?)<body>|is','',$file); эту строку:

Код:

1
span style="color: #0000BB"><?php $file = str_replace('<div class="r"><b>ВНИМАНИЕ (!)</b></div>', null, $file); ?>

Все спокойно обрезало!


Я буду лучше голоден, но между креслом и рулем и на дороге.

Неактивен

#8 2011.08.08 14:17

alina
Участник
Зарегистрирован: 2011.03.10
Сообщений: 13
Карма: 0
Профиль

Re: Помощь по грабберу

а остальное??
Добавлено спустя   3 минуты  20 секунд:
незнаю у меня почему то без изменений

Неактивен

#9 2011.08.08 14:22

Gemorroj
Administrator
Откуда: Белоруссия
Зарегистрирован: 2007.11.03
Сообщений: 6594
Карма: 107
Профиль Веб-сайт

Re: Помощь по грабберу

Код:

1
span style="color: #0000BB"><?php$file = preg_replace('/<div class="r">.*\.<br\/><\/div>/sU', '', $file);

Неактивен

#10 2011.08.08 14:33

alina
Участник
Зарегистрирован: 2011.03.10
Сообщений: 13
Карма: 0
Профиль

Re: Помощь по грабберу

и точно это была кодировка.............я то мучалась полдня почти поверила в сверхестественное..............всем спасибо )))))

Неактивен

Дополнительно

forum.wapinet.ru

PunBB Mod v0.6.2
0.014 s