title
Description
Body
грабить через прокси. но это тоже не очень хороший выход, т.к. прокси мрут очень быстро. а главное сейчас многие из них не поддерживают некоторых методов передачи данных, что делает их практически не пригодными для использования. подробнее об этом можно почитать, например, на topgen.net
Неактивен
|
|
Неактивен
А это наподобие скрипта "Анонимный прокси"?
Неактивен
Там где пишешь то, что грабить, пишешь:
// URL который нужно получить
$who = $_GET['who'];
curl_setopt($curl, CURLOPT_URL, $who);
Как то так по моему.
Добавлено спустя 1 минуту 6 секунд:
Gemorroj, чет типа такого?
Неактивен
Gemorroj, a подскажи, вроде по тeмe, UA, вот если в гpaбe будeт прописaнo, вместо headers.="opera..., где-нибудь выше $ua_user=htmlspecialchars($_SERVER['USER_AGENT']);, a вмeсто оpera $ua_user, вот и в кaждом грaбe тaк..
Добавлено спустя 3 минуты 35 секунд:
Нe кaк это нe влияет, или жe всё-тaки, лучшe $ua _user, кaк мнe кaжeтся...
Неактивен
htmlspecialchars в данном случае не нужен. какой юзер агент ты отправишь, это твое личное дело. я, как правило, использую $_SERVER['USER_AGENT']
Неактивен
У меня сдесь ошивка пишет што не правильно?
$header[] ='Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5';
Его же ставить в php да то у меня gmanager пишет ошыбку в 3 строке.
Отправ мне пожалуйста на електронку в файле.
Gemoroj вышли пожалуйста tlens@list.ru
Поудалял все теги сеперь работает только примерно после 40 загрузок с одого прокси появляется ето
You are trying to use a node of the CoDeeN CDN Network. Your IP address is not recognized as a valid PlanetLab address, so your request rate is being limited.
То ище голова и два уха не теги а пробелы.
Можна както сделать штоб использовать один прохи как минимум 1000 раз? А то их не хватит.
Я придумал такую систему думаю ты поймеш зачем мне так много прохи
<?php
$c=file_get_contents("code.txt");
$p=explode("|",$c);
$p[0]++;
if($p[0]=="AA")
{$p[1]++;}
if($p[1]=="AA")
{$p[2]++;}
if($p[2]=="AA")
{$p[3]++;}
if($p[3]=="AA")
{$p[4]++;}
if($p[4]=="AA")
{$p[5]++;}
for ($u=0; $u<99; $u++){$t.=$p[$u].'|';}
$t=str_replace('10','a',$t);
$t=str_replace('aa','A',$t);
$t=str_replace('AA','0',$t);
?>
A прокси брал на топген.нет
Их там не такуж и много для того штоб выбрасувать не выжав из них махимум.
Воще ето реально ипользовать 1 прох на очень много раз?
Я думал ты догадаешся для чего оно предназначеннo
Если его надо соединять с curl_setopt($curl, CURLOPT_URL, '...=$pas&');
Но на многих сайсах например вап.мотор вантуза стоит кол запросов с одного ип.
Вот надо потключать курл. А так как надо скрипт запускать как минимум 1000000000 раз. Я думал на него ставить до 100 задачь крона через минуту + выполнение скрипта бесконечн.
Но прохи всего 1000 и после сорока использований &get='то што писал выше';
Как ето предотвратить?
У тибя есть искю просто штоб не писать задачами?
если тебе нужно что-то добавить в "'...=$pas&'", то такого крокодила изобретать не нужно. я честно говоря не понимаю в чем проблема. банят IP? следовательно нужно больше IP'ов.
Неактивен
Ладно забудь.
Как вставить реферер. Тоисть подменить адререс с которого загружалась страница? Как в накрутчике.
Всмысле ну получаю тем способом што ты выложил выше. Через курл.
|
|
Неактивен
Ну возьми и передай его. Как обычный элемент формы.
ну возьми и передай его как обычный элемент формы.
Вы пытаетесь использовать узел в CoDeeN CDN Сети. Хотя пребывания заголовке обычно необязательно для HTTP, в какой это необходимо для CoDeeN. Кроме того, численное хостов не разрешены. Просьба добавить этот заголовок, и попробуйте еще раз.
You are trying to use a node of the CoDeeN CDN Network. While the Host header is generally optional for HTTP, it is required for CoDeeN. Furthermore, numerical hostnames are not allowed. Please add this header and try again.
Помогите с заголовками.
Неактивен
Блин не все работает. Папки начало забирать а переменные пишет тоже самое.
index.php?papka/ischo_odna/
работает нармально. Но если по такой ссылке итти
index.php?papka/ischo_odna/?pages=1
светит то што написал выше.
Помогите пожалуйста курл использую как написано в етой теме толко закинул все в функцию. И обращаюсь так $file=curl_file($url.''.$_SERVER['QUERY_STRING'],$referer,$agent,$proxy);
Незнаю какие еще заголовки писать.
Неактивен
Да нет ето не мешает я писал и в ручную ('http://...'.$_SERVER...,
Добавлено спустя 9 минут 12 секунд:
А што самое главное скачал грабер jimm.im гемороя работает с проксями нармально заменяю переменную линк на http://visavi.net и хост на visavi.net. 3 раза обновляю и светит ето сообщение. Чо за фигня в голову не лезит.
Неактивен
Наконецто до тестировался дело втом штоб использовать порта 8080 и еще много какие нужно получить доверие.
Например порт 3124 разрешает соединение. Да вот толко прохю с портом 3124 можна использовать не больше 50 раз и после етого уже никогда им не воспользуешся. А их не так уж и много штоб сделать грабер с подменой прокся. Вывод 1: отличный грабер на проксях написать не получится. Или я ошибаюсь?
Неактивен
есть некоторое количество проксей, которое позволяет пользоваться ими бесконечно, ну или пока сервера их не здохут. но таких мало. а в целом да, если используются прокси, то граббер получится крайне не надежым. пришлось почувствовать на собственном опыте)
Неактивен
У меня еще вопросик можно ли скачать страницу где метод пост,
например как засветить первый вариант через курл што туда вставить?
|
|
Неактивен
Што за ошибка и как исправить?
CURLOPT_FOLLOWLOCATION cannot be activated when in safe_mode or an open_basedir is set in /home/a6801323/public_html/downloads/view.php on line 29
Отредактировано TLENS (2009.09.02 00:37)
Неактивен
|
|
Неактивен
http://snippy.ru/snippet/1239-yemulirue … n-php.html
Если честно, не сталкивался с таким еще.
Так же следи чтобы в заголовок Host попал именно хост на который отправляется запрос (без http:// и без любых других параметров).
Неактивен
Блин ето нето оно светит линк который граблю а не лок.
Вот што нужно сделать штоб засветить с другого хоста $url. Помогите пожалуйста очень надо
|
|
Неактивен
Сори лок ето локация а нободи выводит заголовки с который можна извлечь и адрес локации и 200,301,302 другого способа я не смог извлечь с емулятора который на адресе выше.
Неактивен
NOBODY убирает тело страницы. А заголовки показывает CURLOPT_HEADER
Если тебе нужны заголовки, то присмотрись к функции get_headers
Неактивен
Я так понял из прочитаных мануалов для етого понадобится
($curl, CURLOPT_COOKIEFILE, $netscаpe);
но как составить нетскапе? туда надо писать путь к сокет?
Как его взять?
Неактивен
Геморой помоги разобратся с етими функциями
curlopt_cookiefile
curlopt_cookiejar
curlopt_cookie
Добавлено спустя 6 минут 59 секунд:
|
|
__________________
|
|
Отредактировано TLENS (2009.09.21 01:37)
Неактивен
Получилось
|
|
Неактивен
A возможно что есть у когото есче такой ип и он несможт тоже заходить? Возможна вот бан па юзер агенту и па паследним двум цифрам айпи?
Неактивен
Привет всем вот мы очень долгое время обсуждали вопрос как обойти забаненный ip.
И взялись за curl но дошли высновка што ето не реально написать хароший граб с помощу вставки прохя в курл. Но есть еще одна идея но я не могу ее реализовать изза недостатка знаний.
наверное все знают
Вырезано
страница оставалась в своем исходнм расположении только уже на другом сервере. Импортировал на свой забаненный фанком хост етим кодом.
|
|
Страница отразилась.
Но php дает проблемы:
1) над выводом переменной $f нельзя больше ничего выводить.
2) сканирование не показало ничего из кода фанка. Тоисть вырезать/заменить уже вопрос.
Может эту идею можна реализовать с помощу какогонибуть открытого языка програмирование например C++,perl,javascript,css и тому подобное в чем я не разбираюсь? Или есть еще возможность через php?
Отредактировано TLENS (2009.10.22 05:47)
Неактивен
Есть еще вопрос мож проще будет выполнить с помощу интерпретатора посути моих знаний выполняет код браузер а не транслятор тоисть если например взять яваскрипт он может скачать страницу браузером в переменную и обработать как php ну например выполнить операции как preg_replace() echo() file_get_contents() и тому подобное?
Неактивен
Все сделал там проста с фрейма надо брать сессия а я парился почему постоянно дает ети фреймы теперь и вырезать мозна и все такое.
В целях безопастности етой идеи вырезал ее описание. Кому надо пишите в приват.
Неактивен
Помогите пожалуйста подключится к серверу опера мини.
Слышал что многие подключали браузеры.
Сервер: http://server.operamini.com:80/
Код авторизации: p09-13.39e8338f7f8bc6f385d5b83878c68e7cbcb430ebdb9df233969562f2f7d3c32k.-
По поисковику поисковику понял что
Имя: 39e8338f7f8bc6f385d5b83878c68e7cbcb430ebdb9df233969562f2f7d3c32k
а пароль: 13
Как ето всунуть в curl?
Неактивен
тут нужно знать спецификацию протокола, через который работает опера мини. почти наверняка тут не HTTP. а просто передать данные BASIC авторизации можно через конастанту CURLOPT_USERPWD
curl_setopt($ch, CURLOPT_USERPWD, 'login:pasword');
Неактивен
Gemoroj ты можеш обяснить подробнее? я в етом воще не шарю.
Вощем мне нужен ip етого сервера.
Писал так
|
|
Неактивен
ты не сможешь использовать сервера оперы мини, потому что не знаешь спецификацию их протокола. CURLPROXY_HTTP - ЭТО НЕ HTTP. Даже проверять не буду, потому как HTTP вменяемые люди использовать не стали бы.
Неактивен