TLENS » 2014.03.01 00:59

Решил написать очередной велосипед те расширение для php но хотел бы узнать мало ли может он уже существует.
В общем задача такова нужно получить данные с нескольких url по http но при этом что бы получение данных происходило одновременно со всех url а не по очередности.
так как PHP процедурный и блокирует сокеты.
Рою в React но что то пока что глухо в основном везде работа с сервером

TLENS » 2014.03.01 04:08

В общем разобрался я с react. Довольно таки не плохая библиотека. Жаль что я раньше не узнал что php может работать с неблокирующими сокетами. Да и вообще удивительно что он может работать с ними на низком уровне.
Замутил такую функцию.

Код:

1
span style="color: #0000BB"><?phprequire '../vendor/autoload.php';function getLinks($links) { $results_data = array(); $async_func = array(); $loop = React\EventLoop\Factory::create(); $dnsResolverFactory = new React\Dns\Resolver\Factory(); $dnsResolver = $dnsResolverFactory->createCached('127.0.0.1', $loop); $factory = new React\HttpClient\Factory(); $client = $factory->create($loop, $dnsResolver); foreach ($links as $k=>$link) { $request = $client->request('GET', $link['url']); $request->on('response', function ($response) use (&$results_data, $k, &$links) { $data = ''; $response->on('data', function ($d) use (&$data) { $data .= $d; }); $response->on('end', function () use (&$data, &$results_data, $k, &$links) { $results_data[$k] = ( isset($links[$k]['callback']) && function_exists($links[$k]['callback']) ) ? $links[$k]['callback']($data) : $data; }); }); $request->end(); } $loop->run(); return $results_data; }function parsingYoutube($data, $error = null) { return 'this youtube parser. Length data ' . strlen($data);}function parsingGoogle($data, $error = null) { return 'this google parser. Length data ' . strlen($data);}$links = array();$links[] = array('url'=> 'http://www.youtube.com', 'callback'=> @parsingYoutube);$links[] = array('url'=> 'http://www.google.com.ua', 'callback'=> @parsingGoogle);//$links[] = array('url'=> 'http://wapinet.ru/forum/');$t = microtime(true);var_dump(getLinks($links));echo microtime(true) - $t;

Результаты довольно таки не плохие

Показать/Скрыть
array(2) {
  [1]=>
  string(37) "this google parser. Length data 11524"
  [0]=>
  string(39) "this youtube parser. Length data 219009"
}
0.35132312774658

Завтра уже усовершенствую ее. А сейчас спать охота

Gemorroj » 2014.03.01 10:54

а чем нативный curl_multi_* не подошел?

TLENS » 2014.03.01 16:25

Gemorroj написал:

а чем нативный curl_multi_* не подошел?

спасибо.

TLENS » 2014.03.02 05:32

Gemorroj curl_multi по результатам моих тестов во много раз медленнее чем напрямую работать с сокетами

Код:

1
span style="color: #0000BB"><?php$t = microtime(true);$mh = curl_multi_init();$ch = array();for ($i = 0; $i < 1000; $i++) { $ch[$i] = curl_init(); // устанавливаем URL и другие соответствующие опции curl_setopt($ch[$i], CURLOPT_URL, "http://www.youtube.com/"); curl_setopt($ch[$i], CURLOPT_HEADER, 0); curl_setopt($ch[$i], CURLOPT_RETURNTRANSFER, true); curl_multi_add_handle($mh, $ch[$i]);}$active = null;//запускаем дескрипторыdo { curl_multi_exec($mh, $running); curl_multi_select($mh);} while ($running > 0);//закрываем дескрипторыforeach ($ch as $i=>$v) { curl_multi_remove_handle($mh, $ch[$i]);}curl_multi_close($mh);echo "curl_multi: " . (($t2 = microtime(true)) - $t)."\n";$sockets = array();$results = array();$results = array();for ($i = 0; $i < 1000; $i++) { $results[$i] = ''; $errors[$i] = ''; $sockets[$i] = socket_create(AF_INET, SOCK_STREAM, 0); socket_set_nonblock($sockets[$i]); @socket_connect($sockets[$i], 'www.youtube.com', 80);}$error = $write = $sockets;$read = array();do { $e = $error; $w = $write; $r = $read; if (sizeof($r) == 0 && sizeof($w) == 0) break; if (($select = socket_select($r, $w, $e = null, 0)) < 0) { //echo 'continue'."\n"; continue; } //echo "read: " . sizeof($r) . ', write: ' . sizeof($w) . "\t\t"; foreach ($w as $k=>$sock) { socket_write($sockets[$k], "GET / HTTP/1.0\nHost: www.youtube.com\nConnection: close\n\n"); $read[$k] = $sockets[$k]; unset($write[$k]); } foreach ($r as $k=>$sock) { $buff = socket_read($sockets[$k], 10240); if ($buff !== false) { if ($buff) $results[$k] .= $buff; else unset($read[$k]); } else { socket_close($sockets[$k]); unset($sockets[$k], $write[$k], $read[$k]); } } /* foreach ($error as $k=>$sock) { $errors[$k] = socket_strerror($sockets[$k]); socket_close($sockets[$k]); unset($sockets[$k], $write[$k], $read[$k]); } * */}while(true);echo "socket: " . (microtime(true) - $t2) . "\n";echo "\n";?>

Показать/Скрыть
root@cs12621:/home/www# php test.php
curl_multi: 6.0599839687347
socket: 4.1367900371552

root@cs12621:/home/www# php test.php
curl_multi: 6.2453439235687
socket: 4.0472211837769

root@cs12621:/home/www# php test.php
curl_multi: 6.112576007843
socket: 4.0291259288788

TLENS » 2014.03.02 05:42

Вот только столкнулся со следующей проблемой. Понятия не имею как работать с tls соединениями. Можно было бы использовать stream_socket_client но тут проблема с блокировкой сокета. Почему то не хочет сниматься блокировка с сокетов. Пробовал так

Код:

1
lt;? $sockets[$i] = stream_socket_client('ssl://www.youtube.com:443', $error, $errorstr, 1, STREAM_CLIENT_ASYNC_CONNECT, $context); stream_set_blocking($sockets[$i], 1);
TLENS » 2014.03.02 18:13

Короче я тут крутил крутил. И обратил внимание что используя ssl/tls протокол подключение значительно затягивается во времени раза в сто. Возможно что stream_socket_client используя ssl игнорирует параметр STREAM_CLIENT_ASYNC_CONNECT блокирует сокет пока не составит подпись только после делает его неблокирующим и возвращает управление.
Что то я нигде не найду примеры для эмуляции tls соединения на обычном сокете. А ввесь протокол перечитывать реально впадло.
Паша ты случаем не знаком с этим протоколом, как мне подготовить сокет для работы по ssl?

Желательно бы решить задачу с ssl так как api.vk.com работает через ssl а вот если отказаться от него то появляются новые проблемы нужно каждый запрос к вк подписывать. Это в принципе не проблема но все же хотел разобраться с защищенным соединением
Добавлено спустя   9 минут  16 секунд:
В общем если не разберусь буду юзать сурл для ssl

Gemorroj » 2014.03.02 18:35

TLENS, нет, я не работал с сокетами на таком уровне. Я бы не заморачивался и использовал CURL =)

TLENS » 2014.03.03 18:43

Gemorroj написал:

TLENS, нет, я не работал с сокетами на таком уровне. Я бы не заморачивался и использовал CURL =)

Ну да я все таки решил взяться за курл и не морочить себе мозги. А на будущее найму человека что бы переписал функцию под сокеты)

TLENS » 2014.03.07 06:10

В общем запилил себе такой класс. Удобно работать.

Код:

1
span style="color: #0000BB"><?phpnamespace Loader;require_once __DIR__ . '/_Link.php';require_once __DIR__ . '/_IP.php';/* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. *//** * Description of Multi * * @author Dmitriy Bondarenko <TLENS at tlens.ru> */class Multi { //put your code here private $_timeout; private $_length = 0; /** @var array */ private $_links = array(); private $_callback = array(); private $_ch = array(); private $_chm; public function __construct($timeout = 10) { $this->_chm = curl_multi_init(); $this->_timeout = $timeout; $this->_length = 0; } public function addLink(\Loader\Link $link, $callback = null) { $this->_links[$this->_length] = $link; $this->_callback[$this->_length] = $callback; $this->_ch[$this->_length] = curl_init((string)$link); curl_setopt($this->_ch[$this->_length], CURLOPT_HEADER, false); curl_setopt($this->_ch[$this->_length], CURLOPT_RETURNTRANSFER, true); curl_setopt($this->_ch[$this->_length], CURLOPT_TIMEOUT, $this->_timeout); if (\Loader\IP::V6 == $link->getIp()->type()) curl_setopt($this->_ch[$this->_length], CURLOPT_IPRESOLVE, CURL_IPRESOLVE_V6); if ((string)$link->getIp()) curl_setopt($this->_ch[$this->_length], CURLOPT_INTERFACE, (string)$link->getIp()); switch ($link->scheme()) { case 'https': curl_setopt($this->_ch[$this->_length], CURLOPT_PORT, $link->port() ? $link->port() : '443'); curl_setopt($this->_ch[$this->_length], CURLOPT_SSL_VERIFYPEER, 0); curl_setopt($this->_ch[$this->_length], CURLOPT_SSL_VERIFYHOST, 0); break; case 'http': curl_setopt($this->_ch[$this->_length], CURLOPT_PORT, $link->port() ? $link->port() : '80'); break; default : break; } curl_multi_add_handle($this->_chm, $this->_ch[$this->_length]); $this->_length++; } public function run () { $rh = null; do { curl_multi_exec($this->_chm, $rh); curl_multi_select($this->_chm); } while ($rh > 0); $results = array(); for ($i = 0; $i < $this->_length; $i++) { $results[$i] = $this->_links[$i]->parser( curl_multi_getcontent($this->_ch[$i]), curl_getinfo($this->_ch[$i]), curl_error($this->_ch[$i])); if (gettype($this->_callback[$i]) == 'object') $this->_callback[$i]($results[$i]); } return $results; } }?>

Воспроизводится что то вроде этого.

Код:

1
span style="color: #0000BB"><?php$list = new Video\Search($query, 0, 20);$loader = new \Loader\Multi();$youtube_search_url = \Video\Youtube::getLinkSearch($query);$youtube_link = new \Loader\Link($youtube_search_url, null, \Video\Youtube::parseSearchData());$loader->addLink($youtube_link, function ($data) use (&$list) { $list->addList($data);});$vkontakte_search_url = \Video\Vkontakte::getLinkSearch($query);$vkontakte_link = new \Loader\Link($vkontakte_search_url, null, \Video\Vkontakte::parseSearchData());$loader->addLink($vkontakte_link, function ($data) use (&$list) { $list->addList($data);});$loader->run();$list->init();
Gemorroj » 2014.03.07 11:42

TLENS, а почему use не пользуешься, а пишешь неймспейсы постоянно?
P.S. код закрыт в целом?

TLENS » 2014.03.08 14:26

Gemorroj написал:

а почему use не пользуешься, а пишешь неймспейсы постоянно?

Ну данный вызов класса находится в глобальной области. По этому и не юзал пространство. Да и вообще привычка не юзать прастранства. Видимо опасаюсь несовместимости.

Gemorroj написал:

код закрыт в целом?

Вообще то не планировал целый проект в публику выносить по соображениям безопасности. Но пока месть он то и не готов, только только формируется архитектура сайта. Потом может и сверкну гитхабом но только в приватном доступе.

TLENS » 2014.05.21 20:55

TLENS написал:

В общем запилил себе такой класс. Удобно работать.

Код:

1
span style="color: #0000BB"><?phpnamespace Loader;require_once __DIR__ . '/_Link.php';require_once __DIR__ . '/_IP.php';/* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. *//** * Description of Multi * * @author Dmitriy Bondarenko <TLENS at tlens.ru> */class Multi { //put your code here private $_timeout; private $_length = 0; /** @var array */ private $_links = array(); private $_callback = array(); private $_ch = array(); private $_chm; public function __construct($timeout = 10) { $this->_chm = curl_multi_init(); $this->_timeout = $timeout; $this->_length = 0; } public function addLink(\Loader\Link $link, $callback = null) { $this->_links[$this->_length] = $link; $this->_callback[$this->_length] = $callback; $this->_ch[$this->_length] = curl_init((string)$link); curl_setopt($this->_ch[$this->_length], CURLOPT_HEADER, false); curl_setopt($this->_ch[$this->_length], CURLOPT_RETURNTRANSFER, true); curl_setopt($this->_ch[$this->_length], CURLOPT_TIMEOUT, $this->_timeout); if (\Loader\IP::V6 == $link->getIp()->type()) curl_setopt($this->_ch[$this->_length], CURLOPT_IPRESOLVE, CURL_IPRESOLVE_V6); if ((string)$link->getIp()) curl_setopt($this->_ch[$this->_length], CURLOPT_INTERFACE, (string)$link->getIp()); switch ($link->scheme()) { case 'https': curl_setopt($this->_ch[$this->_length], CURLOPT_PORT, $link->port() ? $link->port() : '443'); curl_setopt($this->_ch[$this->_length], CURLOPT_SSL_VERIFYPEER, 0); curl_setopt($this->_ch[$this->_length], CURLOPT_SSL_VERIFYHOST, 0); break; case 'http': curl_setopt($this->_ch[$this->_length], CURLOPT_PORT, $link->port() ? $link->port() : '80'); break; default : break; } curl_multi_add_handle($this->_chm, $this->_ch[$this->_length]); $this->_length++; } public function run () { $rh = null; do { curl_multi_exec($this->_chm, $rh); curl_multi_select($this->_chm); } while ($rh > 0); $results = array(); for ($i = 0; $i < $this->_length; $i++) { $results[$i] = $this->_links[$i]->parser( curl_multi_getcontent($this->_ch[$i]), curl_getinfo($this->_ch[$i]), curl_error($this->_ch[$i])); if (gettype($this->_callback[$i]) == 'object') $this->_callback[$i]($results[$i]); } return $results; } }?>

Внес некоторые критические обновления в класс. На другой машине метод run() ни разу не выполнился быстрее чем за 1 сек. в логах как правило ~1.001. Пришлось подправить пару строк начиная с 99ой

Код:

1
span style="color: #0000BB"><?php/* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. *//** * Description of CurlMulti * * @author Dmitriy Bondarenko <TLENS at tlens.ru> */class CurlMulti { //put your code here /** @var int */ private $_timeout; private $_length = 0; /** @var array */ private $_links = array(); /** @var array */ private $_callback = array(); /** @var array */ private $_ch = array(); private $_chm; public function __construct($timeout = 10) { $this->_chm = curl_multi_init(); $this->_timeout = $timeout; $this->_length = 0; } public function addLink($link, $callback = null) { if (is_array($link)) { foreach ($link as $k=>$v) { $this->addLink($v, $callback); } return; } $this->_links[$this->_length] = $link; $this->_callback[$this->_length] = $callback; $this->_ch[$this->_length] = curl_init($link.''); curl_setopt($this->_ch[$this->_length], CURLOPT_HEADER, false); curl_setopt($this->_ch[$this->_length], CURLOPT_RETURNTRANSFER, true); curl_setopt($this->_ch[$this->_length], CURLOPT_TIMEOUT, $this->_timeout); curl_setopt($this->_ch[$this->_length], CURLOPT_ENCODING ,""); if (IP::V6 == $link->getIp()->type()) curl_setopt($this->_ch[$this->_length], CURLOPT_IPRESOLVE, CURL_IPRESOLVE_V6); if ((string)$link->getIp()) curl_setopt($this->_ch[$this->_length], CURLOPT_INTERFACE, (string)$link->getIp()); switch ($link->scheme()) { case 'https': curl_setopt($this->_ch[$this->_length], CURLOPT_PORT, $link->port() ? $link->port() : '443'); curl_setopt($this->_ch[$this->_length], CURLOPT_SSL_VERIFYPEER, 0); curl_setopt($this->_ch[$this->_length], CURLOPT_SSL_VERIFYHOST, 0); break; case 'http': curl_setopt($this->_ch[$this->_length], CURLOPT_PORT, $link->port() ? $link->port() : '80'); break; default : break; } curl_multi_add_handle($this->_chm, $this->_ch[$this->_length]); $this->_length++; } public function __destruct() { foreach($this->_ch as $i=>$ch) { curl_multi_remove_handle($this->_chm, $this->_ch[$i]); } curl_multi_close($this->_chm); } public function run () { $rh = null; /* do { curl_multi_exec($this->_chm, $rh); curl_multi_select($this->_chm); } while ($rh > 0); */ $active = null; do { $mrc = curl_multi_exec($this->_chm, $active); } while ($mrc == CURLM_CALL_MULTI_PERFORM); while ($active && $mrc == CURLM_OK) { if (curl_multi_select($this->_chm) != -1) { do { $mrc = curl_multi_exec($this->_chm, $active); } while ($mrc == CURLM_CALL_MULTI_PERFORM); } } $results = array(); for ($i = 0; $i < $this->_length; $i++) { $results[$i] = curl_multi_getcontent($this->_ch[$i]); if (gettype($this->_callback[$i]) == 'object') $this->_callback[$i]( $results[$i], curl_getinfo($this->_ch[$i]), curl_error($this->_ch[$i])); } $this->clear(); return $results; } public function clear() { //... }}?>
TLENS » 2014.05.21 21:26

Кстати только что допилил интересный класс для работы.
Теперь загружать данные можно просто как через file_get_contents но переданная ссылка добавляется в стек и начинает асинхронно загружаться вместе со всем стеком только тогда когда какие то данные понадобятся.
Используется он так:

Код:

1
span style="color: #0000BB"><?php$mt = microtime(true);$data = new RemoteData('http://localhost');$data2 = new RemoteData('http://www.youtube.com');$data3 = new RemoteData('http://www.google.com');echo (($mt2 = microtime(true)) - $mt) . PHP_EOL; // 0.00035echo 'length $data: '. strlen($data) . PHP_EOL; // length $data: 3015echo 'length $data2: '. strlen($data2) . PHP_EOL; // length $data2: 234054echo 'length $data3: '. strlen($data3) . PHP_EOL; // length $data3: 48216echo (($mt3 = microtime(true)) - $mt2) . PHP_EOL; // 0.57928

ну и собственно сам класс)

Код:

1
span style="color: #0000BB"><?php/* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. *//** * Description of RemoteData * * @author Dmitriy Bondarenko <TLENS at tlens.ru> */class RemoteData { static protected $_stack; static protected function load() { if (!(sizeof(self::$_stack) > 0)) return 0; $counter = 0; $loader = new CurlMulti(); foreach (self::$_stack as $k=>&$handle) { $loader->addLink($handle->_link, function ($data, $info, $error) use (&$handle) { $handle->_data = $data; $handle->_info = $info; $handle->_error = $error; }); $counter++; unset(self::$_stack[$k]); } $loader->run(); return $counter; } protected $_link = null; protected $_data = null; protected $_info = null; protected $_error = null; public function __construct($url, $eth = null) { $this->_link = new Link($url, $eth); self::$_stack[] = $this; } public function getData() { if (!$this->init()) return null; return $this->_data; } public function getInfo() { if (!$this->init()) return null; return $this->_info; } public function getError() { if (!$this->init()) return null; return $this->_error; } private function init() { return !($this->_info === null && self::load() < 1); } public function __toString() { return (string)$this->getData(); } }?>
Gemorroj » 2014.05.22 12:48

а класс Link где?
мне кажется архитектура была бы более правильной если бы использование выглядело как-то так:

Код:

1
span style="color: #0000BB"><?php$processor = new RemoteData();$processor->add('http://example.com');$processor->add('http://wapinet.ru');$processor->load();
TLENS » 2014.05.22 15:08

Ну собственно архитектура так и выглядит в классе CurlMulti.
А здесь используется агрегирование т.е. RemotData создан для упрощенного использования класса CurlMulti

Код:

1
span style="color: #0000BB"><?php/* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. *//** * Description of _Link * * @author Dmitriy Bondarenko <TLENS at tlens.ru> */class Link { /** @var string */ private $_url; /** @var IP */ private $_bind; /** @var string */ private $_scheme; /** @var int */ private $_port; public function __construct($url, IP $bind = null) { $this->_url = $url; if (!$bind) $this->_bind = new IP(); else $this->_bind = $bind; $purl = parse_url($url); $this->_scheme = @$purl['scheme']; $this->_port = @$purl['port']; } public function __toString() { return $this->_url; } /** @return IP */ public function getIp() { return $this->_bind; } public function scheme() { return $this->_scheme; } public function port() { return $this->_port; }}?>

Код:

1
span style="color: #0000BB"><?php/* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in the editor. *//** * Description of IP * * @author Dmitriy Bondarenko <TLENS at tlens.ru> */class IP { const V6 = 6; const V4 = 4; private $_type; private $_ip; public function __construct($ip = null) { switch ($ip) { case static::V6: case static::V4: $this->_type = $ip; $this->_ip = static::randIp($ip); break; default : if (false !== strpos($ip, ':')) { if ($ip = filter_var($ip, FILTER_VALIDATE_IP, FILTER_FLAG_IPV6)) { $this->_type = static::V6; $this->_ip = $ip; break; } } elseif (false !== strpos($ip, '.')) { if ($ip = filter_var($ip, FILTER_VALIDATE_IP, FILTER_FLAG_IPV4)) { $this->_type = static::V4; $this->_ip = $ip; break; } } case null: $this->_type = static::V4; $this->_ip = static::randIp(static::V4); break; } } static private function randIp($type) { return ''; } public function type() { return $this->_type; } public function ip() { return $this->_ip; } public function __toString() { return $this->ip(); }}?>

И да слово "правильная" архитектура относительное.
Как тебе вообще такая архитектура?

Код:

1
span style="color: #0000BB"><?phpclass Videos implements ArrayAccess { // ... public function moduleGet($keyMod) { if ($this->moduleExists($keyMod)) return $this->_Modules[$keyMod]; else throw new Exception("Cannot module \"$keyMod\""); } //--------------------------- MAGIC METHODS ------------------------------// public function __get($keyMod) { return $this->getModuleKey($keyMod); } public function offsetGet($keyMod) { return $this->moduleGet($keyMod); } public function offsetExists($keyMod) { return $this->moduleExists($keyMod); } public function offsetUnset($keyMod) { throw new Exception('Cannot "Unset" to this object'); } public function offsetSet($offset, $value) { throw new Exception('Cannot be "Set" to this object'); } public function moduleExists ($keyMod) { return isset($this->_Modules[$keyMod]); } }

Можно еще имплементировать от итераторов почему бы и нет. Но мне как то не по приколу этим страдать. Но рахитектура получается довольно таки гибкой и интересной.

TLENS » 2014.05.26 04:13

Какая то каша получилась у меня. В ходе работы оказалось что он не совсем то и универсальный. В общем переписал все. Закрыл конструктор сделал класс синглтоном. И теперь курлмульти принимает не url а курловские дескрипторы (Разумеется добавил метод  addUrl для дефолтной загрузки) так же отказался от Link и Ip. Еще добавил полезную штуку что бы функция добавления дескриптора возвращала ссылку на ячейку стека куда запишется результат каллбека типо:
$result =& CurlMulti::getInstance()->addUrl('http://example.com', $callback, $callbackError);
В ходе работы с ним заточу данный класс и может на гитхаб закину если будет время.

TLENS » 2014.05.26 21:43

И опять столкнулся с проблемой. Нельзя добавлять линки на загрузку из каллбека))

Gemorroj » 2014.05.26 23:32

подробнее?

TLENS » 2014.05.27 15:27

Да это проблема в архитектуре стек нужно переделать Просто у меня метод exec после исполнение всех callback функций закрывает все дескрипторы и очищает стеки. И если из каллбека я добавлю в стек какой то дескриптор. То мой мусорщик подумает что он уже загружен и тут же закроет и удалит его. Вместо переделывание класса из-за лени сделал костыль и обошелся без добавления ссылок на загрузку из каллбека. (Пишу что то вроде поискового паука те собираю данные с разных ресурсов)