Size: a a a

2018 October 12

DM

Dmitry Mishunin | HashEx in DeСenter Dev
Артемий Владимиров
Народ, подскажите один технический момент, если кто в курсе.
У меня задача чекнуть 100к доменов на предмет определенных паттернов на их главных страницах (то есть запрашиваю курлом HTML с сайта, проверяю его на паттерны, записываю в лог, и следующий домен).
Взял сервак с гигабитным каналом, оперативки 10 гигов, процессор двухядерный, в общем ресурсов хватает.
Запустил свой чекер в 500 потоков на данном сервере (т.е. по 500 одновременных коннектов к сайтам).
Все стабильно работало несколько дней, после чего через 3 дня начали сыпаться ошибки, что DNS резолвер отвалился, т.е. к доменам нельзя было обратиться по доменному имени, и даже на сервере банальные проверки типа wget google[.]com или curl google[.]com отвечали, что не могут отрезолвить домен.
Я уточняю у хостера, в чем беда, хостер сообщает, что у них некие сетевые лимиты к портам DNS (53|993), то есть, типа в процессе работы скриптов накапливаются UDP подключения по DNS портам, которые получают resolve информацию, и типа перегружаются запросами, и перестают работать.

Кто нибудь может мне ламеру объяснить, что это за ограничения такие, и как их можно выявить перед покупкой сервера? К примеру, если буду выбирать сервак без этого гемороя, чтобы быть уверенным, что никаких подобных ограничений не будет.
Буду признателен, если кто подскажет, из за чего на сервере такая беда происходит, и можно ли её в рамках текущего сервера побороть, или надо покупать более мощный, или какой то по особенному сконфигурированный.
ты просто досишь интернеты, за что ловишь банан. любой нормальный хостер это делает. поставь себе днс кеш и юзай его
источник

DM

Dmitry Mishunin | HashEx in DeСenter Dev
а он спокойно закешит себе корневую зону
источник

DM

Dmitry Mishunin | HashEx in DeСenter Dev
ну либо поставь себе задержку на резолвы :) чтобы не превышать лимит
источник

АВ

Артемий Владимиров in DeСenter Dev
Dmitry Mishunin | HashEx
ты просто досишь интернеты, за что ловишь банан. любой нормальный хостер это делает. поставь себе днс кеш и юзай его
Благодарю. Есть ли мануал какой, где пошагово описано как это сделать?
источник

АВ

Артемий Владимиров in DeСenter Dev
Dmitry Mishunin | HashEx
ты просто досишь интернеты, за что ловишь банан. любой нормальный хостер это делает. поставь себе днс кеш и юзай его
и ещё момент, у хостеров стоит бан именно на резолв, а на сами коннекты они ограничений не ставят чтоли?
источник

АВ

Артемий Владимиров in DeСenter Dev
Щас как бы не получилось так, что решу проблему с резолвингом, а потом и по айпи адресам не достучусь до сайтов.
К сожалению не могу нагуглить схожие проблемы у людей, такое ощущение складывается, что это ограничение какого то конкретного хостера :( При многопоточном парсинге\чекинге по идее люди должны бы сталкиваться с аналогичными проблемами на своих впсках, если такое используется повсемесно.
источник

I

Igor_ds in DeСenter Dev
Не легче ли будет использовать десяток дешевых серваков, просто побив лист доменов на части? Тем самым от доброй половины проблем с каналом, ядром и ограничениями провайдера избавишься.
источник

АВ

Артемий Владимиров in DeСenter Dev
Igor_ds
Не легче ли будет использовать десяток дешевых серваков, просто побив лист доменов на части? Тем самым от доброй половины проблем с каналом, ядром и ограничениями провайдера избавишься.
я не хочу всё усложнять.
источник

АВ

Артемий Владимиров in DeСenter Dev
предполагаю, что есть варианты более безгеморные, чем сотня впсок в пару потоков.
Хостер утверждает, что это некие лимиты в самой операционной системе, в частности у меня убунта.
источник

I

Igor_ds in DeСenter Dev
Зачем? Самый простой сервак держит 30 потоков http запросов ( держит больше, 30 пик без тюнинга ядра)
источник

I

Igor_ds in DeСenter Dev
Пик производительности, разумеется. Зависит от реализации, конечно...
источник

АВ

Артемий Владимиров in DeСenter Dev
хз... мне кажется я на выходе получу куда больший геморой, чем разобраться, почему у меня отваливается всё на сервере. Ведь пару дней стабильно работает же, не валится... значит где то есть нюанс кторый я пока не могу найти.
а как другие ребята поступают, которым нужно парсить или чекать большое количество данных?
источник

АВ

Артемий Владимиров in DeСenter Dev
для парсинга множества сайтов куча впсок априори не подойдут, так как за парсинг летят абузы, их можно решить в частном порядке с одним хостером, но не с кучей разных.
источник

I

Igor_ds in DeСenter Dev
А тебе один провайдер и нужен, только впски разные.
Я на аналогичной примерно задаче пришёл к многим впискам просто посчитав пик производительности по количеству потоков. И не ширина канала оказалось бутылочным горлышком.
источник

J

John in DeСenter Dev
Артемий Владимиров
для парсинга множества сайтов куча впсок априори не подойдут, так как за парсинг летят абузы, их можно решить в частном порядке с одним хостером, но не с кучей разных.
тебе этот список сайтов нужно разово проверить или постоянно сканировать?
источник

АВ

Артемий Владимиров in DeСenter Dev
John
тебе этот список сайтов нужно разово проверить или постоянно сканировать?
разово.
источник

J

John in DeСenter Dev
так может банально сохранять результаты и регулярно, например раз в сутки, перезапускать сервер?
источник

АВ

Артемий Владимиров in DeСenter Dev
John
так может банально сохранять результаты и регулярно, например раз в сутки, перезапускать сервер?
да, в целом была такая идея, 1 раз в сутки или на 10-30 минут тормозить, или да, ребутать сервак...
источник

AS

Aleksandr Svistov in DeСenter Dev
Ребят небольшой соц опрос. Вы бы хотели слушать радио онлайн или FM с тематиками по блокчейн технологиям и различными новостями
источник

N

Nikolay in DeСenter Dev
Aleksandr Svistov
Hyperledger

Corda

Apla

Exonum

Universa

Quorum

Под какую платформу пилятся смарт контрактры
имхо, EOS еще подходит, для бизнеса запускаешь свою приватную сеть и вперед
источник