Size: a a a

2020 February 26

DO

Denis Olianiuk in Scrapy
Кирилл
Работу, вряд-ли, максимум большие заказы. Парсинг, это достаточно простое дело. Если будешь ml уметь, скорее всего, данные для тебя будут собирать другие люди с меньшим скилом
Ну простых сайтов да, а если уметь парсить сайты которые не хотят что бы их парсили тогда нет?
источник

МС

Михаил Синегубов in Scrapy
Рик Огурчик
Мне действительно интересно, что он хочет
ну, человек, в первую очередь, хочет получить ответ. Заодно определиться, можно ли расчитывать на фултайм работу в данном направлении
источник

МС

Михаил Синегубов in Scrapy
Denis Olianiuk
Ну простых сайтов да, а если уметь парсить сайты которые не хотят что бы их парсили тогда нет?
не, ну, теоретически - возможно. Практически - лично я не вижу смысла брать такого спеца (именно по scrapy) на фуллтайм. Слишком широкий круг задачь должен быть по парсингу.
но это мое мнение...
источник

R

Roma in Scrapy
вставлю 3 копейки...Парсинг не сложный процесс - но доставляет много гемороя и трудозатрат, потому компании сейчас начинают выводить парсинг на аутсорс. Проще нанять компанию которая будет парсить, проверять и складывать данные - и это стоит не дорого...70 сайтов распарсить с разной структурой стоило в районе 10K$ - и это контора из европы...Потому знать только парсинг - это маловато - ну или идти в компанию которая на этом специализируется
источник

AR

Andrey Rahmatullin in Scrapy
у нас если что открыта сейчас вакансия, https://apply.workable.com/scrapinghub/j/82B921A4F7/
источник

DO

Denis Olianiuk in Scrapy
Roma
вставлю 3 копейки...Парсинг не сложный процесс - но доставляет много гемороя и трудозатрат, потому компании сейчас начинают выводить парсинг на аутсорс. Проще нанять компанию которая будет парсить, проверять и складывать данные - и это стоит не дорого...70 сайтов распарсить с разной структурой стоило в районе 10K$ - и это контора из европы...Потому знать только парсинг - это маловато - ну или идти в компанию которая на этом специализируется
Это разовый платеж с гарантией что не будут капчи прилетать и без лимитов по запросам?
источник

R

Roma in Scrapy
Это за разработку спайдеров, саппор - отдельно оплачивается. Они ответсвенны за ежедневный апдейт данных и сохранение на S3. А что там они делают и как мониторят, это их дело.
источник

К

Кирилл in Scrapy
Если достаточно долго этим заниматься, на одних саппортах и будешь сидеть, постоянно что-то отваливаться будет
источник

DO

Denis Olianiuk in Scrapy
Ахаха
источник

R

Roma in Scrapy
Да да - саппорт спайдеров еще та боль
источник

М

Мак in Scrapy
саппорт же отдельно оплачивается, так что на эту нагрузку отдельных людей выделять можно. А если разработчику поддерживать всё, что он напишет - это вилы тогда...
источник

R

Roma in Scrapy
Да - вроде Индия помогает в этом....Не удивлюсь если и индусы писали спайдеры
источник

B

Bulatbulat48 in Scrapy
Не удивлюсь если Индия наняла русских/украинцев/.. так и живем 😀
источник

R

Roma in Scrapy
)))
источник

DO

Denis Olianiuk in Scrapy
Такой вопрос, кто знает, для селениума какие махинации стоит проделать, что бы он стал максимально похожим для сайта на обычный хром?

1. navigator.webdriver - убрать.
browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
 "source": """
   Object.defineProperty(navigator, 'webdriver', {
     get: () => undefined
   })
 """
})

2. В webdriver.exe заменить '$cdc_asdjflasutopfhvcZLmcfl_' на такую-же по длине строку но с другими символами.

3. Запускать с
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)
options.add_argument('--disable-useAutomationExtension')

4. Что еще?
источник

Р

Рик Огурчик in Scrapy
Denis Olianiuk
Такой вопрос, кто знает, для селениума какие махинации стоит проделать, что бы он стал максимально похожим для сайта на обычный хром?

1. navigator.webdriver - убрать.
browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
 "source": """
   Object.defineProperty(navigator, 'webdriver', {
     get: () => undefined
   })
 """
})

2. В webdriver.exe заменить '$cdc_asdjflasutopfhvcZLmcfl_' на такую-же по длине строку но с другими символами.

3. Запускать с
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)
options.add_argument('--disable-useAutomationExtension')

4. Что еще?
Выбрать драйвер хрома
источник

i

ildar in Scrapy
Vladyslav Babych
К примеру при запросе на
https://www.google.com/search?client=ubuntu&channel=fs&q=scrapy+shell+cut+links&ie=utf-8&oe=utf-8
запрос идёт на
https://www.google.com/search?client=ubuntu
кавычки ставь или url-percent encoding юзай
источник

i

ildar in Scrapy
а, уже ответили)
источник
2020 February 27

AO

Alexey Orloff in Scrapy
Всем привет, подскажите пожалуйста, какие таблицы базы данных должны быть для веб-сканера интернета, чтобы потом поисковую систему на ней сделать.
источник

МС

Михаил Синегубов in Scrapy
Alexey Orloff
Всем привет, подскажите пожалуйста, какие таблицы базы данных должны быть для веб-сканера интернета, чтобы потом поисковую систему на ней сделать.
хм, там может сначала надо определишся, какие таблицы нужны для того, что бы сделать поисковую систему?
и да, не обижайся, но вопрос из раздела: как сделать кнопку "красиво"
источник