Большинство современных веб-администраторов знают, что их данные, скорее всего, будут парситься конкурентами, которые хотят понять, как работает их бизнес. Поэтому они используют инструменты для автоматического бана подозрительных запросов пользователей, например, нескольких запросов, поступающих с одного IP-адреса. Некоторые веб-серверы могут даже показывать неверную информацию при обнаружении подозрительных пользовательских агентов.
К счастью, вы можете использовать HTTP-заголовки для минимизации шансов быть забаненным. Например, вы можете манипулировать и создавать различные строки заголовков User-Agent, чтобы создать впечатление, что вы являетесь несколькими органическими пользователями, а не веб-скрейпером. В частности, вы можете назначить каждому «пользователю» разные браузеры, чтобы создать впечатление, что запросы поступают из разных браузеров на разных компьютерах. Пример: один пользователь использует Mozilla Firefox на macOS Catalina 10.15.4, а другой — Chrome на Microsoft Windows 10.
Аналогичным образом можно использовать заголовок запроса Referer — который показывает, на каком сайте находился пользователь до перехода на целевой сайт — для минимизации шансов быть заблокированным. Веб-сайты часто блокируют пользователей, которые напрямую переходят на их сайт, поскольку они, скорее всего, являются ботами. Соответственно, вы можете сделать процесс веб-скрейпинга более «человечным», направив заголовок Referer на случайный сайт, например,
https://www.google.com