Дисклеймер: материал носит информационный характер и не является юридической консультацией. Ответственность и ее объем зависят от фактов (намерение, режим доступа, масштаб, ущерб, доказательства). Для конкретного кейса подключайте юриста и специалистов по ИБ/инфраструктуре.
«Положить сайт» парсером — это создать DoS-эффект (отказ в обслуживании) за счет запросов: резкий рост RPS, исчерпание CPU/RAM/DB-пула, лавина 5xx/timeout, падение конверсии и/или простой продаж. Такое случается не только из-за “злого умысла”, но и из-за банальной ошибки конфигурации: слишком много потоков, бесконечные ретраи, парсинг “дорогих” эндпоинтов (поиск/фильтры), отсутствие лимитов и стоп-условий.
Что значит «положить сайт» и почему парсер становится причиной
Типовые “механики” падения:
- Резкий рост запросов к веб-серверу и приложению → очередь запросов → timeouts
- Перегруз БД (особенно от поиска/фильтров) → блокировки/медленные запросы
- Истощение лимитов (пул соединений, лимит воркеров, лимит CPU)
- Лавина ретраев: 5xx/timeout → бот повторяет запросы → еще больше 5xx
- Медиа/файлы: скачивание изображений/архивов на высокой скорости → трафик/CDN-счет растут
Чем «нагрузочный парсинг» отличается от DDoS
- DoS-эффект: сайт “не отвечает”, но причина может быть и “неумышленной” (ошибка в скрипте, неверные настройки).
- DDoS: как правило, распределенная атака (много источников) и явная цель — отказ в обслуживании.
Юридически квалификация зависит от множества факторов, но для бизнеса результат одинаковый: простой, потери и инцидентная реакция.
Типовые сценарии, когда парсер «кладет» сайт
- Слишком высокий параллелизм (много потоков/процессов)
- Агрессивные ретраи без backoff при 5xx/timeout
- Парсинг поиска/фильтров с комбинаторикой параметров (“взрыв URL”)
- Полный обход сайта “с нуля” вместо инкрементального обновления
- Запуск в пик посещаемости (когда сайт и так на пределе)
- Несколько парсеров одновременно (разные подрядчики/задачи)
- Баг пагинации/редиректов → бесконечный цикл обхода
- Скачивание больших медиа/фидов без ограничений
- Игнорирование 429/503 (сайт просит “остановиться”, а бот давит сильнее)
- Парсинг “тяжелых” страниц без кэша на стороне ресурса
Что считается ущербом и как его фиксируют
В гражданско-правовом смысле речь обычно про убытки (реальный ущерб + упущенная выгода). В ГК РФ убытки определены как расходы/утрата имущества (реальный ущерб) и неполученные доходы (упущенная выгода).
Также применяется общий принцип: вред имуществу юрлица подлежит возмещению лицом, причинившим вред (при наличии условий ответственности).
Что обычно фиксируют (чек-лист доказательств)
- Access logs: IP/подсети/ASN, user-agent, пути (paths), timestamp, коды ответов, RPS по минутам
- Метрики инфраструктуры: CPU/RAM, DB latency, очередь запросов, saturation по воркерам/пулу соединений
- Финансовые следы: рост расходов на CDN/трафик/серверы (счета/акты)
- Бизнес-метрики: падение заказов, конверсии, выручки в период инцидента (аналитика/BI)
- Хронология: когда началось, когда остановилось, какие меры приняты
Практически важно: без логов и временной корреляции “кто положил” доказать тяжело.
Ответственность
1) Гражданско-правовая
Чаще всего спор идет в плоскости возмещения убытков/вреда: нужно показать факт вреда/убытков, причинно-следственную связь и другие условия ответственности. Опора — нормы об убытках (ст. 15 ГК) и общие основания деликтной ответственности (ст. 1064 ГК).
Если между сторонами есть договор (например, подряд на парсинг/интеграцию) — добавляется договорная ответственность и распределение рисков в условиях договора.
2) Уголовно-правовая (концептуально)
В “красной зоне” оказываются ситуации, где усматривается неправомерный доступ или иное деяние, повлекшее блокирование/копирование/модификацию информации.
- УК РФ ст. 272 описывает неправомерный доступ к охраняемой законом компьютерной информации, если он повлек, среди прочего, блокирование или копирование.
- УК РФ ст. 274 касается нарушения правил эксплуатации средств хранения/обработки/передачи компьютерной информации и сетей, повлекшего уничтожение/блокирование/модификацию/копирование и крупный ущерб.
Важно: сам факт “много запросов” еще не равен уголовной квалификации — там ключевы режим доступа, неправомерность, последствия, ущерб и фактические обстоятельства. Для оценки нужен юрист.
3) Административная и “прочие” риски
Даже когда до уголовной/крупной гражданской истории не доходит, возможны:
- блокировки/жалобы хостеру/провайдеру,
- претензии по условиям использования сайта-источника,
- репутационные потери и конфликты с контрагентами.
Кто отвечает: заказчик, исполнитель, инфраструктура
С точки зрения фактов обычно смотрят: кто контролировал запуск и кто извлекал выгоду.
- Заказчик сам запустил парсер → риски на заказчике (он субъект действий).
- Подрядчик делает парсинг “под ключ” → у подрядчика выше зона контроля (лимиты, мониторинг, stop-условия), но возможны нюансы договора и ТЗ.
- “Прокси/облака/третьи лица” → усложняет доказывание, но не отменяет вопроса: кто организовал и управлял процессом.
Как снизить риск «положить» сайт
Без “серых схем” — только то, что снижает вероятность инцидента:
- Rate limiting и лимит параллелизма (глобальный и по эндпоинтам)
- Backoff и стоп-условия при 429/5xx/timeout (не “долбить сильнее”)
- Инкрементальные обновления вместо полного обхода
- Кеширование результатов и “не ходить дважды” по одному и тому же
- Запрет/строгие лимиты на “дорогие” зоны: поиск, фильтры, сложные параметры
- Окна запуска (не в пики)
- Мониторинг + kill switch (авто-останов при росте ошибок/latency)
- Тестовый прогон на малой частоте перед масштабированием
- Если возможно — официальные выгрузки/API вместо веб-скрейпинга
Таблица: сценарий → риск → профилактика → кто контролирует
|
Сценарий |
Риск |
Профилактика |
Кто контролирует |
|
Много потоков/параллелизма |
DoS-эффект |
лимит concurrency + RPS |
Исполнитель/заказчик |
|
Ретраи без backoff |
“лавина” 5xx |
экспоненциальный backoff + стоп-условия |
Исполнитель |
|
Парсинг поиска/фильтров |
перегруз БД |
исключить/строго лимитировать |
Исполнитель |
|
Полный обход ежедневно |
лишняя нагрузка |
инкремент + дифф-обновления |
Исполнитель/заказчик |
|
Скачивание медиа |
трафик/CDN-счет |
лимиты по байтам/типам |
Исполнитель |
|
Запуск в пик |
падение под реальным трафиком |
расписание вне пиков |
Заказчик/исполнитель |
|
Бесконечная пагинация |
бесконечный цикл |
max depth + stop rules |
Исполнитель |
|
Несколько парсеров сразу |
суммарная нагрузка |
координация графиков |
Заказчик |
|
Игнорирование 429/503 |
эскалация блокировок/ошибок |
уважать коды, снижать темп |
Исполнитель |
|
Нет мониторинга |
позднее обнаружение |
алерты + kill switch |
Исполнитель |
Что делать прямо сейчас
Если вы владелец сайта и вас «кладут»
- Включить/усилить WAF / rate limits (особенно на поиск/фильтры)
- Временно ограничить “дорогие” запросы, добавить кеширование
- Сохранить логи и метрики (временные интервалы — критично)
- Быстро определить источник(и) трафика (IP/ASN/UA/paths)
- Попробовать связаться с источником трафика/провайдером (если это добросовестный сбор — часто помогает)
- Зафиксировать ущерб: расходы, простой, падение выручки/конверсии
Если вы заказчик/исполнитель парсинга и произошел инцидент
- Немедленно остановить парсер (kill switch)
- Зафиксировать конфигурацию, логи, время запуска/остановки
- Уведомить пострадавшую сторону и предложить разбор причин (это часто снижает эскалацию)
- Сделать RCA (root cause analysis): что именно перегрузило сайт
- Внедрить лимиты/stop-условия/инкремент и повторить только через тестовый прогон
Мини-кейсы
Кейс 1: “положили сайт ретраями”
Парсер получал 5xx и мгновенно повторял запросы, усугубляя перегруз. После инцидента добавили backoff, лимиты на параллелизм и стоп-условия при росте ошибок — повторов “лавиной” не стало.
Кейс 2: “поиск оказался самым дорогим”
Сбор шел через поиск с множеством фильтров → перегруз БД. Решение: исключили поиск из обхода, перешли на инкремент по листингам/карточкам и снизили частоту обновлений — сайт перестал падать.
Контактная информация:
Компания: ParsingMaster
Сайт: parsingmaster.com
Email: info@parsingmaster.com
Telegram: parsingmaster_manager
Телефон: +7 (920) 909-36-72
Заказать звонок
Чтобы заказать обратный звонок, заполните и отправьте форму ниже.
Оставляя заявку вы можете быть уверены:
От нас не будет никакого спама
Менеджер свяжется с вами в течение 30 мин.
(Рабочее время: Пн-Пт с 9:00 до 18:00 (GMT+3, Мск)
В кратчайшие сроки решим вашу задачу
Обычно “парсер” дает DoS-эффект от одного/нескольких источников. DDoS — распределенная атака. Но оценка зависит от фактов.
Зависит от того, кто запускал и контролировал процесс, и что прописано в договоре/ТЗ. На практике важны “контроль” и “управление риском”.
Логи (IP/UA/paths), временная корреляция с падением, метрики нагрузки, трассировка по CDN/WAF и (идеально) признание/переписка.
Это частый аргумент в спорах. Поэтому важны метрики “до/во время/после”, и что именно стало триггером перегруза.
Кеширование, защита поиска/фильтров, rate limiting, WAF, мониторинг и алерты — базовая гигиена для публичного веба.
Иногда — да, но “как именно” зависит от условий и применимого права. Это вопрос к юристу и судебной практике.
Остановить сбор, зафиксировать факты, собрать логи, провести RCA и отвечать через юриста (особенно если заявлен ущерб).
Бережный режим, инкремент, уважение лимитов, контроль ошибок, тестовые прогоны и предпочтение официальных выгрузок/API, если доступны.