Материал носит информационный характер и не является юридической консультацией. Итоговая оценка зависит от источника, данных, цели, способа доступа и договоров. В 2026 году на вопрос “законен ли парсинг?” по-прежнему нельзя честно ответить одним словом.

Парсинг сам по себе — не отдельный “запрещенный институт”. Это технический способ получать данные. Риски появляются в четырех точках: какие данные вы берете, откуда и как получаете доступ, что потом с ними делаете, и не вредите ли источнику нагрузкой. Для бизнеса в 2026 году особенно чувствительны три зоны: персональные данные, права на контент/базы данных и обход ограничений доступа. Отдельно выросла цена ошибки по 152-ФЗ: с 30 мая 2025 года КоАП ужесточил штрафы и добавил новые специальные составы.

Термины простыми словами

Парсинг / скрапинг — автоматизированный сбор данных со страниц, документов или API. Краулинг — обход страниц/ссылок для их обнаружения. Публичная страница — страница, доступная без входа в аккаунт, но это еще не означает “можно использовать как угодно”. Ограниченный доступ — кабинеты, закрытые разделы, API-ключи, CAPTCHA, иные технические барьеры. Сбор — получение данных; обработка — более широкое понятие, которое по 152-ФЗ включает сбор, запись, хранение, извлечение, использование, передачу, обезличивание, удаление и уничтожение. Публикация/распространение — отдельный уровень риска, особенно для чужого контента и персональных данных.

Коммерческое использование почти всегда повышает требования к аккуратности. Когда данные превращаются в сервис, каталог, лидогенерацию, ML-датасет или публичный продукт, резко возрастают вопросы к правовому основанию, качеству лицензирования контента, соблюдению условий ресурса и доказуемости вашего “бережного режима”.

Какие законы и режимы чаще всего включаются

Персональные данные

152-ФЗ определяет персональные данные как любую информацию, относящуюся к прямо или косвенно определенному физлицу. Там же “обработка” описана максимально широко: от сбора и хранения до передачи и уничтожения. Закон требует, чтобы обработка была законной и справедливой, ограничивалась конкретными, заранее определенными и законными целями, а объем данных не был избыточным по отношению к этим целям.

Критическая развилка для парсинга такая: если вы собираете контакты, профили, ФИО, отзывы с идентификаторами, документы с данными физлиц — вы очень быстро переходите из “технического сбора” в полноценную обработку ПДн. А значит, могут включаться обязанности оператора, уведомление РКН до начала обработки, регламенты хранения, ответы субъектам и правила на случай инцидентов.

КоАП и ужесточение штрафов

С 30 мая 2025 года ответственность за нарушения в сфере ПДн заметно выросла. Консультант указывает, что для бизнеса появились, в частности, штрафы 100–300 тыс. руб. за нарушение обязанности уведомить о намерении обрабатывать ПДн и 1–3 млн руб. за нарушение обязанности уведомить об утечке; эти составы отражены в действующей ст. 13.11 КоАП РФ. В 2026 году это уже “новая нормальность”, а не переходный период.

Неправомерный доступ

Если история уходит в обход ограничений доступа, картина меняется радикально. Ст. 272 УК РФ говорит не о “парсинге вообще”, а о неправомерном доступе к охраняемой законом компьютерной информации, если такой доступ повлек, среди прочего, уничтожение, блокирование, модификацию или копирование информации. Поэтому сценарии с обходом авторизации, CAPTCHA, антибота, закрытых кабинетов — уже не “серый маркетинг”, а красная зона.

Авторское право и базы данных

ГК РФ охраняет произведения, включая тексты и фотографические произведения. Размещение чужих описаний и фото у себя на сайте или маркетплейсе — это уже не “сбор”, а использование произведения, в том числе через доведение до всеобщего сведения. За нарушение исключительного права правообладатель может требовать компенсацию; ст. 1301 ГК РФ предусматривает, в частности, вариант компенсации от 10 тыс. до 10 млн руб.

Отдельно ГК защищает права изготовителя базы данных. Статья 1334 говорит, что нельзя без разрешения извлекать материалы из базы данных и затем использовать их, если речь идет о переносе всего содержания или существенной части материалов. Поэтому даже когда вы не копируете “творческий текст”, массовое вытягивание крупного каталога или реестра может иметь самостоятельный риск.

Terms и режим доступа

Условия использования сайта — не “уголовная статья”, но игнорировать их опасно. Они влияют на гражданско-правовые и операционные риски: блокировки, претензии, отключение кабинета, отказ в доступе. Например, в условиях hh.ru прямо запрещены программные средства, имитирующие работу пользователя, и автоматизированный сбор и структурирование информации с помощью парсинга/скрапинга; для интеграций отдельно указывается API.

Госресурсы и открытые данные

С публичной информацией госорганов логика тоньше, чем “если сайт государственный — значит можно все”. 8-ФЗ регулирует доступ к информации о деятельности госорганов, а официальный Портал открытых данных РФ описывает открытые данные как общедоступные данные, которые может использовать и публиковать любой желающий. То есть open data и официальные выгрузки — это обычно самая безопасная дорожка. Но это не отменяет проверки на ПДн, формат использования и режим доступа конкретного ресурса.

Зеленая, желтая и красная зона

Зеленая зона

Сюда чаще всего попадают: цены, наличие, характеристики товаров, публичные рыночные факты, расписания, открытые датасеты, официальные API, open data, а также бережный сбор без обхода ограничений. Если вы берете факты, а не чужой творческий контент; не трогаете личные кабинеты; не забираете ПДн; уважаете лимиты и используете инкрементальные обновления — это обычно самый безопасный сценарий.

Желтая зона

Здесь находятся: отзывы, контакты сотрудников, рабочие email/телефоны, профили пользователей, документы PDF, где могут быть ФИО и иные сведения о физлицах, крупные массивы карточек и реестров, использование чужих данных в коммерческом продукте, ML-датасеты, спорные “рабочие контакты”, а также парсинг контента, который затем используется как сырье для генерации. В желтой зоне нужно не “смелее идти”, а делать комплаенс-проверку: есть ли ПДн, есть ли права на контент, нет ли риска по базе данных, нужен ли договор или согласие, как будут храниться и удаляться данные.

Красная зона

Здесь ответ проще: не делать. Обход CAPTCHA, авторизации, антибот-барьеров, доступ к кабинетам и закрытым разделам, сбор ПДн “в лиды” без правового основания, массовые рассылки/обзвон на базе собранных контактов, игнорирование 429/503, парсинг, который создает DoS-эффект для источника. Если бизнес-цель требует чего-то из этого списка, менять нужно не лимиты, а сам процесс.

Таблица №1

Тип данных

Риск-профиль

Что проверять

Можно собирать?

Можно публиковать?

Рекомендация

Цены

Низкий

Terms, нагрузка

Обычно да

Да, как факт

Собирайте бережно

Наличие товара

Низкий

Terms, нагрузка

Обычно да

Да

Лучше инкрементально

Характеристики товара

Низкий/средний

Не копируете ли форму подачи

Обычно да

Да, если как факты

Формируйте свои таблицы

Названия товаров

Средний

Риск дублей/брендовых правил

Да

Да, но осторожно

Нормализуйте и переписывайте где нужно

Описания товаров

Средний/высокий

Авторское право

Для анализа — да

Без прав — рискованно

Пишите свои тексты

Фото

Высокий

Авторское право/лицензия

Для сравнения — возможно

Без прав — нет

Используйте свои или лицензированные

Отзывы

Средний/высокий

ПДн, права, Terms

Осторожно

Осторожно

Лучше обезличенно и аналитически

Рабочие email/телефоны

Высокий

ПДн, цель, основание

Только после оценки

Обычно нет

Избегать без юр. основания

Профили/аккаунты физлиц

Высокий

ПДн, согласие, цель

Рискованно

Рискованно

Не собирать массово

Open data

Низкий

Условия использования набора

Да

Обычно да

Предпочитать этому источнику

PDF с госресурсов

Средний/высокий

ПДн внутри, режим использования

Осторожно

Осторожно

Часто лучше брать метаданные

Данные из кабинета/закрытого раздела

Очень высокий

Режим доступа, ст. 272 УК

Нет

Нет

Красная зона

Под капотом этой таблицы работают три логики: факты обычно безопаснее творческого контента; ПДн почти всегда требуют отдельного правового основания; а закрытый доступ — это не “сложный источник”, а потенциально совсем другой правовой режим.

Таблица №2

Сценарий

Что может пойти не так

Как сделать корректно

Мониторинг цен конкурентов

Перегруз сайта, блокировки

Лимиты, инкремент, кеш, без поиска/фильтров “в лоб”

Сопоставление SKU

Утянуть лишний контент

Брать SKU, бренд, атрибуты, а не тексты/фото

Сбор отзывов

ПДн, ники, фото, чувствительные данные

Обезличивание, агрегирование, выкинуть идентификаторы

Лидогенерация по контактам

ПДн, отсутствие правового основания

Менять механику, не строить “базу контактов из интернета”

Наполнение каталога

Копирование описаний/фото

Парсить характеристики, писать свои тексты

Сбор с госресурсов

ПДн в документах, перегруз портала

Начинать с open data/API, брать метаданные

Обучение ИИ

Права на тексты/фото, provenance

Минимизировать поля, хранить source/timestamp/URL

Парсинг кабинета

Неправомерный доступ

Не делать; использовать официальный API/доступ

Регулярный коммерческий сбор

Конфликт с Terms

По возможности договариваться/использовать API

Массовый обход крупного каталога

Риск по правам изготовителя БД

Ограничить объем, брать только нужный срез

Коротко: почти любой “нормальный” бизнес-сценарий можно передвинуть из желтой зоны ближе к зеленой, если сократить поля, отказаться от ПДн и контента, использовать официальные каналы и проектировать сбор как бережный, а не как “скачать всё”.

Как парсить легально в 2026: практический алгоритм

  1. Сначала формулируйте цель и минимальный набор полей.
  2. Затем классифицируйте данные: ПДн / не ПДн, факты / контент, публичное / ограниченный доступ.
  3. Ищите официальный канал: API, open data, выгрузка, партнерский фид.
  4. Проверьте Terms и режим доступа.
  5. Оцените, не понадобятся ли права на контент, согласия, поручение на обработку или договор.
  6. Спроектируйте сбор: лимиты, backoff, инкремент, окна запуска, stop-условия.
  7. Настройте хранение: source, timestamp, URL, версия парсера, лог выгрузок.
  8. Если затрагиваются ПДн — подготовьте комплаенс-артефакты и уведомление РКН, если оно требуется.
  9. Следите за дрейфом источника и качеством данных.
  10. Имейте план на претензии и инциденты: остановка, разбор причин, коммуникация.

ПДн и РКН: что помнить в 2026

Если вы определяете цели и средства обработки ПДн, вы входите в роль оператора. Закон требует законной цели, минимизации и соразмерности данных цели обработки. Согласие, если вы опираетесь именно на него, должно быть конкретным, предметным, информированным, сознательным и однозначным. “Это уже было в интернете” само по себе не становится универсальным правовым основанием.

По уведомлению РКН: ст. 22 152-ФЗ по-прежнему строится вокруг идеи “до начала обработки уведомить уполномоченный орган”, если вы не подпадаете под исключения. Официальный портал РКН позволяет подать уведомление, искать сведения в реестре операторов и направлять изменения. Закон также требует уведомлять об изменениях в реестровых сведениях не позднее 15-го числа следующего месяца, а о прекращении обработки — в течение 10 рабочих дней.

Если произошел инцидент с ПДн, сроки жесткие: в течение 24 часов нужно направить сообщение об инциденте, а в течение 72 часов — результаты внутреннего расследования и сведения о причинах/виновных, если они установлены. Одновременно КоАП теперь отдельно штрафует за неуведомление или несвоевременное уведомление об утечке.

Контент и авторские права

Самая частая ошибка бизнеса — путать “можно посмотреть и считать” с “можно опубликовать у себя”. ГК охраняет тексты и фотографии, а публикация чужих описаний и фото в собственном магазине или каталоге попадает в режим использования произведения. Безопасная альтернатива почти всегда одна и та же: парсить факты и атрибуты, а тексты писать свои; изображения брать собственные, поставщика по договору или по лицензии.

При больших каталогах риск двойной: можно задеть и авторское право на отдельные объекты, и право изготовителя базы данных. Поэтому “мы не копируем тексты, мы только вытащили весь чужой каталог и перестроили его у себя” — не универсальная защита. Объем и характер извлечения тоже имеют значение.

Чек-лист pre-flight перед запуском

  • Цель сформулирована письменно
  • Набор полей минимизирован
  • Данные разделены на факты / контент / ПДн
  • Проверен режим доступа: нет кабинетов, обходов, CAPTCHA
  • Проверены Terms и наличие API/open data
  • Оценены риски по авторскому праву и базе данных
  • Если есть ПДн — проверено основание обработки
  • Если есть ПДн — проверена необходимость уведомления РКН
  • Настроены лимиты, backoff, stop-условия
  • Исключены “дорогие” эндпоинты, если можно
  • Хранятся source / timestamp / URL / версия
  • Настроены сроки хранения и удаление
  • Есть лог выгрузок и доступов
  • Есть план на претензию или инцидент
  • Есть человек, который отвечает не только за код, но и за комплаенс

Этот список звучит как бюрократия, но на практике он экономит деньги. В 2026 году ошибка в составе данных или в “режиме доступа” обычно обходится дороже, чем лишний час на pre-flight.

legal parsing

Контактная информация:

Компания: ParsingMaster

Сайт: parsingmaster.com

Email: info@parsingmaster.com

Telegram: parsingmaster_manager

Телефон: +7 (920) 909-36-72

Заказать обратный звонок

Иногда да, иногда нет. Законность зависит не от слова “парсинг”, а от состава данных, режима доступа, цели использования и того, не нарушаете ли вы права на контент, базу данных или правила работы с ПДн.

Обычно это одна из самых безопасных задач, если вы берете именно рыночные факты, не лезете в закрытые разделы и не перегружаете сайт. Но Terms и технический режим источника все равно стоит учитывать.

Обходить авторизацию, CAPTCHA и антибот-барьеры; лезть в кабинеты; собирать ПДн “для рассылок” без основания; игнорировать сигналы перегруза и делать парсинг, похожий на DoS-нагрузку.

Практически сразу, как только вы не просто увидели сведения, а начали их системно собирать, хранить, использовать, передавать или анализировать как данные о физлицах. Закон прямо относит эти действия к обработке.

Часто да, если речь об открытых данных, официальных выгрузках и публичной информации. Самая безопасная траектория — open data и официальные API. Но документы с ПДн и специальные разделы требуют отдельной оценки.

Для публикации у себя — без прав это рискованно. Гораздо безопаснее брать факты и атрибуты, а контент делать свой или лицензированный.

Terms — важный источник правил использования и риска блокировок/претензий. robots.txt — не “уголовный кодекс”, но его игнорирование обычно плохая идея. Если сайт прямо ведет в API, лучше идти туда.

Лимиты, паузы, backoff, инкремент, отказ от тяжелых эндпоинтов и stop-условия. С юридической точки зрения “бережный режим” не решает всё, но он убирает целый класс проблем.

Сразу остановить сбор, сохранить конфигурацию и логи, понять, что именно стало триггером, и разбирать кейс уже по документам, а не “по ощущениям”. Если есть ПДн или спор по контенту — подключать юриста сразу.

Если проект касается ПДн, чужого контента, больших каталогов, коммерческого продукта, госресурсов со спорным составом данных или закрытых разделов — лучше до запуска, а не после первой претензии.

    Корзина пустаяВернуться в магазин