Материал носит информационный характер и не является юридической консультацией. Итоговая оценка зависит от источника, данных, цели, способа доступа и договоров. В 2026 году на вопрос “законен ли парсинг?” по-прежнему нельзя честно ответить одним словом.
Парсинг сам по себе — не отдельный “запрещенный институт”. Это технический способ получать данные. Риски появляются в четырех точках: какие данные вы берете, откуда и как получаете доступ, что потом с ними делаете, и не вредите ли источнику нагрузкой. Для бизнеса в 2026 году особенно чувствительны три зоны: персональные данные, права на контент/базы данных и обход ограничений доступа. Отдельно выросла цена ошибки по 152-ФЗ: с 30 мая 2025 года КоАП ужесточил штрафы и добавил новые специальные составы.
Термины простыми словами
Парсинг / скрапинг — автоматизированный сбор данных со страниц, документов или API. Краулинг — обход страниц/ссылок для их обнаружения. Публичная страница — страница, доступная без входа в аккаунт, но это еще не означает “можно использовать как угодно”. Ограниченный доступ — кабинеты, закрытые разделы, API-ключи, CAPTCHA, иные технические барьеры. Сбор — получение данных; обработка — более широкое понятие, которое по 152-ФЗ включает сбор, запись, хранение, извлечение, использование, передачу, обезличивание, удаление и уничтожение. Публикация/распространение — отдельный уровень риска, особенно для чужого контента и персональных данных.
Коммерческое использование почти всегда повышает требования к аккуратности. Когда данные превращаются в сервис, каталог, лидогенерацию, ML-датасет или публичный продукт, резко возрастают вопросы к правовому основанию, качеству лицензирования контента, соблюдению условий ресурса и доказуемости вашего “бережного режима”.
Какие законы и режимы чаще всего включаются
Персональные данные
152-ФЗ определяет персональные данные как любую информацию, относящуюся к прямо или косвенно определенному физлицу. Там же “обработка” описана максимально широко: от сбора и хранения до передачи и уничтожения. Закон требует, чтобы обработка была законной и справедливой, ограничивалась конкретными, заранее определенными и законными целями, а объем данных не был избыточным по отношению к этим целям.
Критическая развилка для парсинга такая: если вы собираете контакты, профили, ФИО, отзывы с идентификаторами, документы с данными физлиц — вы очень быстро переходите из “технического сбора” в полноценную обработку ПДн. А значит, могут включаться обязанности оператора, уведомление РКН до начала обработки, регламенты хранения, ответы субъектам и правила на случай инцидентов.
КоАП и ужесточение штрафов
С 30 мая 2025 года ответственность за нарушения в сфере ПДн заметно выросла. Консультант указывает, что для бизнеса появились, в частности, штрафы 100–300 тыс. руб. за нарушение обязанности уведомить о намерении обрабатывать ПДн и 1–3 млн руб. за нарушение обязанности уведомить об утечке; эти составы отражены в действующей ст. 13.11 КоАП РФ. В 2026 году это уже “новая нормальность”, а не переходный период.
Неправомерный доступ
Если история уходит в обход ограничений доступа, картина меняется радикально. Ст. 272 УК РФ говорит не о “парсинге вообще”, а о неправомерном доступе к охраняемой законом компьютерной информации, если такой доступ повлек, среди прочего, уничтожение, блокирование, модификацию или копирование информации. Поэтому сценарии с обходом авторизации, CAPTCHA, антибота, закрытых кабинетов — уже не “серый маркетинг”, а красная зона.
Авторское право и базы данных
ГК РФ охраняет произведения, включая тексты и фотографические произведения. Размещение чужих описаний и фото у себя на сайте или маркетплейсе — это уже не “сбор”, а использование произведения, в том числе через доведение до всеобщего сведения. За нарушение исключительного права правообладатель может требовать компенсацию; ст. 1301 ГК РФ предусматривает, в частности, вариант компенсации от 10 тыс. до 10 млн руб.
Отдельно ГК защищает права изготовителя базы данных. Статья 1334 говорит, что нельзя без разрешения извлекать материалы из базы данных и затем использовать их, если речь идет о переносе всего содержания или существенной части материалов. Поэтому даже когда вы не копируете “творческий текст”, массовое вытягивание крупного каталога или реестра может иметь самостоятельный риск.
Terms и режим доступа
Условия использования сайта — не “уголовная статья”, но игнорировать их опасно. Они влияют на гражданско-правовые и операционные риски: блокировки, претензии, отключение кабинета, отказ в доступе. Например, в условиях hh.ru прямо запрещены программные средства, имитирующие работу пользователя, и автоматизированный сбор и структурирование информации с помощью парсинга/скрапинга; для интеграций отдельно указывается API.
Госресурсы и открытые данные
С публичной информацией госорганов логика тоньше, чем “если сайт государственный — значит можно все”. 8-ФЗ регулирует доступ к информации о деятельности госорганов, а официальный Портал открытых данных РФ описывает открытые данные как общедоступные данные, которые может использовать и публиковать любой желающий. То есть open data и официальные выгрузки — это обычно самая безопасная дорожка. Но это не отменяет проверки на ПДн, формат использования и режим доступа конкретного ресурса.
Зеленая, желтая и красная зона
Зеленая зона
Сюда чаще всего попадают: цены, наличие, характеристики товаров, публичные рыночные факты, расписания, открытые датасеты, официальные API, open data, а также бережный сбор без обхода ограничений. Если вы берете факты, а не чужой творческий контент; не трогаете личные кабинеты; не забираете ПДн; уважаете лимиты и используете инкрементальные обновления — это обычно самый безопасный сценарий.
Желтая зона
Здесь находятся: отзывы, контакты сотрудников, рабочие email/телефоны, профили пользователей, документы PDF, где могут быть ФИО и иные сведения о физлицах, крупные массивы карточек и реестров, использование чужих данных в коммерческом продукте, ML-датасеты, спорные “рабочие контакты”, а также парсинг контента, который затем используется как сырье для генерации. В желтой зоне нужно не “смелее идти”, а делать комплаенс-проверку: есть ли ПДн, есть ли права на контент, нет ли риска по базе данных, нужен ли договор или согласие, как будут храниться и удаляться данные.
Красная зона
Здесь ответ проще: не делать. Обход CAPTCHA, авторизации, антибот-барьеров, доступ к кабинетам и закрытым разделам, сбор ПДн “в лиды” без правового основания, массовые рассылки/обзвон на базе собранных контактов, игнорирование 429/503, парсинг, который создает DoS-эффект для источника. Если бизнес-цель требует чего-то из этого списка, менять нужно не лимиты, а сам процесс.
Таблица №1
|
Тип данных |
Риск-профиль |
Что проверять |
Можно собирать? |
Можно публиковать? |
Рекомендация |
|
Цены |
Низкий |
Terms, нагрузка |
Обычно да |
Да, как факт |
Собирайте бережно |
|
Наличие товара |
Низкий |
Terms, нагрузка |
Обычно да |
Да |
Лучше инкрементально |
|
Характеристики товара |
Низкий/средний |
Не копируете ли форму подачи |
Обычно да |
Да, если как факты |
Формируйте свои таблицы |
|
Названия товаров |
Средний |
Риск дублей/брендовых правил |
Да |
Да, но осторожно |
Нормализуйте и переписывайте где нужно |
|
Описания товаров |
Средний/высокий |
Авторское право |
Для анализа — да |
Без прав — рискованно |
Пишите свои тексты |
|
Фото |
Высокий |
Авторское право/лицензия |
Для сравнения — возможно |
Без прав — нет |
Используйте свои или лицензированные |
|
Отзывы |
Средний/высокий |
ПДн, права, Terms |
Осторожно |
Осторожно |
Лучше обезличенно и аналитически |
|
Рабочие email/телефоны |
Высокий |
ПДн, цель, основание |
Только после оценки |
Обычно нет |
Избегать без юр. основания |
|
Профили/аккаунты физлиц |
Высокий |
ПДн, согласие, цель |
Рискованно |
Рискованно |
Не собирать массово |
|
Open data |
Низкий |
Условия использования набора |
Да |
Обычно да |
Предпочитать этому источнику |
|
PDF с госресурсов |
Средний/высокий |
ПДн внутри, режим использования |
Осторожно |
Осторожно |
Часто лучше брать метаданные |
|
Данные из кабинета/закрытого раздела |
Очень высокий |
Режим доступа, ст. 272 УК |
Нет |
Нет |
Красная зона |
Под капотом этой таблицы работают три логики: факты обычно безопаснее творческого контента; ПДн почти всегда требуют отдельного правового основания; а закрытый доступ — это не “сложный источник”, а потенциально совсем другой правовой режим.
Таблица №2
|
Сценарий |
Что может пойти не так |
Как сделать корректно |
|
Мониторинг цен конкурентов |
Перегруз сайта, блокировки |
Лимиты, инкремент, кеш, без поиска/фильтров “в лоб” |
|
Сопоставление SKU |
Утянуть лишний контент |
Брать SKU, бренд, атрибуты, а не тексты/фото |
|
Сбор отзывов |
ПДн, ники, фото, чувствительные данные |
Обезличивание, агрегирование, выкинуть идентификаторы |
|
Лидогенерация по контактам |
ПДн, отсутствие правового основания |
Менять механику, не строить “базу контактов из интернета” |
|
Наполнение каталога |
Копирование описаний/фото |
Парсить характеристики, писать свои тексты |
|
Сбор с госресурсов |
ПДн в документах, перегруз портала |
Начинать с open data/API, брать метаданные |
|
Обучение ИИ |
Права на тексты/фото, provenance |
Минимизировать поля, хранить source/timestamp/URL |
|
Парсинг кабинета |
Неправомерный доступ |
Не делать; использовать официальный API/доступ |
|
Регулярный коммерческий сбор |
Конфликт с Terms |
По возможности договариваться/использовать API |
|
Массовый обход крупного каталога |
Риск по правам изготовителя БД |
Ограничить объем, брать только нужный срез |
Коротко: почти любой “нормальный” бизнес-сценарий можно передвинуть из желтой зоны ближе к зеленой, если сократить поля, отказаться от ПДн и контента, использовать официальные каналы и проектировать сбор как бережный, а не как “скачать всё”.
Как парсить легально в 2026: практический алгоритм
- Сначала формулируйте цель и минимальный набор полей.
- Затем классифицируйте данные: ПДн / не ПДн, факты / контент, публичное / ограниченный доступ.
- Ищите официальный канал: API, open data, выгрузка, партнерский фид.
- Проверьте Terms и режим доступа.
- Оцените, не понадобятся ли права на контент, согласия, поручение на обработку или договор.
- Спроектируйте сбор: лимиты, backoff, инкремент, окна запуска, stop-условия.
- Настройте хранение: source, timestamp, URL, версия парсера, лог выгрузок.
- Если затрагиваются ПДн — подготовьте комплаенс-артефакты и уведомление РКН, если оно требуется.
- Следите за дрейфом источника и качеством данных.
- Имейте план на претензии и инциденты: остановка, разбор причин, коммуникация.
ПДн и РКН: что помнить в 2026
Если вы определяете цели и средства обработки ПДн, вы входите в роль оператора. Закон требует законной цели, минимизации и соразмерности данных цели обработки. Согласие, если вы опираетесь именно на него, должно быть конкретным, предметным, информированным, сознательным и однозначным. “Это уже было в интернете” само по себе не становится универсальным правовым основанием.
По уведомлению РКН: ст. 22 152-ФЗ по-прежнему строится вокруг идеи “до начала обработки уведомить уполномоченный орган”, если вы не подпадаете под исключения. Официальный портал РКН позволяет подать уведомление, искать сведения в реестре операторов и направлять изменения. Закон также требует уведомлять об изменениях в реестровых сведениях не позднее 15-го числа следующего месяца, а о прекращении обработки — в течение 10 рабочих дней.
Если произошел инцидент с ПДн, сроки жесткие: в течение 24 часов нужно направить сообщение об инциденте, а в течение 72 часов — результаты внутреннего расследования и сведения о причинах/виновных, если они установлены. Одновременно КоАП теперь отдельно штрафует за неуведомление или несвоевременное уведомление об утечке.
Контент и авторские права
Самая частая ошибка бизнеса — путать “можно посмотреть и считать” с “можно опубликовать у себя”. ГК охраняет тексты и фотографии, а публикация чужих описаний и фото в собственном магазине или каталоге попадает в режим использования произведения. Безопасная альтернатива почти всегда одна и та же: парсить факты и атрибуты, а тексты писать свои; изображения брать собственные, поставщика по договору или по лицензии.
При больших каталогах риск двойной: можно задеть и авторское право на отдельные объекты, и право изготовителя базы данных. Поэтому “мы не копируем тексты, мы только вытащили весь чужой каталог и перестроили его у себя” — не универсальная защита. Объем и характер извлечения тоже имеют значение.
Чек-лист pre-flight перед запуском
- Цель сформулирована письменно
- Набор полей минимизирован
- Данные разделены на факты / контент / ПДн
- Проверен режим доступа: нет кабинетов, обходов, CAPTCHA
- Проверены Terms и наличие API/open data
- Оценены риски по авторскому праву и базе данных
- Если есть ПДн — проверено основание обработки
- Если есть ПДн — проверена необходимость уведомления РКН
- Настроены лимиты, backoff, stop-условия
- Исключены “дорогие” эндпоинты, если можно
- Хранятся source / timestamp / URL / версия
- Настроены сроки хранения и удаление
- Есть лог выгрузок и доступов
- Есть план на претензию или инцидент
- Есть человек, который отвечает не только за код, но и за комплаенс
Этот список звучит как бюрократия, но на практике он экономит деньги. В 2026 году ошибка в составе данных или в “режиме доступа” обычно обходится дороже, чем лишний час на pre-flight.
Контактная информация:
Компания: ParsingMaster
Сайт: parsingmaster.com
Email: info@parsingmaster.com
Telegram: parsingmaster_manager
Телефон: +7 (920) 909-36-72
Заказать звонок
Чтобы заказать обратный звонок, заполните и отправьте форму ниже.
Оставляя заявку вы можете быть уверены:
От нас не будет никакого спама
Менеджер свяжется с вами в течение 30 мин.
(Рабочее время: Пн-Пт с 9:00 до 18:00 (GMT+3, Мск)
В кратчайшие сроки решим вашу задачу
Иногда да, иногда нет. Законность зависит не от слова “парсинг”, а от состава данных, режима доступа, цели использования и того, не нарушаете ли вы права на контент, базу данных или правила работы с ПДн.
Обычно это одна из самых безопасных задач, если вы берете именно рыночные факты, не лезете в закрытые разделы и не перегружаете сайт. Но Terms и технический режим источника все равно стоит учитывать.
Обходить авторизацию, CAPTCHA и антибот-барьеры; лезть в кабинеты; собирать ПДн “для рассылок” без основания; игнорировать сигналы перегруза и делать парсинг, похожий на DoS-нагрузку.
Практически сразу, как только вы не просто увидели сведения, а начали их системно собирать, хранить, использовать, передавать или анализировать как данные о физлицах. Закон прямо относит эти действия к обработке.
Часто да, если речь об открытых данных, официальных выгрузках и публичной информации. Самая безопасная траектория — open data и официальные API. Но документы с ПДн и специальные разделы требуют отдельной оценки.
Для публикации у себя — без прав это рискованно. Гораздо безопаснее брать факты и атрибуты, а контент делать свой или лицензированный.
Terms — важный источник правил использования и риска блокировок/претензий. robots.txt — не “уголовный кодекс”, но его игнорирование обычно плохая идея. Если сайт прямо ведет в API, лучше идти туда.
Лимиты, паузы, backoff, инкремент, отказ от тяжелых эндпоинтов и stop-условия. С юридической точки зрения “бережный режим” не решает всё, но он убирает целый класс проблем.
Сразу остановить сбор, сохранить конфигурацию и логи, понять, что именно стало триггером, и разбирать кейс уже по документам, а не “по ощущениям”. Если есть ПДн или спор по контенту — подключать юриста сразу.
Если проект касается ПДн, чужого контента, больших каталогов, коммерческого продукта, госресурсов со спорным составом данных или закрытых разделов — лучше до запуска, а не после первой претензии.