Сбор данных о товарах в труднодоступных местах
В 2022 году мы начали проект по управляемому сбору данных для крупного глобального ритейлера (к сожалению, мы не можем назвать его – конфиденциальность превыше всего). Этот проект превратился в инновационное сотрудничество, исследующее весь потенциал веб-данных.
Задача
Заказчику требовались еженедельные данные о ценах с сотен веб-сайтов для установки уникальных цен на товары в магазинах из более чем 10 стран. Для этого нужны были не только стандартные данные о ценах, но и труднодоступные атрибуты товаров, скрытые в неструктурированных текстах (например, описание товара), что делало стандартные методы извлечения данных нерелевантными.
Эти требования и огромное количество целевых сайтов по всему миру потребовали создания уникальной структуры, сотен скриптов и кастомной технологии, использующей инфраструктуру ParsingMaster.
Требования проекта
- Сбор данных о товарах с сотен различных сайтов розничной торговли
- Извлечение данных, скрытых в неструктурированных текстах для каждого товара
- Преобразование данных в предпочитаемый формат заказчика
- Обеспечение этичного и законного получения данных
- Еженедельные поставки данных
Решение
Команда ParsingMaster взяла на себя весь процесс, упростив его для заказчика. Им нужно было только предоставить список целевых сайтов и артикулов, а затем просто ждать поступления данных.
Для каждой страницы товара мы использовали наш мощный инструмент для извлечения всех деталей о товаре, соответствующих нашей стандартной схеме продукта. Затем мы применяли кастомную модель LLM для извлечения нестандартных элементов со страницы.
Ключевые достижения
- Сбор данных о товарах: Модель машинного обучения, поддерживающая ИИ ParsingMaster, ускорила внедрение “парсеров” и успешно извлекла большинство необходимых данных для заказчика. Этот этап был завершен в три раза быстрее благодаря нашей технологии автоматического извлечения данных о товарах, оставив лишь несколько случаев для ручного создания нашей командой.
- Извлечение неструктурированного текста: Команда по доставке данных ParsingMaster разработала и использовала решение на основе LLM для извлечения релевантных данных из описаний и неструктурированных текстов. Сначала неструктурированный текст описания извлекался с помощью нашей цепочки для парсинга данных, а затем обрабатывался через специальные подсказки LLM, созданные командой.
- Преобразование данных: После извлечения неструктурированных данных они преобразовывались в стандартный формат заказчика с помощью библиотеки Python. Окончательные преобразованные данные затем интегрировались в финальную схему данных для доставки.
- Этичное и законное соблюдение: Юридическая команда ParsingMaster участвует в каждом проекте. Они оценивают требования заказчика к данным, чтобы гарантировать их этичное и законное получение.
- Еженедельные поставки данных: Команда по доставке данных ParsingMaster создала бесшовную точку интеграции с облачным хранилищем заказчика, что позволило автоматически доставлять еженедельные обновления данных.
Результат
Огромные объемы сложных и трудно собираемых данных успешно и последовательно доставлялись нашему заказчику в рекордные сроки с использованием самых передовых технологий на сегодняшний день. Им нужны были лучшие данные для установления цен на свои товары по всему миру. ParsingMaster обеспечила их вовремя и в нужном масштабе. Мы продолжаем исследовать новые способы улучшения их возможностей по работе с данными, уверенно и надежно используя новейшие технологии.
- Сбор данных в масштабах:
- 100+ миллионов запросов в месяц
- Сбор данных в масштабах:
- 3+ миллиона единиц данных в месяц
- Сокращение времени разработки:
- 25% уменьшение времени разработки на один паук
- Качество и доступность:
- 99.9% успешных извлечений данных
Заключение
Сотрудничество с нами помогло крупному, глобальному ритейлеру создать уникальную систему получения, обработки и мониторинга большого количества данных.
Если у вас есть похожие задачи или вам нужны услуги профессионального парсинга и мониторинга цен, свяжитесь с нами прямо сейчас.
Контактная информация:
Компания: ParsingMaster
Сайт: parsingmaster.com
Email: info@parsingmaster.com
Telegram: parsingmaster_manager
Телефон: +7 (920) 909-36-72
Заказать звонок
Чтобы заказать обратный звонок, заполните и отправьте форму ниже.
Оставляя заявку вы можете быть уверены:
От нас не будет никакого спама
Менеджер свяжется с вами в течение 30 мин.
(Рабочее время: Пн-Пт с 9:00 до 18:00 (GMT+3, Мск)
В кратчайшие сроки решим вашу задачу
