Что хотел заказчик
Получить базу данных потенциальных клиентов с целью последующей работы с ней.
Специальные отраслевые мероприятия – это отличная возможность для поиска новых клиентов или партнеров. А также это удачная возможность для изучения конкурентов. Все перед Вами на блюдечке. Но использовать это блюдо крайне неудобно: брать раздаточные материалы, записывать все в блокнот, перепечатывать программу выставки?
Именно с этой проблемой и столкнулся наш заказчик. В наличии PDF-файл с карточками организации каждого участника: как выдернуть информацию (в т.ч. графическую), структурировать и получить в удобном для работы формате?
Поставленные цели
Вытащить нужную информацию из PDF-каталога.


Пример страницы PDF-файла c выделением собираемых данных
Что нужно было собрать?
- Логотип организации,
- Название организации,
- Продуктовая ниша,
- Продукты организации,
- Описание организации,
- Контактные данные, разбитые на отдельные строки (адрес, номер телефона, контактное лицо, эмейл, сайт, факс и др.)
Сроки работы:
5 часов. С момента формулировки ТЗ до выдачи готового результата клиенту.
Этапы работы:
- Сформировали список собираемых параметров. Текстовые (название организации, категория продуктов, адрес и т.д.) и визуальные параметры (логотипы).
- Выполнили анализ структуры PDF-файла. В первую очередь выявили, как устроен файл: где находятся требуемые данные (положение в документе и на каждой странице) и как произвести их отбор из всего объема данных.
- Разработали методы работы с элементами. В частности, создали скрипт для Photoshop для парсинга логотипов организаций.
- Создали парсер. Провели тестирование и отладку.
- Сформировали базу данных скрейпинга.
- Предоставление готового результата заказчику. По желанию заказчика создали разбили полученную информацию на два каталога: текст и отдельно лого.


Пример готового текстового результата
Сложности, с которыми столкнулись:
- PDF-файл не имел единой структуры. На разных страницах документа необходимые данные содержались в разных местах.
- Парсинг визуального контента. При правильном подходе к разработке pdf-документа, изображения сохраняются в его теле, и могут быть собраны парсером. В данном случае это было невозможно, т.к. изображения с логотипами компаний имели различный формат, на многих страницах были объедены в общую картинку с фоновым рисунком.
Решение:
- Перед началом работы привели весь документ к единой структуре. Разрабатывать уточнение к парсеру было бы не эффективно, т.к. на множестве страниц структура была уникальной (слишком много уточнений).
- После приведения документа к единой структуре, парсер точно понимал, где находится логотип организации. После создания скрипта для Photoshop, парсер автоматически вырезал логотипы из документа и сохранял их.
Результат, который получил клиент:
- Проверенную информацию о клиентах (клиенты предоставляли информацию организатору мероприятия сами) в удобном для работы виде.
- Экономию времени и ресурсов. Перепечатывать данные из файла, скорее всего, заняло бы несколько рабочих дней (количество страниц в документе 133), а сервисы распознавания текста, во-первых, имеют погрешность в распознавании, а во-вторых, не способны автоматически структурировать данные (всё равно потребовался бы человек).
- В итоге клиент смог оперативно (в течение одного рабочего дня) получить нужную информацию в удобном для работы формате.
- Заказчик получил данные в формате: JSON.
Для кого актуальна услуга?
Для всех тех, кто хочет быстро получить весь объем нужных данных из неудобных источников (PDF-каталоги, текст с визуальных материалов (фотографии, баннеры и т.д.). Мы можем искать и анализировать практически любую информацию:
- с сайтов (в т.ч. с авторизацией);
- данные из Телеграм: текст, ссылки, упоминания и другой контент, который пользователи публикуют в открытых группах или каналах;
- данные с популярных сервисов карт: Google maps, Яндекс.Карты, 2гис.
Заключение
Парсинг сайтов конкурентов даст вашему бизнесу новый толчок к развитию и пониманию рынка.
Доверьтесь нашему опыту и закажите парсинг прямо сейчас: Берёмся за решение нестандартных бизнес-задач любой сложности. Свяжитесь с нами прямо сейчас!
Контактная информация:
Компания: ParsingMaster
Сайт: parsingmaster.com
Email: info@parsingmaster.com
Telegram: parsingmaster_manager
Телефон: +7 (920) 909-36-72
Получить консультацию
Выберите удобный способ для связи
Написать в Telegram
Написать в WhatsApp
Написать на Email
Позвонить по Телефону
Заказать Обратный звонок (позвоним через 30 минут)
Заказать звонок
Заполните и отправьте форму ниже чтобы заказать обратный звонок. Дождитесь звонка нашего менеджера.
Попробуйте бесплатно
Убедитесь в надёжности и эффективности нашего сервиса.
Воспользуйтесь услугой пробного парсинга.
Заказать пробный парсинг
Чтобы заказать услугу парсинга, заполните и отправьте форму ниже. Наш специалист свяжется с Вами для уточнения деталей.
Оставляя заявку вы можете быть уверены:
От нас не будет никакого спама
Менеджер свяжется с вами в течение 15 мин.
(Рабочее время с 9:00 до 18:00 (GMT+3, Мск)
В кратчайшие сроки решим вашу задачу
Вы можете обратиться к нам через мессенджеры или написать на почту:
Как начать пользоваться?
Оставьте заявку
Для начала оставьте заявку удобным Вам способом, нажав кнопку ниже.
Оставить заявкуС Вами свяжется наш менеджер для обсуждения деталей Вашего запроса.
Оставить заявку
Заполните и отправьте форму ниже. Наш специалист свяжется с Вами для уточнения деталей.
Оставляя заявку вы можете быть уверены:
От нас не будет никакого спама
Менеджер свяжется с вами в течение 15 мин.
(Рабочее время с 9:00 до 18:00 (GMT+3, Мск)
В кратчайшие сроки решим вашу задачу
Вы можете обратиться к нам через мессенджеры или написать на почту:
Остались вопросы
Если у Вас остались вопросы или Вам нужна дополнительная информация, не стесняйтесь обращаться к нам!
Задать вопросНаши специалисты всегда готовы помочь и предоставить всю необходимую поддержку.
Задать вопрос
Выберите удобный способ для связи
Написать в Telegram
Написать в WhatsApp
Написать на Email
Позвонить по Телефону
Заказать Обратный звонок (позвоним через 30 минут)
Заказать звонок
Заполните и отправьте форму ниже чтобы заказать обратный звонок. Дождитесь звонка нашего менеджера.