Парсинг данных об организациях из pdf-файла | Parsing master

Что хотел заказчик

Получить базу данных потенциальных клиентов с целью последующей работы с ней.

Специальные отраслевые мероприятия – это отличная возможность для поиска новых клиентов или партнеров. А также это удачная возможность для изучения конкурентов. Все перед Вами на блюдечке. Но использовать это блюдо крайне неудобно: брать раздаточные материалы, записывать все в блокнот, перепечатывать программу выставки?
Именно с этой проблемой и столкнулся наш заказчик. В наличии PDF-файл с карточками организации каждого участника: как выдернуть информацию (в т.ч. графическую), структурировать и получить в удобном для работы формате?

Поставленные цели

Вытащить нужную информацию из PDF-каталога.

Страница PDF-файла с данными

Пример страницы PDF-файла c выделением собираемых данных

Что нужно было собрать?

  • Логотип организации,
  • Название организации,
  • Продуктовая ниша,
  • Продукты организации,
  • Описание организации,
  • Контактные данные, разбитые на отдельные строки (адрес, номер телефона, контактное лицо, эмейл, сайт, факс и др.)

Сроки работы:

5 часов. С момента формулировки ТЗ до выдачи готового результата клиенту.

Этапы работы:

  • Сформировали список собираемых параметров. Текстовые (название организации, категория продуктов, адрес и т.д.) и визуальные параметры (логотипы).
  • Выполнили анализ структуры PDF-файла. В первую очередь выявили, как устроен файл: где находятся требуемые данные (положение в документе и на каждой странице) и как произвести их отбор из всего объема данных.
  • Разработали методы работы с элементами. В частности, создали скрипт для Photoshop для парсинга логотипов организаций.
  • Создали парсер. Провели тестирование и отладку.
  • Сформировали базу данных скрейпинга.
  • Предоставление готового результата заказчику. По желанию заказчика создали разбили полученную информацию на два каталога: текст и отдельно лого.
Результат парсинга

Пример готового текстового результата

Сложности, с которыми столкнулись:

  1. PDF-файл не имел единой структуры. На разных страницах документа необходимые данные содержались в разных местах. 

  2. Парсинг визуального контента. При правильном подходе к разработке pdf-документа, изображения сохраняются в его теле, и могут быть собраны парсером. В данном случае это было невозможно, т.к. изображения с логотипами компаний имели различный формат, на многих страницах были объедены в общую картинку с фоновым рисунком.

Решение:

  1. Перед началом работы привели весь документ к единой структуре. Разрабатывать уточнение к парсеру было бы не эффективно, т.к. на множестве страниц структура была уникальной (слишком много уточнений). 

  2. После приведения документа к единой структуре, парсер точно понимал, где находится логотип организации. После создания скрипта для Photoshop, парсер автоматически вырезал логотипы из документа и сохранял их.

Результат, который получил клиент:

  • Проверенную информацию о клиентах (клиенты предоставляли информацию организатору мероприятия сами) в удобном для работы виде.
  • Экономию времени и ресурсов. Перепечатывать данные из файла, скорее всего, заняло бы несколько рабочих дней (количество страниц в документе 133), а сервисы распознавания текста, во-первых, имеют погрешность в распознавании, а во-вторых, не способны автоматически структурировать данные (всё равно потребовался бы человек).
  • В итоге клиент смог оперативно (в течение одного рабочего дня) получить нужную информацию в удобном для работы формате.
  • Заказчик получил данные в формате: JSON.

Для кого актуальна услуга?

Для всех тех, кто хочет быстро получить весь объем нужных данных из неудобных источников (PDF-каталоги, текст с визуальных материалов (фотографии, баннеры и т.д.). Мы можем искать и анализировать практически любую информацию:

  • с сайтов (в т.ч. с авторизацией);
  • данные из Телеграм: текст, ссылки, упоминания и другой контент, который пользователи публикуют в открытых группах или каналах;
  • данные с популярных сервисов карт: Google maps, Яндекс.Карты, 2гис.

Заключение

Парсинг сайтов конкурентов даст вашему бизнесу новый толчок к развитию и пониманию рынка. 


Доверьтесь нашему опыту и закажите парсинг прямо сейчас: Берёмся за решение нестандартных бизнес-задач любой сложности. Свяжитесь с нами прямо сейчас!

Контактная информация:

Компания: ParsingMaster

Сайт: parsingmaster.com

Email: info@parsingmaster.com

Telegram: parsingmaster_manager

Телефон: +7 (920) 909-36-72

Получить консультацию

Сервисы о которых мы говорили

Парсинг сайтов

Парсинг цен

    Нужен парсинг?

    Оставьте контактные данные и мы перезвоним вам, расскажем подробнее про услугу, просчитаем сроки и стоимость работ

    Имя: *

    Телефон: *

    Заполняя заявку, Вы соглашаетесь с политикой конфиденциальности


    Попробуйте бесплатно

    Убедитесь в надёжности и эффективности нашего сервиса.
    Воспользуйтесь услугой пробного парсинга.

    Заказать пробный парсинг

    Как начать пользоваться?

    Оставьте заявку

    Для начала оставьте заявку удобным Вам способом, нажав кнопку ниже.
    С Вами свяжется наш менеджер для обсуждения деталей Вашего запроса.

    Оставить заявку

    Остались вопросы

    Если у Вас остались вопросы или Вам нужна дополнительная информация, не стесняйтесь обращаться к нам!
    Наши специалисты всегда готовы помочь и предоставить всю необходимую поддержку.

    Задать вопрос
      Корзина пустаяВернуться в магазин