Парсинг товаров с сайтов интернет магазинов с помощью Netpeak Spider

Парсинг-товаров-с-сайтов-интернет-магазинов--с-помощью-Netpeak-Spider-(квадрат)
Review of: Netpeak Spider

Reviewed by:
Rating:
5
On 08.08.2018
Last modified:12.09.2018

Summary:

Netpeak Spide - инструмент для комплексного аудита всего сайта. Довольно часто его используют для сбора информации о товарах с интернет-магазинов с возможностью выгрузки в Excel таблицу. Подойдет обладателям сайта агрегирующего/продающего товары по определенной тематике, чтобы парсить товары с сайта поставщика в таблицу.

В данной статье мы разберем, как парсить сайты с помощью «Netpeak Spider» (десктопной программы для парсинга) на примере интернет-магазина. Он позволяет собрать практически любые данные в автоматизированном режиме.

Довольно часто «Netpeak Spider» используют для сбора информации о товарах с интернет-магазинов с возможностью выгрузки в Excel таблицу. Это необходимо для того, чтобы в дальнейшем импортировать эти данные на свой сайт.

Скачать Netpeak Spider

Парсинг товаров с сайта интернет магазина в таблицу

Если Вы обладатель сайта агрегирующего/продающего товары по тематике, к примеру, «Оборудование для общепита», и в Вашем интернет-магазине представлена эта категория, то парсер товаров с сайта поставщика в таблицу Вам может определенно пригодиться.

Связано это с тем, что далеко не все поставщики могут дать Вам выгрузку товаров в формате excel. Либо она обладает излишними данными, которые предполагают большой объем работы: картинки, вставленные непосредственно в таблицу, много ненужной информации, макросы и т.д. Проще взять нужную Вам информацию с исходного сайта, выбрав в автоматизированном режиме именно те данные, которые нужны Вам. Потом можно выгрузить их в эксель или csv таблицу, чтобы в дальнейшем импортировать с помощью «WP All Import» на WordPress сайт или какой-то другой.

К слову, не обязательно работать с интернет-магазинами, поскольку «Netpeak Spider» позволяет добывать любую информацию с любых сайтов. Вы с таким же успехом можете парсить текстовую информацию, к примеру: новости, аналитику, картинки, агрегировать статистику и эту информацию импортировать в WordPress с помощью «WP AllImport». Либо можно применять дополнительные фильтры и продолжать работать с полученной информацией в табличном виде.

Так же можно пускать ее в дальнейшее производство. Например, спарсить e-mail по списку сайтов и в дальнейшем пустить их в систему е-mail рассылок. Либо на основе этих e-mail создать аудиторию для ретаргетинга в рекламной компании (Вконтакте  или через Яндекс аудитории).

Если Вам интересно узнать более подробно о том, как импортировать товары или данные из уже полученной таблицы, то Вы можете посмотреть вот это видео. Там я подробно рассказываю, как это сделать на примере сайта на WordPress и плагина «WP All Import».

Netpeak Spider - посмотреть все возможности

Настройки парсинга данных «Netpeak Spider»

Если мы хотим собрать информацию по всем товарам, которые есть в каталоге интернет-магазина, то нам необходимо заполнить следующие поля:

  • Название товара;
  • Цена;
  • Описание;
  • Картинка.

Для этого нам необходимо проделать следующие действия:

  1. Открываем «Netpeak Spider»;
  2. Заходим в «Настройки» — «Настройки парсинга»;
  3. Ставим отметку «Использовать парсинг HTML данных;
  4. Извлекать необходимые данные можно несколькими путями — XPath, CSS-селектор и регулярные выражения;
  5. Можно просто находить какую-то необходимую информацию и считать, сколько раз она встречается без сохранения в таблицу;

Более подробно почитать про каждый из вариантов извлечения данных Вы можете ниже

Всего в программе 4 вида поиска:

  • Содержит → считает количество вхождений искомой фразы на странице. Работает в формате «только поиск», то есть не извлекает никаких данных. Самый простой вид поиска: представьте, что Вы, просматривая исходный код страницы, просто нажимаете Ctrl+F и вводите необходимую фразу – программа делает это автоматически на всех страницах и показывает, сколько значений она нашла.
  • RegExp → извлекает все значения, соответствующие заданному регулярному выражению. Работает в формате «поиск и извлечение». Следующий по сложности вид поиска: позволяет больше кастомизировать процесс, значительно расширяя возможности поиска, однако требует базовых знаний регулярных выражений. Читайте подробнее о регулярных выражениях.
  • CSS-селектор → извлекает все значения необходимых HTML-элементов на основе их CSS-селекторов. Работает также в формате «поиск и извлечение». Достаточно простой и, в то же время, мощный способ извлечения данных: например, необходимо указать всего лишь одну букву «a», чтобы вытянуть все ссылки со страницы. Читайте подробнее о CSS-селекторах (на английском языке).
  • XPath → извлекает все значения необходимых HTML-элементов на основе их XPath. Работает также в формате «поиск и извлечение». Самый мощный способ выборки данных, однако, требует определённых знаний и опыта. Читайте подробнее об XPath.

Копирование необходимых элементов через xPath

Для того чтобы скопировать необходимые элементы через xPath, открываем наш сайт и карточку товара, где содержится информация. Чтобы проще идентифицировать элементы, нам понадобится консоль вебмастера:

  • В Chrome она вызывается клавишей F12.
  • После этого нажимаем на иконку выделения со стрелкой.
  • Выделяем необходимые элементы — название товара в данном случае.
  • Консоль подсвечивается, и мы нажимаем правой кнопкой мыши для выбора опцию «копировать в xPath».

После того данные в xParth скопированы, можно переходить в настройки парсинга. В том поле, мы будем парсить название, необходимо выдрать опцию xPath. Туда же ставим скопированный xPath из консоли вебмастера.

После этого можно проделать те же самые шаги для «Описания». Если Вы хотите скопировать не весь текст, то можно выделить только определенную его часть. Но так как в данном примере нас интересует полностью описание, то я выбираю тег, который содержит «Описание» и «Особенности».

Получить 14 дней бесплатного пользования в подарок

Особенности парсинга картинок с помощью CSS-селектора

Спарсить картинку xPath нам не поможет. Связано это с тем, что если мы выделим ее таким же образом и попробуем скопировать xPath, то он будет уникальный для конкретного товара. То есть он будет содержать id конкретной картинки, и когда парсер «Netpeak Spider» будет переходить по карточкам других товаров, то там этот id будет меняться, и мы никакую информацию не скопируем.

Поэтому в данном случае, чтобы скопировать url картинки, мы воспользуемся таким методом извлечение данных, как CSS-селектор. Чтобы Вам проще было работать с CSS-селекторами, я рекомендую установить расширение для Chrome оно называется «ChroPath». После установки он будет находиться в правом верхнем углу экрана.

Нас интересует значение src для тега image, так как в нем содержится url нашей картинки. Так как у этого тега img нет какого-то определенного класса, то мы можем посмотреть, что является его родителем.

Мы видим, что этот тег img находится внутри div с id «ShowCardImage». Соответственно, в настройках CSS-селектора мы можем указать, чтобы он нашел на странице элемент с id «ShowCardImage», а потом нашел внутри него img и скопировал значение атрибута src.

С помощью расширения ChroPath открываем вкладку в консоли вебмастера. Здесь можно выбрать, какой тип селектора мы хотим использовать.

Я указываю в ChroPath: id «#ShowCardImage», и потом говорю, какой элемент меня интересует, т.е. img.

После этого я нажимаю «Enter» и он мне выдает информацию согласно CSS-селектору: подсвечивает картинку, которую нашел, а так же фрагмент кода, который соответствует данному CSS-селектору.

Я сразу могу протестировать, правильно ли работает мой CSS-селектор. Здесь, в настройках программы «Netpeak Spider», мне нужно указать, что меня интересует значение атрибута src. Переходим в настройки, в поле «Картинка» и выбираем опцию извлечения данных «CSS-селектор». Далее нужно поставить правило, чтобы найти элемент с id «ShowCardImage» и внутри него найти картинку (тег img), а потом из него извлечь значение атрибута src.

Ограничение области парсинга

Далее, чтобы не парсить лишних данных и не собирать ненужную информацию необходимо ограничить область поиска парсера. Нас не будут интересовать страницы «О компании», «Статьи», «Контакты», «Блог», «Акции» и те разделы сайта, где не содержится информация о товарах. Мы хотим спарсить только каталог, взять информацию о товарах, а все остальные страницы просто игнорировать.

Для этого в «Netpeak Spider» можно задать правила:

  1. Заходим в «Настройки» — «Правила», нажимаем «Добавить правила»;
  2. Ставим «Включить» в таблицу только те url, которые содержат папку /goods/.
  3. Если мы перейдем на какие-то другие страницы сайта, то увидим, что они сгруппированы по категориям.
  4. Если мы посмотрим по всем страницам каталога товаров, то увидим, что они все идут через категорию /goods/. То есть в адресе сайта у нас содержится папка /goods/, и все товары содержатся в ней.

Создание групп правил в «Netpeak Spider»

При необходимости мы можем создавать группы правил и выстраивать логику работы между ними.

  1. Логическое условие «или». Например, если я хочу парсить информацию только из разделов каталога или статей, то я могу добавить второе правило включать в исходный отчет только раздел /goods/ и /articles/ и поставить между ними логическое условие «или». То есть если страница содержит, либо другое, то нужно добавлять ее в отчет.
  2. Логическое условие «и». Правило «и» применяется, когда url должен удовлетворять всем правилам, и таким образом фильтровать и экономить ресурсы парсера.

После того как мы задали условия парсинга и правила обхода сайта – сохраняем настройки и нажимаем «ОК»

Экспорт результатов парсинга

В параметрах мы выбираем тот вид работы, который должен производиться программой. То есть я выбираю здесь исключительно парсинг. Меня не интересует, чтобы «Netpeak Spider» собирал информацию по индексации, битым ссылками и другим параметрам SEO, которые предназначены для анализа внутренней оптимизации сайта. Это необходимо для ускорения работы, а так же для экономии ресурсов и времени.

После того, как выбрана опцию «Парсинг», можно проставить изначальную ссылку на каталог. После этого «Netpeak Spider» перейдет в указанный раздел и начнет переходить по всем ссылкам, собирая информацию, согласно правилам и настройкам, которые мы указали ранее. Для этого:

  • Я ставлю ссылку на каталог, как начальный url.
  • После этого нажимаю «Запуск».
  • Мы видим на вкладке «Парсер», как происходит сбор данных. Если данные собраны, то нам будет показано, что они есть. Для тех полей, где их нет, мы сможем видеть, что они не собраны.

Когда парсер соберет всю информацию и обойдет весь сайт, можно перейти на отдельную вкладку и сразу все результаты посмотреть:

  • Ссылка на страницу товара;
  • Название товара;
  • Описание (где есть описание – оно подсвечивается, где нет – будет пустым);
  • Цена;
  • Картинка.

Мы видим, что все исходные данные собраны. После этого мы нажимаем «Экспорт» и сохраняем в нужном нам формате. Далее мы можем пустить эти данные в дальнейшую работу. Либо работать с ними в таблице и запускать дальнейший импорт на основе этих данных на наш сайт.

Заключение

Если у Вас возникли вопросы по работе «Netpeak Spider», то Вы можете задать свой вопрос в комментариях. Я постараюсь максимально подробно на него ответить. Если Вы не хотите разбираться с какими-то техническими моментами, и Вам просто нужен результат, то Вы можете и оставить заявку на обратную связь. Мы обсудим, как я смогу Вам помочь: как организовать парсинг, и как спарсить и импортировать данные на Ваш сайт.

Вы можете скачать Netpeak Spider и бесплатно пользоваться полноценной версией программы течении 14 дней здесь, если вы решите и дальше(после завершения 14 дней пробного периода) пользоваться Netpeak Spider то можете сэкономить 10% воспользовавшись промокодом 14ca4308.

11 мыслей о “Парсинг товаров с сайтов интернет магазинов с помощью Netpeak Spider

  1. Андрей сказал:

    Спасибо за подробное видео! Обязательно попробую сделать парсинг с netpeak-spider. Только вот вопрос один с регистрацией — там вроде бы бесплатно идет пробная версия на 14 дней. Можно ли с ее помощью все это сделать будет?

    • Дмитрий сказал:

      Да, это полнофункциональная версия Spider т.е. можно парсить и анализировать сайт по полной программе

  2. Михаил сказал:

    Очень интересная статья. Главное, как раз в тему! Как раз собирался найти годный инструмент для парсинга товаров интернет-магазина. По Вашей инструкции вроде бы все просто и понятно) А будут ли еще статьи про полезные функции netpeak-spider? Я так понимаю, что у них же не только парсинг товаров есть?

    • Дмитрий сказал:

      Да, планирую записать видео про возможности Netpeak Spider в плане анализа внутренней SEO оптимизации сайта.

  3. Анна сказал:

    Добрый день! Посмотрела ролик, почитала статью и ….ничего не поняла…Мне нужно сделать такой парсинг, но ничего не получается….Можете помочь разобраться с netpeak-spider?

  4. Ольга сказал:

    Здравствуйте! Довольно интересная тема, надо будет попробовать. А бывает ли так, что netpeak-spider после парсинга интернет-магазина выдает неправильные данные? И можно ли как-то их проверить?

    • Дмитрий сказал:

      Такое может произойти если вы неправильно определили контент который нужно спарсить в настройках, после указания настроек имеет смысл запусить парсер для небольшого кол-ва страниц с сайта который вы парсите и проверить что данные которые он собирают это то что вам нужно.

  5. Владимир сказал:

    Благодарю за обзор, очень подробно и полезно! Можете подсказать, как с помощью netpeak-spider найти страниц с 404 ошибкой?

    • Дмитрий сказал:

      Это нужно запустить Netpeak Spider в режиме анализавнутренней оптимизации и в отчетах смотреть пункт 4xx ошибки, вот скриншот https://yadi.sk/i/Gm5tsRhi3aA2DV

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *