Без рубрики

Новая инструкция к новому парсеру

Скачать тут

Вопросы, непонятки и свои соображения прошу оставлять тут в комментах.

Обновление v2 парсера

Исправлен очень неприятный баг – если на странице было много одинаковых блоков и вы пытались их подряд спарсить, то на выходе получалось множественное повторение первого блока.

+ Добавлена плюшка «Удаление из текстового файла строк-»повторов».
+ Добавлена возможность сохранения статей в отдельные файлы

021910_1606_1.jpg

Полуавтоматический парсинг

Сегодня хочу познакомить вас с технологией полуавтоматического парсинга, с ее помощь можно быстро выкачивать с сайта только те статьи которые вам нужны, вплоть до целого отдельного раздела сайта.

Для этого нам понадобится Sjs парсер + LinkGraber, подробное описание программы LinkGraber, и как ею пользоваться, можно прочитать тут.

Разберем технологию полуавтоматического парсинга на конкретном примере:

К примеру нам нужно выкачать все статьи из рубрики «Сухие строительные смеси»

  1. Запускаем LinkGraber, открываем в нем страницу http://www.tkastrey.ru/article.php?pid=6&page=1 и нажымаем F2
  2. Составим шаблон для LinkGraber: http://www.tkastrey.ru/article.php?aid=*

Нажимаем «Все -» потом «Установить выделение согласно маскам» после «Добавить»

Но так как у страниц этого раздела у нас 13

Все действия придется повторить еще 12 раз, для каждой части. В конец нажимает F3, копируем нашу 661 ссылку.

Вставляем в блокнот, сохраняем.

  1. Открываем Sjs парсер, скармливаем ему наш txt файлик с ссылками.
  2. Выбираем формат вывыда
  3. Выбираем кодировку
  4. Указываем теги которые нельзя трогать
  5. Указываем куда сохранять результат
  6. Составляем шаблон контента:
  7. <h1 class=’header’ style=’margin-top: 20px;’>|[1]|</h1>|</h1>|[2]|<div align=»right»><i>
  8. Начинаем парсинг

Через две минуты получаем 661 тематическую статью.

Переорентация парсера

Уважаемые владельцы парсера!

Прошу озвучить ваше мнение по поводу следующего.

Многие жалуются на отсутствие многопоточности и низкую скорость работы. Если использовать старый метод – собрали линки/пропарсили – все так и останется, ибо обращение к сайту всегда не такое быстрое как к жесткому диску. Поэтому я предлагаю от этого отказаться в пользу другого принципа работы, который позволит ускорить и облегчить работу по парсингу в разы.

Читать дальше >

Парсер контента 0.97

Вышло еще одно обновление универсального парсера. Добавлены несколько плюшек, поправлены последние (надеюсь) баги
Качать универсальный парсер контента тут

Внимание, у парсера появилась своя собственная страница

Внимание, у парсера появилась своя собственная страница: http://sjs-soft.ru/super-parser-kontenta

Еще туда можно попасть из горизонтального меню под шапкой. Там всегда будет самая полная информация о парсере.

newgrab

Супер обновление парсера!

Скачать тут

Исправлена проблема с кодировкой. Теперь можно выбирать между utf-8 и win1251 (кириллица)

Добавлена возможность парсить не весь сайт, а тольно определенный раздел!

Цена прежняя всего 1000 рублей! В скором будущем будут введены новые плюшки, поэтому цена будет только расти! Не упустите свой шанс. Для уже купивших – обновление бесплатное – используйте полученный ключ.

newgrab

Sjs универсальный парсер контента!

Предлагаю вашему вниманию свой парсер контента.

Универсальный парсер! Легко подстраивается к любому сайту!

Совершенно простой и логичный интерфейс! Легкость в освоении – Отличная!

Последняя версия парсера  тут: универсальный парсер контента

Изначально писался чисто для себя, но после нескольких восторженных отзывов знакомых решил как-то окупить время, потраченное на разработку.

Не буду долго расписывать возможности программы. Просто посмотрите на скриншот:

Читать дальше >