Сегодня хочу познакомить вас с технологией полуавтоматического парсинга, с ее помощь можно быстро выкачивать с сайта только те статьи которые вам нужны, вплоть до целого отдельного раздела сайта.

Для этого нам понадобится Sjs парсер + LinkGraber, подробное описание программы LinkGraber, и как ею пользоваться, можно прочитать тут.

Разберем технологию полуавтоматического парсинга на конкретном примере:

К примеру нам нужно выкачать все статьи из рубрики «Сухие строительные смеси»

  1. Запускаем LinkGraber, открываем в нем страницу http://www.tkastrey.ru/article.php?pid=6&page=1 и нажымаем F2
  2. Составим шаблон для LinkGraber: http://www.tkastrey.ru/article.php?aid=*

Нажимаем «Все -» потом «Установить выделение согласно маскам» после «Добавить»

Но так как у страниц этого раздела у нас 13

Все действия придется повторить еще 12 раз, для каждой части. В конец нажимает F3, копируем нашу 661 ссылку.

Вставляем в блокнот, сохраняем.

  1. Открываем Sjs парсер, скармливаем ему наш txt файлик с ссылками.
  2. Выбираем формат вывыда
  3. Выбираем кодировку
  4. Указываем теги которые нельзя трогать
  5. Указываем куда сохранять результат
  6. Составляем шаблон контента:
  7. <h1 class=’header’ style=’margin-top: 20px;’>|[1]|</h1>|</h1>|[2]|<div align=»right»><i>
  8. Начинаем парсинг

Через две минуты получаем 661 тематическую статью.