Архивы для Февраль, 2010

Обновление v2 парсера

Исправлен очень неприятный баг – если на странице было много одинаковых блоков и вы пытались их подряд спарсить, то на выходе получалось множественное повторение первого блока.

+ Добавлена плюшка «Удаление из текстового файла строк-»повторов».
+ Добавлена возможность сохранения статей в отдельные файлы

021910_1606_1.jpg

Полуавтоматический парсинг

Сегодня хочу познакомить вас с технологией полуавтоматического парсинга, с ее помощь можно быстро выкачивать с сайта только те статьи которые вам нужны, вплоть до целого отдельного раздела сайта.

Для этого нам понадобится Sjs парсер + LinkGraber, подробное описание программы LinkGraber, и как ею пользоваться, можно прочитать тут.

Разберем технологию полуавтоматического парсинга на конкретном примере:

К примеру нам нужно выкачать все статьи из рубрики «Сухие строительные смеси»

  1. Запускаем LinkGraber, открываем в нем страницу http://www.tkastrey.ru/article.php?pid=6&page=1 и нажымаем F2
  2. Составим шаблон для LinkGraber: http://www.tkastrey.ru/article.php?aid=*

Нажимаем «Все -» потом «Установить выделение согласно маскам» после «Добавить»

Но так как у страниц этого раздела у нас 13

Все действия придется повторить еще 12 раз, для каждой части. В конец нажимает F3, копируем нашу 661 ссылку.

Вставляем в блокнот, сохраняем.

  1. Открываем Sjs парсер, скармливаем ему наш txt файлик с ссылками.
  2. Выбираем формат вывыда
  3. Выбираем кодировку
  4. Указываем теги которые нельзя трогать
  5. Указываем куда сохранять результат
  6. Составляем шаблон контента:
  7. <h1 class=’header’ style=’margin-top: 20px;’>|[1]|</h1>|</h1>|[2]|<div align=»right»><i>
  8. Начинаем парсинг

Через две минуты получаем 661 тематическую статью.

Шаблоны парсера

Меня часто спрашивают по поводу назначения всех шаблонов используемых в моем парсере. Решил немного упорядочить информацию о них. Итак:

шаблон страницы – нужен для определения нужных страниц для парсинга от остальных.

шаблон контента – позволяет описать что имено на странице является контентом и подлежит сохранению.

шаблон ссылок – используется при поиске ссылок на нужные страницы. Задается для того, чтобы парсер искал эти ссылки не на всей странице, а только в определенной ее части.

шаблон вывода – позволяет настроить в каком виде спарсеный контент будет выводится в выходной файл.

Прошу продвинутых пользователей, которые успешно освоили парсер, описать в комментах как именно вы себе представляете эти шабы. Спасибо:)

ttdds

Парсер v2.0. Бета

Несколько дней назад закончил работу над основой нового парсера. Вот скриншот того что сейчас имеется:

А вот ссылка на скачивание: ссылка

Владельцы парсера могут попробовать новые плюшки и настройки. Ключ от старого парсера подходит к новому. Из новых плюшек – более избирательное посещение парсером страниц сайта за счет более тонкой настройки. Возможность сохранять настройки  в файл (наконец-то!) и загружать их обратно.  Думаю вы оцените. Вывод сейчас идет только в один файл. Вопщем бета:) Спасибо за внимание.