SEO и не очень программы и скрипты
Архивы для Февраль, 2010
Обновление v2 парсера
22 Февраль
Исправлен очень неприятный баг – если на странице было много одинаковых блоков и вы пытались их подряд спарсить, то на выходе получалось множественное повторение первого блока.
+ Добавлена плюшка «Удаление из текстового файла строк-»повторов».
+ Добавлена возможность сохранения статей в отдельные файлы
Полуавтоматический парсинг
19 Февраль
Сегодня хочу познакомить вас с технологией полуавтоматического парсинга, с ее помощь можно быстро выкачивать с сайта только те статьи которые вам нужны, вплоть до целого отдельного раздела сайта.
Для этого нам понадобится Sjs парсер + LinkGraber, подробное описание программы LinkGraber, и как ею пользоваться, можно прочитать тут.
Разберем технологию полуавтоматического парсинга на конкретном примере:
К примеру нам нужно выкачать все статьи из рубрики «Сухие строительные смеси»

- Запускаем LinkGraber, открываем в нем страницу http://www.tkastrey.ru/article.php?pid=6&page=1 и нажымаем F2
- Составим шаблон для LinkGraber: http://www.tkastrey.ru/article.php?aid=*

Нажимаем «Все -» потом «Установить выделение согласно маскам» после «Добавить»
Но так как у страниц этого раздела у нас 13
![]()
Все действия придется повторить еще 12 раз, для каждой части. В конец нажимает F3, копируем нашу 661 ссылку.

Вставляем в блокнот, сохраняем.
- Открываем Sjs парсер, скармливаем ему наш txt файлик с ссылками.
- Выбираем формат вывыда
- Выбираем кодировку
- Указываем теги которые нельзя трогать
- Указываем куда сохранять результат
- Составляем шаблон контента:
- <h1 class=’header’ style=’margin-top: 20px;’>|[1]|</h1>|</h1>|[2]|<div align=»right»><i>
- Начинаем парсинг
Через две минуты получаем 661 тематическую статью.
Шаблоны парсера
16 Февраль
Меня часто спрашивают по поводу назначения всех шаблонов используемых в моем парсере. Решил немного упорядочить информацию о них. Итак:
шаблон страницы – нужен для определения нужных страниц для парсинга от остальных.
шаблон контента – позволяет описать что имено на странице является контентом и подлежит сохранению.
шаблон ссылок – используется при поиске ссылок на нужные страницы. Задается для того, чтобы парсер искал эти ссылки не на всей странице, а только в определенной ее части.
шаблон вывода – позволяет настроить в каком виде спарсеный контент будет выводится в выходной файл.
Прошу продвинутых пользователей, которые успешно освоили парсер, описать в комментах как именно вы себе представляете эти шабы. Спасибо:)
Парсер v2.0. Бета
2 Февраль
Несколько дней назад закончил работу над основой нового парсера. Вот скриншот того что сейчас имеется:
А вот ссылка на скачивание: ссылка
Владельцы парсера могут попробовать новые плюшки и настройки. Ключ от старого парсера подходит к новому. Из новых плюшек – более избирательное посещение парсером страниц сайта за счет более тонкой настройки. Возможность сохранять настройки в файл (наконец-то!) и загружать их обратно. Думаю вы оцените. Вывод сейчас идет только в один файл. Вопщем бета:) Спасибо за внимание.
