SEO и не очень программы и скрипты
Полуавтоматический парсинг
Сегодня хочу познакомить вас с технологией полуавтоматического парсинга, с ее помощь можно быстро выкачивать с сайта только те статьи которые вам нужны, вплоть до целого отдельного раздела сайта.
Для этого нам понадобится Sjs парсер + LinkGraber, подробное описание программы LinkGraber, и как ею пользоваться, можно прочитать тут.
Разберем технологию полуавтоматического парсинга на конкретном примере:
К примеру нам нужно выкачать все статьи из рубрики «Сухие строительные смеси»

- Запускаем LinkGraber, открываем в нем страницу http://www.tkastrey.ru/article.php?pid=6&page=1 и нажымаем F2
- Составим шаблон для LinkGraber: http://www.tkastrey.ru/article.php?aid=*

Нажимаем «Все -» потом «Установить выделение согласно маскам» после «Добавить»
Но так как у страниц этого раздела у нас 13
![]()
Все действия придется повторить еще 12 раз, для каждой части. В конец нажимает F3, копируем нашу 661 ссылку.

Вставляем в блокнот, сохраняем.
- Открываем Sjs парсер, скармливаем ему наш txt файлик с ссылками.
- Выбираем формат вывыда
- Выбираем кодировку
- Указываем теги которые нельзя трогать
- Указываем куда сохранять результат
- Составляем шаблон контента:
- <h1 class=’header’ style=’margin-top: 20px;’>|[1]|</h1>|</h1>|[2]|<div align=»right»><i>
- Начинаем парсинг
Через две минуты получаем 661 тематическую статью.
| Print article | Эта запись была опубликована admin 19.02.2010 в 20:07, в категории Без рубрики. Вы можете следить за комментариями через RSS 2.0. Вы можете оставить комментарий или трэкбэк с вашего сайта. |

6 месяцев назад
Спасибо за обновление..
Очень полезное..
Один минус – иногда бывает нужно спарсить 10 000 стратей с 500 страниц
Это ж руки отпадут
6 месяцев назад
Если с 500 страниц парсить, то там наверняка есть какая-то система, которую можно будет автоматизировать. Я думаю об этом:)
6 месяцев назад
А вообще я попробовал.. Даже чтобы собрать ссылки с 500 страниц у меня уходит максимум час.. А если учесть что такие сайты приходится парсить не каждый день.. то думаю это не столь важно..
Я пока тестил нашел ещё один баг.. почему-то статьи не сохраняются в отдельные файлы. Только в 1 общий.. А это было бы очень полезно.. т.к. я например пользуюсь «wordbot» для постинга статей.. И бесплатный и нормально работает.. А он умеет только из отдельных файлов постить.. А так статьи не различает..
Думаю если это исправить то уже получится вполне рабочая версия
будет уметь всё что нужно
6 месяцев назад
Надо этот линкпарсер как-то доработать, интегрировать его в твой парсер что ли, и добавить в качестве шага переход по ссылкам страниц, типа того: спарсил все ссылки на странице – когда конец, перешел по ссылке (указать ее, в данном случае) «часть 2″ – спарсил все ссылки на странице – когда конец, перешел по ссылке «часть n+1″ – и т.д.
Я думаю, это несложно сделать.
6 месяцев назад
Che прав. Собирать линки таким образом удобно и быстро. Пройти 500 страниц вполне можно и за час работы.
Внедрять ЛинкГрабер в парсер не обязательно.
6 месяцев назад
Да, в v2 сохранение в кучу файлов пока не реализовано. В ближайшем будущем добавлю.
6 месяцев назад
Нужно в версию 2 добавить такую плюшку: Очистка от одинаковых линков. В старых версиях она была, но сейчас куда-то исчезла.
6 месяцев назад
Плюшку вернул. см. тут: http://sjs-soft.ru/obnovlenie-v2-parsera.html