Архивы для Ноябрь, 2009

Переорентация парсера

Уважаемые владельцы парсера!

Прошу озвучить ваше мнение по поводу следующего.

Многие жалуются на отсутствие многопоточности и низкую скорость работы. Если использовать старый метод – собрали линки/пропарсили – все так и останется, ибо обращение к сайту всегда не такое быстрое как к жесткому диску. Поэтому я предлагаю от этого отказаться в пользу другого принципа работы, который позволит ускорить и облегчить работу по парсингу в разы.

Читать дальше >

Отзыв о парсере

Вчера один владелец моего парсера написал на форуме сателлитчиков вот такой отзыв:

«Раньше пользовался ТextPipe pro для парсинга, но из-за отсвутсвия гибкости в настройке парсинга, задался целью найти подходящий софт. недавно приобрел этот парсер. Результатами тестов доволен, поскольку данный парсер позволяет выполнять все основные задачи парисинга для любого сайта с однотипной структурой разметки. Построив шаблон контента в соответсвии з определенной страницей сайта, можно гибко настраивать процесс парсинга. Также порадовала возможность фильтрации страниц, подлежащих парсингу по заданному шаблону страниц. Функция парсинга страниц с жесткого диска позволяет эффективно использовать свое время, поскольку если парсить сразу с веб-сервера большие сайты, то она это может уйти уйма времени. При парсинге страниц с жесткого диска процесс парсинга происходит очень шустро. По всем возникающим вопросом автор софта охотно помогает их разрешить. Короче, поддержка на высоте. Респект автору за такой нужный софт!!»

http://sateclub.ru/showpost.php?p=20555&postcount=53

Принципиальное обновление парсера! Версия 0.99

Сегодня я закончил обновление, которое предложил один из моих клиентов. Заключается оно в том, что теперь можно выдирать контент из сайта сохраненного на жестком диске. Т.е. вы закачиваете сайт какой-либо программой типа teleport-pro/HTTrack Website Copier  на свой компьютер, а затем прямо с жесткого диска идет разбор награбленного. Получается огромная экономия времени т.к. идет обращение к диску, а не к далекому серверу. Работает это только с новым выводом.

Скачать его можно на странице парсера.

Как этим сайчас пользоваться

1. Сохраняете куда-нибудь себе на жесткий диск  сайт.

2. Составляете шаблоны страницы, контента и вывода.

3. В настройках ставите все что нужно. Особое внимание на кодировку (если не хотите крякозябр)

4. Пропускаем шаг 1 и идем сразу на шаг 2.

5. Выбираем выходной файл или папку

6. Там ставим галоску на «новый вывод» и «Парсим файлы из папки?».

7. Выбираем папку и жмем Go

8. Все должно работать. Удачи.

Если будут проблемы – пишите в аську или в комментах на странице парсера.

ps. Добавлена задержка на шаге 2:)

Обновление от 04/11/2009

Добрый вечер, уважаемые владельцы парсера и те кто еще не успел им обзавестись! Сегодня вышло обновление 0.98b. Скачать его можно с страницы парсера. Поправлены несколько небольших багов встречающихся на небольшом проценте сайтов.

В планах развития – парсинг сграбленного сайта программами типа teleport pro/HTTrack Website Copier прямо с жесткого диска. Есть еще идеи – прошу их озвучить в комментариях.