SEO и не очень программы и скрипты
Шаблоны парсера
Меня часто спрашивают по поводу назначения всех шаблонов используемых в моем парсере. Решил немного упорядочить информацию о них. Итак:
шаблон страницы – нужен для определения нужных страниц для парсинга от остальных.
шаблон контента – позволяет описать что имено на странице является контентом и подлежит сохранению.
шаблон ссылок – используется при поиске ссылок на нужные страницы. Задается для того, чтобы парсер искал эти ссылки не на всей странице, а только в определенной ее части.
шаблон вывода – позволяет настроить в каком виде спарсеный контент будет выводится в выходной файл.
Прошу продвинутых пользователей, которые успешно освоили парсер, описать в комментах как именно вы себе представляете эти шабы. Спасибо:)
| Print article | Эта запись была опубликована admin 16.02.2010 в 22:14, в категории Программы. Вы можете следить за комментариями через RSS 2.0. Вы можете оставить комментарий или трэкбэк с вашего сайта. |
6 месяцев назад
Мне кажется с шаблонами в таком виде как сейчас тяжеловато работать.. Не понятно интуитивно что нужно делать..
Предлагаю вот что:
1) шаблон страницы – мне кажется что лучше определять нужные страницы не по контенту, а по урлу.. так и быстрее и проще.. т.о. этот шаблон лучше заменить шаблоном урлов. Но их должно быть 2. шаблон для поиска страниц категорий и страниц со статьями. Это обеспечит также парсинг только нужного раздела сайта..
2) шаблон контента – немного тяжеловато с первого раза понять как именно задать шаблон, но придумать что-то другое не особо получилось..
3) шаблон ссылок – как я это вижу я описал в первом пункте. Немного другой смысл чем тут, но так мне кажется будет наиболее правильно.. т.о. если реализовать пункт 1 то этот отпадает..
4) шаблон вывода – ничего менять не нужно.. всё просто и понятно..
6 месяцев назад
Я тут подумал ещё и пришел к выводу что для достижения совместимости с любым сайтом нужно оставить и «шаблон страницы» который есть сейчас и добавить то что я описал выше.
Тогда можно будет быстро парсить обычные сайты используя «шаблон урлов» и настроить парсер для неструктурированных сайтов используя имеющийся «шаблон страниц»..
Можно какую-то галочку придумать которая будет переключать режимы..