![]() |
Насколько сложно сделать такой парсинг сайта? Добрый день! Заходим по ссылке [url]http://base.consultant.ru/regbase/cgi/online.cgi?req=doc;base=RLAW177;n=97692;div=LAW;mb=MLAW;ts=FF9E7124063280E5D7AFE822A4C52313;ts=919E5D94CBC9E2CD1937DAA3761EA4D3[/url] По адресу видим, что n=97692 - это номер документа. Открываем фрейм "Справка" (кнопка находится вверху-справа). Нужно скачать с сайта все документы от n = 1 до n = 130000 и сохранить только фреймы "справка" в html, после чего распарсить справки в таблицу со следующими колонками: N Дата документа Номер документа Название документа Является редакцией или нет Начало действие редакции (если редакция) Утратил силу или нет Где опубликован Примечания к документу Насколько сложно это сделать, сколько примерно будет стоить? |
[url]http://base.consultant.ru/regbase/cgi/online.cgi?req=doc;base=RLAW177;n=1;div=LAW;mb=MLAW;ts=FF9E7124063280E5D7AFE822A4C52313;ts=919E5D94CBC9E2CD1937DAA3761EA4D3[/url] опубликован не был =)) этот тоже будет засчитываться как вознаграждение? =)) |
1) Если документ опубликован не был, то в таблицу пишем 0. |
Лично мне писать такое лень. А если желающие найдутся, то думаю, в районе $20 и не более. Варианта 2 - сделать ide или скрипт. А вообще когда-то думал сделать онлайн-парсер, которого типо надо "учить", что именно ему нужно выдирать из сайтов. =) |
Попробу |
Попробуй Сontent downloader, честного говоря не знаю сможет или нет, но вдруг... |
не сложно: [url]http://toly-blog.ru/programming/imagegrabbing/[/url] [url]http://toly-blog.ru/programming/imagegrabbing2/[/url] |
6-toly84 > Наверно не так уж и просто. 1. Нужно учесть, что в данные "фрейма" (который и не фрейм вообще-то)"Справка" подгружаются по клику, а не присутствуют изначально в теле страницы. 2. Нужно распарсить работу функции switchPage, которая в свою очередь вызывает много других функций. |
нужно запускать ФайрБаг и смотреть куда идут запросы, откуда (в яваскрипте) они вызываются и смотреть по какому принципу строится запрос для подгрузки. а вообще можно делать ботов с эмуляцией яваскрипта. например с помощью [url]http://code.google.com/p/spynner/[/url] |
Текущее время: 14:02. Часовой пояс GMT +3. |