К списку форумов К списку тем
Регистрация    Правила    Главная форума    Поиск   
Имя: Пароль:
Рекомендовать в новости

Насколько сложно сделать такой парсинг сайта?

Гость
0 - 28.10.2012 - 17:35
Добрый день!

Заходим по ссылке
http://base.consultant.ru/regbase/cg...37DAA3761EA4D3

По адресу видим, что n=97692 - это номер документа.

Открываем фрейм "Справка" (кнопка находится вверху-справа). Нужно скачать с сайта все документы от n = 1 до n = 130000 и сохранить только фреймы "справка" в html, после чего распарсить справки в таблицу со следующими колонками:

N
Дата документа
Номер документа
Название документа
Является редакцией или нет
Начало действие редакции (если редакция)
Утратил силу или нет
Где опубликован
Примечания к документу

Насколько сложно это сделать, сколько примерно будет стоить?



Гость
1 - 28.10.2012 - 17:40
http://base.consultant.ru/regbase/cg...37DAA3761EA4D3
опубликован не был
=))

этот тоже будет засчитываться как вознаграждение? =))
Гость
2 - 28.10.2012 - 17:42
1) Если документ опубликован не был, то в таблицу пишем 0.
Гость
3 - 28.10.2012 - 17:48
Лично мне писать такое лень. А если желающие найдутся, то думаю, в районе $20 и не более.
Варианта 2 - сделать ide или скрипт.

А вообще когда-то думал сделать онлайн-парсер, которого типо надо "учить", что именно ему нужно выдирать из сайтов. =)
Гость
4 - 28.10.2012 - 22:44
Попробу
Гость
5 - 28.10.2012 - 22:45
Попробуй Сontent downloader, честного говоря не знаю сможет или нет, но вдруг...
Гость
6 - 31.10.2012 - 11:41
не сложно:
http://toly-blog.ru/programming/imagegrabbing/
http://toly-blog.ru/programming/imagegrabbing2/
vk
7 - 31.10.2012 - 15:06
6-toly84 > Наверно не так уж и просто.
1. Нужно учесть, что в данные "фрейма" (который и не фрейм вообще-то)"Справка" подгружаются по клику, а не присутствуют изначально в теле страницы.
2. Нужно распарсить работу функции switchPage, которая в свою очередь вызывает много других функций.
Гость
8 - 31.10.2012 - 15:33
нужно запускать ФайрБаг и смотреть куда идут запросы, откуда (в яваскрипте) они вызываются и смотреть по какому принципу строится запрос для подгрузки.

а вообще можно делать ботов с эмуляцией яваскрипта.
например с помощью http://code.google.com/p/spynner/


К списку вопросов






Copyright ©, Все права защищены