0
- 28.10.2012 - 17:35
|
Добрый день! Заходим по ссылке http://base.consultant.ru/regbase/cg...37DAA3761EA4D3 По адресу видим, что n=97692 - это номер документа. Открываем фрейм "Справка" (кнопка находится вверху-справа). Нужно скачать с сайта все документы от n = 1 до n = 130000 и сохранить только фреймы "справка" в html, после чего распарсить справки в таблицу со следующими колонками: N Дата документа Номер документа Название документа Является редакцией или нет Начало действие редакции (если редакция) Утратил силу или нет Где опубликован Примечания к документу Насколько сложно это сделать, сколько примерно будет стоить? | |
1
- 28.10.2012 - 17:40
| http://base.consultant.ru/regbase/cg...37DAA3761EA4D3 опубликован не был =)) этот тоже будет засчитываться как вознаграждение? =)) | |
2
- 28.10.2012 - 17:42
| 1) Если документ опубликован не был, то в таблицу пишем 0. | |
3
- 28.10.2012 - 17:48
|
Лично мне писать такое лень. А если желающие найдутся, то думаю, в районе $20 и не более. Варианта 2 - сделать ide или скрипт. А вообще когда-то думал сделать онлайн-парсер, которого типо надо "учить", что именно ему нужно выдирать из сайтов. =) | |
4
- 28.10.2012 - 22:44
| Попробу | |
5
- 28.10.2012 - 22:45
| Попробуй Сontent downloader, честного говоря не знаю сможет или нет, но вдруг... | |
6
- 31.10.2012 - 11:41
|
не сложно: http://toly-blog.ru/programming/imagegrabbing/ http://toly-blog.ru/programming/imagegrabbing2/ | |
7
- 31.10.2012 - 15:06
|
6-toly84 > Наверно не так уж и просто. 1. Нужно учесть, что в данные "фрейма" (который и не фрейм вообще-то)"Справка" подгружаются по клику, а не присутствуют изначально в теле страницы. 2. Нужно распарсить работу функции switchPage, которая в свою очередь вызывает много других функций. | |
8
- 31.10.2012 - 15:33
|
нужно запускать ФайрБаг и смотреть куда идут запросы, откуда (в яваскрипте) они вызываются и смотреть по какому принципу строится запрос для подгрузки. а вообще можно делать ботов с эмуляцией яваскрипта. например с помощью http://code.google.com/p/spynner/ | |
| Интернет-форум Краснодарского края и Краснодара |