Форум на Kuban.ru (http://forums.kuban.ru/)
-   Веб-дизайн и программирование (http://forums.kuban.ru/f1030/)
-   -   Насколько сложно сделать такой парсинг сайта? (http://forums.kuban.ru/f1030/naskol-ko_slozhno_sdelat-_takoj_parsing_sajta-3234728.html)

Suppir 28.10.2012 17:35

Насколько сложно сделать такой парсинг сайта?
 
Добрый день!

Заходим по ссылке
[url]http://base.consultant.ru/regbase/cgi/online.cgi?req=doc;base=RLAW177;n=97692;div=LAW;mb=MLAW;ts=FF9E7124063280E5D7AFE822A4C52313;ts=919E5D94CBC9E2CD1937DAA3761EA4D3[/url]

По адресу видим, что n=97692 - это номер документа.

Открываем фрейм "Справка" (кнопка находится вверху-справа). Нужно скачать с сайта все документы от n = 1 до n = 130000 и сохранить только фреймы "справка" в html, после чего распарсить справки в таблицу со следующими колонками:

N
Дата документа
Номер документа
Название документа
Является редакцией или нет
Начало действие редакции (если редакция)
Утратил силу или нет
Где опубликован
Примечания к документу

Насколько сложно это сделать, сколько примерно будет стоить?

ars_2007 28.10.2012 17:40

[url]http://base.consultant.ru/regbase/cgi/online.cgi?req=doc;base=RLAW177;n=1;div=LAW;mb=MLAW;ts=FF9E7124063280E5D7AFE822A4C52313;ts=919E5D94CBC9E2CD1937DAA3761EA4D3[/url]
опубликован не был
=))

этот тоже будет засчитываться как вознаграждение? =))

Suppir 28.10.2012 17:42

1) Если документ опубликован не был, то в таблицу пишем 0.

ars_2007 28.10.2012 17:48

Лично мне писать такое лень. А если желающие найдутся, то думаю, в районе $20 и не более.
Варианта 2 - сделать ide или скрипт.

А вообще когда-то думал сделать онлайн-парсер, которого типо надо "учить", что именно ему нужно выдирать из сайтов. =)

dixiz 28.10.2012 22:44

Попробу

dixiz 28.10.2012 22:45

Попробуй Сontent downloader, честного говоря не знаю сможет или нет, но вдруг...

toly84 31.10.2012 11:41

не сложно:
[url]http://toly-blog.ru/programming/imagegrabbing/[/url]
[url]http://toly-blog.ru/programming/imagegrabbing2/[/url]

vk 31.10.2012 15:06

6-toly84 > Наверно не так уж и просто.
1. Нужно учесть, что в данные "фрейма" (который и не фрейм вообще-то)"Справка" подгружаются по клику, а не присутствуют изначально в теле страницы.
2. Нужно распарсить работу функции switchPage, которая в свою очередь вызывает много других функций.

toly84 31.10.2012 15:33

нужно запускать ФайрБаг и смотреть куда идут запросы, откуда (в яваскрипте) они вызываются и смотреть по какому принципу строится запрос для подгрузки.

а вообще можно делать ботов с эмуляцией яваскрипта.
например с помощью [url]http://code.google.com/p/spynner/[/url]


Текущее время: 14:02. Часовой пояс GMT +3.