Форум на Kuban.ru (http://forums.kuban.ru/)
-   Разработка программ (http://forums.kuban.ru/f1024/)
-   -   Работа с адресами (http://forums.kuban.ru/f1024/rabota_s_adresami-6528072.html)

40KHYTbIU 19.02.2015 18:18

Работа с адресами
 
Есть данные, где в строке задана улица и номер дома.
Данные вводятся, видимо, вручную, есть орфографические ошибки и нет конкретного формата(шаблона).

Какие есть средтсва для приведения строки с адресом к единому виду и с проверкой на корректность?

Ткачик 19.02.2015 18:58

(0) Откройте для себя КЛАДР.

40KHYTbIU 19.02.2015 21:01

1-Ткачик > Открыл, ..., закрыл - не помогло. Еще есть?

Данные приходят из вне, влиять на них не могу.

Необходимо как на картографических сервисах, если пользователь ввел не верно с опечаткой адрес, понимать что пользователь подразумевал. Есть такое в виде либы или сервиса? Желательно бесплатно, так как проект не коммерческий для фана.

Ткачик 19.02.2015 21:41

(2) Фантазия пользователей в написании (особенно - в сокращениях) адресов, помноженная на их (не)грамотность делает задачу труднорешаемой. Но все-таки более реальной, чем задача "понимать" для компьютера.

Гуглите "нечеткий поиск адресов", а я - пас.

Том 19.02.2015 21:52

Это не гарантирует корректность. Введенный с клавиатуры адрес в компьютер ещё не гарантирует соответствие прописке по паспорту. Подводных камней и без этого будет много. Иногда нужно смириться с ситуацией и принять входные данные "как есть", либо заставить вводить по шаблону. Пользователь кстати часто предпочитает выбрать из списка, если этот сервис предоставлять ненавязчиво.

1is 20.02.2015 09:22

0-40KHYTbIU > есть такая хорошая вещь под названием "идентификация". Режем КЛАДР до уровня улицы, далее пишем формочку в которой посекторно будет анализироваться присланный адрес и выдаваться предполагаемый правильный адрес, при правильной идентификации неверные данные заменяются.

SheLLest 20.02.2015 09:35

Вот интересные мысли с хабра по этому поводу. Разбор адреса с помощью "нечётких регулярных выражений"
[url]http://habrahabr.ru/post/192518/[/url]
Там есть библиотека под яву и си.

40KHYTbIU 20.02.2015 10:11

Спасибо Ткачику за наводку на "нечеткий поиск адресов".

5-1isadmin > Примерно так и предполагаю.
6-SheLLest > Ок, посмотрю.

SheLLest 20.02.2015 10:40

7-40KHYTbIU >Там кстати ещё немало интересных комментариев к статье. Может тоже поможет.

fanatnascar 22.02.2015 11:51

Сервисы яндекса не помогут?

economist 24.02.2015 12:55

КЛАДР уже упразднен, теперь это ОКТМО. В 1С-овских базах есть файлы DBF, которые его реализуют. Как-то решал такую задачу, вот что вышло:

- прямой парсинг и поиск по регуляркам (библа re для Python) нашли 30% точных совпадений

- оставшиеся 12 тыс. строк были обработаны 4-мя операторами вручную в Excel в режиме общего доступа к одному файлу через автофильтр и Ctrl+H за 3 дня.

Да, реальность адресов проверялась по наличию в КЛАДР-е, геосервисы использовать было нереально из-за их ограничений.

40KHYTbIU 24.02.2015 13:16

9-Фанат NASCAR > какой конкретно?
10-economist > спасибо за мнение ексель не вариант.

Уже вытащил название улиц из ФИАСа и нашел либу по нечеткому поиску, осталось собрать воедино и посмотреть что получится.

fanatnascar 25.02.2015 15:52

11-40KHYTbIU >апи карт, что то такое вспоминаю, делал.. Очень давно


Текущее время: 23:47. Часовой пояс GMT +3.