Работа с адресами Есть данные, где в строке задана улица и номер дома. Данные вводятся, видимо, вручную, есть орфографические ошибки и нет конкретного формата(шаблона). Какие есть средтсва для приведения строки с адресом к единому виду и с проверкой на корректность? |
(0) Откройте для себя КЛАДР. |
1-Ткачик > Открыл, ..., закрыл - не помогло. Еще есть? Данные приходят из вне, влиять на них не могу. Необходимо как на картографических сервисах, если пользователь ввел не верно с опечаткой адрес, понимать что пользователь подразумевал. Есть такое в виде либы или сервиса? Желательно бесплатно, так как проект не коммерческий для фана. |
(2) Фантазия пользователей в написании (особенно - в сокращениях) адресов, помноженная на их (не)грамотность делает задачу труднорешаемой. Но все-таки более реальной, чем задача "понимать" для компьютера. Гуглите "нечеткий поиск адресов", а я - пас. |
Это не гарантирует корректность. Введенный с клавиатуры адрес в компьютер ещё не гарантирует соответствие прописке по паспорту. Подводных камней и без этого будет много. Иногда нужно смириться с ситуацией и принять входные данные "как есть", либо заставить вводить по шаблону. Пользователь кстати часто предпочитает выбрать из списка, если этот сервис предоставлять ненавязчиво. |
0-40KHYTbIU > есть такая хорошая вещь под названием "идентификация". Режем КЛАДР до уровня улицы, далее пишем формочку в которой посекторно будет анализироваться присланный адрес и выдаваться предполагаемый правильный адрес, при правильной идентификации неверные данные заменяются. |
Вот интересные мысли с хабра по этому поводу. Разбор адреса с помощью "нечётких регулярных выражений" [url]http://habrahabr.ru/post/192518/[/url] Там есть библиотека под яву и си. |
Спасибо Ткачику за наводку на "нечеткий поиск адресов". 5-1isadmin > Примерно так и предполагаю. 6-SheLLest > Ок, посмотрю. |
7-40KHYTbIU >Там кстати ещё немало интересных комментариев к статье. Может тоже поможет. |
Сервисы яндекса не помогут? |
КЛАДР уже упразднен, теперь это ОКТМО. В 1С-овских базах есть файлы DBF, которые его реализуют. Как-то решал такую задачу, вот что вышло: - прямой парсинг и поиск по регуляркам (библа re для Python) нашли 30% точных совпадений - оставшиеся 12 тыс. строк были обработаны 4-мя операторами вручную в Excel в режиме общего доступа к одному файлу через автофильтр и Ctrl+H за 3 дня. Да, реальность адресов проверялась по наличию в КЛАДР-е, геосервисы использовать было нереально из-за их ограничений. |
9-Фанат NASCAR > какой конкретно? 10-economist > спасибо за мнение ексель не вариант. Уже вытащил название улиц из ФИАСа и нашел либу по нечеткому поиску, осталось собрать воедино и посмотреть что получится. |
11-40KHYTbIU >апи карт, что то такое вспоминаю, делал.. Очень давно |
Текущее время: 23:47. Часовой пояс GMT +3. |