:: Visual Foxpro, Foxpro for DOS
Re: Новый формат выгрузки для ФИАС
Simple777

Сообщений: 33855
Дата регистрации: 05.11.2006
Полено белым снегом крыто,
Да, здесь всё будет шито-крыто.

[sm128]
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
sphinx

Сообщений: 31179
Откуда: Каменск-Уральски
Дата регистрации: 22.11.2006
of63
У мельницы пусть ... ждет!

Всегда к услугам! Но занимать за мсье Королевым!
"После полудня. Возле часовни. я убъю вас там"(с)

;)


------------------
"Veni, vidi, vici!"(с)
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
Саня, давай стенд проверочный чтоли придумаем... Или давай подбеоем набор адресов, дляих разбора, в ТХТ файле? Как?
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
akvvohinc

Сообщений: 4218
Откуда: Москва
Дата регистрации: 11.11.2008
У меня сохранилась база акционеров одной крупной компании за 2000 год, для которой я решал задачу "разбора почтовых адресов". Там почти 160 000 записей. Могу урезать ее до одного поля - "почтовый адрес" и убрать на всякий случай номер квартиры, и устраивайте баттл на здоровье.

Я уже точно не помню, но вроде у меня осталось порядка 5000 записей, с которыми программа не справилась и пришлось подряжать девочек-операторов на ручной подбор из КЛАДРа.

PS
Почтовых индексов там нет, так что легко не будет.



Исправлено 1 раз(а). Последнее : akvvohinc, 02.07.20 21:51
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
alex;

Сообщений: 2852
Откуда: Москва
Дата регистрации: 23.11.2004
лан, все никаких улыбочек



Исправлено 1 раз(а). Последнее : alex;, 03.07.20 20:27
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
Сергей, если не жалко - выложи список адресов. Квартиру можно (нужно) убрать, но в строке-адресе её еще надо найти, а это уже первая фаза парсинга. Например, "пр.Ленина 12-34"... Почтовый индекс плохой помошник, часто неправильный, но бывает, помогает найти регион, например, "603000, пр. Ленина 12-34" довольно однозначно наводит на адрес, а без него - определить в принципе невозможно...



Исправлено 1 раз(а). Последнее : of63, 04.07.20 14:04
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
akvvohinc

Сообщений: 4218
Откуда: Москва
Дата регистрации: 11.11.2008
Хорошо, на неделе сделаю.

А по моему опыту ошибки в индексе случаются реже, чем в названиях населенных пунктов или улиц, но пользоваться им без нужды не требуется. Он помогает в сложных ситуациях (как в твоем примере).
Но все же адреса, в которых индекс есть, и он не соответствует остальным реквизитам, я записывал, чтобы проверить отдельно (вручную).

Квартиры там в большинстве записаны либо формате "дом-кв", либо "кв NNN" и в конце строки, так что убрать их сложно не будет. А строки, в которых квартиры по этим двум шаблонам не окажется, я просто удалю.

А КЛАДР, актуальный на 2000 год, тебе нужен, или ты тоже все хранишь?



Исправлено 4 раз(а). Последнее : akvvohinc, 04.07.20 18:51
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
Конкретный КЛАДР не важен. В том то и фиишка, что правильный парсер найдет соотв. строку КЛАДР в любой его версии, даже если сменилась принадлежность НП каком-либо вышестоящему обьекту. Т.е. в парсере д.б. какой-то ИИ, пропускающий/интерпретирующий неверные на данный момент элементы КЛАДР. для ээтого в КЛАДР есть и неактуальные строки, устаревшие (особые 2 последних символа в CODE), из которых можно gjkexbnm ссылку в актуальную строку.
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
akvvohinc

Сообщений: 4218
Откуда: Москва
Дата регистрации: 11.11.2008
of63
Конкретный КЛАДР не важен. В том то и фиишка, что правильный парсер найдет соотв. строку КЛАДР в любой его версии, даже если сменилась принадлежность НП каком-либо вышестоящему обьекту.
Я уже давно за КЛАДРом не слежу, так что не знаю, насколько хорошо там хранится история переименований и реструктуризаций его объектов.

Так что тебе виднее, найдется ли в текущем КЛАДРе какой-нибудь несуществующий уже лет двадцать улус.
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
> найдется ли в текущем КЛАДРе какой-нибудь несуществующий уже лет двадцать улус

Для этого коррелятор должен не только выдавать подходящую строку КЛАДР, но и оценку похожести, и это не просто количество букв и перестановок в алг.Ливенштейна, а опять функция с элементами ИИ. Например, "1я Строителей" и "2я Строителей" отличаются принципиально (корелляция д.б. близка нулю), но 1я Строителей" и "1 Строителя" должны коррелировать близко к 100%. Т.е. найти адрес в КЛАДР - этого недостаточно, надо иметь оценочную ф-ию качества найденного, и ф-ия эта не тривиальна, я ее подбирал опытным путем. Чем то эта механика похожа на нейросеть, т.е. набор заранее вычисленных весов входных элементов (например числовая часть элемента: "1" и "1я" - это похоже и выходит на выход "1", "1" и "2" - это не похоже, и "2" никак не выход на выход "1"), но я пошел типичным путем
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
akvvohinc

Сообщений: 4218
Откуда: Москва
Дата регистрации: 11.11.2008
of63
Для этого коррелятор должен не только выдавать подходящую строку КЛАДР, но и оценку похожести

Я-то имел в виду более простое - если названия этого улуса вообще уже нет в справочнике, то никакой коррелятор тебе не поможет (максимум - найдешь современное название этого населенного пункта).

of63
"1" и "2" - это не похоже, и "2" никак не выход на выход "1"

Это непохоже, если смотреть на рукопись, но вводя адрес с клавы - это похоже - оператор запросто мог промахнуться и нажать что-то рядом.
Особенно часто я встречал ошибки типа "П-Р", "Д-Л" и т.п.



Исправлено 1 раз(а). Последнее : akvvohinc, 05.07.20 17:19
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
> если названия этого улуса вообще уже нет в справочнике
Селения не пропадают, если нет войны, или оккупации. И названия тоже не так просто исчезают, хотя бы остается в неактуальных записях КЛАДР. А если этого нет... то д.б. ошибка (НП уверенно не найден)...

> ошибки типа "П-Р", "Д-Л" и т.п.
Да, и П-Л, на ФИО это особенно достает (при поиске по ФИО схожая пробла). Здесь должен сработать Ливенштейн. Но есть нюансы - если первая буква ошибочна, то искать надо чуть ли не среди всех первых букв в КЛАДР. Я схалявил, и первую букву считаю безошибочной...
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
akvvohinc

Сообщений: 4218
Откуда: Москва
Дата регистрации: 11.11.2008
Адреса послал в ЛС.
Если не получишь, напиши - а то что-то я не вижу своего сообщения среди исходящих, хотя сообщение, что оно отослано, я видел. Может, ты сначала должен его принять, и тогда оно там появится?
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
Получил.

() В местном ЛС заморочная система - надо поставить галку где-то, что посланное сообщение запомнить, что-то такое. Я тоже забываю, поэтому отвечаю на ЛС с входящим постом...
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
Приступил, пока до КЛАДР дело не дошло. Парсинг строки на адресные элементы (Красноярский кр --> Красноярский - имя, кр-->край - тип) уже вызвал проблы. Обучаю свою парсилку: говорю, что край можно сокращать до 2 символа, что "прс" - это проспект (не встречал такого сокращения)... Парсит крайне медленно почему-то (1с на строку... тоже хз почему)
...
Скажете "кр - это точно край", но кр может быть и в названии "Кр Поляна"...
...
Так, еще незнакомая фишка: Норильск Хантайская 15"А" - в кавычках - это буква дома (типа корпус). Видел раньше скорее всего, но парсер не в курсе.
...
Без костылей не обойтись. Причина - отсутствие явных (запятые) разделителей между адресными единицами. Пока вот такие костыли:
...
Нехорошо записано: г.Норильск Ленинский пр.27 - человек понимает, а сказать парсеру... надо 27 отделить запятой также как после пробела. Но сначала на пляж.



Исправлено 5 раз(а). Последнее : of63, 08.07.20 16:33
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
akvvohinc

Сообщений: 4218
Откуда: Москва
Дата регистрации: 11.11.2008
m.x = STRTRAN(m.x, " прс ", " проспект ") && не знал, что так можно сокращать
Мне тоже приходилось делать такие костыли, но я выносил подобные соответствия в таблицу.

Что касается скорости, то мне тогда пришлось добывать второй комп, делить базу пополам и они (вместе со мной) работали круглосуточно - иначе я бы в договорные сроки не уложился - компы и диски тогда были не в пример нынешним.
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
Taran

Сообщений: 13624
Откуда: Красноярск
Дата регистрации: 16.01.2008
of63
Приступил, пока до КЛАДР дело не дошло. Парсинг строки на адресные элементы (Красноярский кр --> Красноярский - имя, кр-->край - тип) у

Я польщен, че уж.
Мой пункт лабиринт88 в кладре слитно (был). В доках через дефис..
Вообще конечно анус везде. На адрес одна-две строки
Мой адрес прописать - надо шесть.
И также место выдачи паспорта. Вафлисты все . а номер подразделения на что?
Да и инн. Еба-тень и бесперспективняк.
Ну если только ярды рыжому вху-я-(пода)-рить. Твар,...


------------------
Помню на коляске кучу погремух.
Оттого я нервный и немного глух.
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
> но я выносил подобные соответствия в таблицу.

Таблиц докуа. Эти костыли - сокращения, которые не вписываются в имеющиеся таблицы. Просто так в рабочей проге не буду менять имеющиеся таблицы сокращений, обойдемся легким костылингом. Будет их десяток - соберем и их в таблицу костылей, и они станут штатными фичами )


Пока код простой, просто подбираю параметры и костыли именно для твоих данных (что уже есть неправильно). Да код парсера не ИИ, требует ручного вмешательства... У тебя самый неприятный формат записи адреса - без запятых. В этом случае парсер находит слова-сокращения и считает, что справа или слева от них находится наименование, и найдя эту пару обрамляет ее запятыми. Крайне неприятное сочетание типа:
"Мухосранское Ленина 1"

...
прз - это проезд, а не промзона, вероятно... (в SOCRBASE такого нет)
Ленинский пр. - да, почему бы не писать "пр." справа от наименования...
...
Без активного костылинга (расставления запятых, используя человеческие знания региона) никак:
Заполярный Ленина, 1 - это глухо
Никель 1Линия 1 - и это
Даже не используя предварительный парсинг, а тупо ищща каждое встреченное слово в КЛАДР (и учитывая иерархию построения человеческого адреса), и то, этих пос.Заполярный ...
...
Вобщем надо доделывать парсер строки, на предмет возможности:
- добавления особенных сокращений адресных типов (прс, прз...)
- если указаны 1-2 запятые, то это не повод считать, что разделители есть, но и не считать, что их нет. Т.е. режим "есть где есть"
- распознавания строки без типов как набора адресных элементов с типовой иерархией от (дома) улицы вверх к региону
- парсинг сложных случаев невозможен без знания адресного сленга (например, "Норильск" - это точно не улица, а нп. "Ленина" - это не нп, а улица)
...
Переустановил у себя КЛАДР, уже лет дцать переустанавливаю на очередную версию. И вдруг БАЦ - не заполнено поле STATUS в KLADR.dbf. Как начали обсуждение, так сломался КЛАДР - совпадение?



Исправлено 8 раз(а). Последнее : of63, 14.07.20 11:36
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
alex;

Сообщений: 2852
Откуда: Москва
Дата регистрации: 23.11.2004
У меня сейчас реализована на C# загрузка fias_dbf.zip,
затем dbf-ки в csv, затем bulk insert.

А что изменится?
Ratings: 0 negative/0 positive
Re: Новый формат выгрузки для ФИАС
of63

Сообщений: 25244
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
А что такое "загрузка"?
Ratings: 0 negative/0 positive


Извините, только зарегистрированные пользователи могут оставлять сообщения в этом форуме.

On-line: 37 qw2 DmitryKn  (Гостей: 35)

© 2000-2024 Fox Club 
Яндекс.Метрика