:: Visual Foxpro, Foxpro for DOS
N-Gram Search Index
ABB

Сообщений: 149
Откуда: Санкт-Петербург
Дата регистрации: 21.10.2006
Встречал кто-либо готовое решение на VFP?
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
of63

Сообщений: 25256
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
На что это похоже?
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
Igor Korolyov

Сообщений: 34580
Дата регистрации: 28.05.2002
На поисковые движки типа гуглового, как я понимаю.

Это надо для естественного языка, или применимо к какому-то другому специфическому мало-словарно-фразосодержащему?
Если первое, то наверняка фокс не потянет. Там же "базы" террабайтные


------------------
WBR, Igor
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
ABB

Сообщений: 149
Откуда: Санкт-Петербург
Дата регистрации: 21.10.2006
Мне нужно для ~ 50 000 слов
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
Igor Korolyov

Сообщений: 34580
Дата регистрации: 28.05.2002
50К это словарный запас на двух "пушкиных", если что

А "фраз" сколько? N какой интересует?
Всё одно сомневаюсь я что фокс подходящая система для решения.

P.S. "готовых реализаций" не видел и не слышал даже что такое есть


------------------
WBR, Igor
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
ABB

Сообщений: 149
Откуда: Санкт-Петербург
Дата регистрации: 21.10.2006
Рассматривается вариант решения следующей задачи. Имеется список населенных пунктов районов ряда областей(ФИАС), как существующих так и исчезнувших. И второй список с большим количеством опечаток который необходимо соединить с первым. Как вариант использовалось расстояние Левенштейна - результат не очень. Рассматривается вариант 3-грам индекса - может результат будет получше?
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
Igor Korolyov

Сообщений: 34580
Дата регистрации: 28.05.2002
В смысле за "фразу" брать "область район нп"? Боюсь не поможет тебе лексический индекс - т.к. если уж там опечаток тьма, то и порядок элементов наверняка перепутан серьёзно, и пропуски элементов будут.
Это как раз к Олегу вопрос - у него есть на фоксе алгоритм для вынимания более-менее приемлемых адресов из г*на. В поиске глянь, он как-то описывал и даже код выкладывал - ещё по КЛАДР, но, полагаю, подход тот же и для ФИАС сгодится.


------------------
WBR, Igor
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
pasha_usue

Сообщений: 3650
Откуда: Е-бург
Дата регистрации: 06.10.2006
Я операторов на такое дело сажу обычно. Один оператор - 500 населённых пунктов в день влёгкую с ретроспективным гуглением.
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
ABB

Сообщений: 149
Откуда: Санкт-Петербург
Дата регистрации: 21.10.2006
Опыт подсказывает, что область- район как правило правильные(или легко правятся). Проблема именно в населенных пунктах.
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
ABB

Сообщений: 149
Откуда: Санкт-Петербург
Дата регистрации: 21.10.2006
Операторов нет
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
of63

Сообщений: 25256
Откуда: Н.Новгород
Дата регистрации: 13.02.2008
Для КЛАДР (от ФИАС мало чем отличается в смысле записи наименований и типов нп) есть коррелятор, написанный кровью, и вряд ли стоящий к повторению/использованию. Громоздкий, как ИИ

Проще использовать Интернет-ресурсы по переводу г*но-записи адреса в запись КЛАДР и ФИАС. Для одиночных записей - бесплатно, пакетный режим - за денешку (копеек 1-20 за адрес где-то... не пользовался). Ссылки поищи на форуме же (искать "КЛАДР"), или в поисковике.
Ratings: 0 negative/0 positive
Re: N-Gram Search Index
346
Автор

Сообщений: 142
Откуда: Ростовская обл.
Дата регистрации: 08.09.2006
может поможет нечеткое сравнение строк. я выуживал ошибки(опечатки) в именах и улицах
www.foxclub.ru
Ratings: 0 negative/0 positive


Извините, только зарегистрированные пользователи могут оставлять сообщения в этом форуме.

On-line: 23 (Гостей: 23)

© 2000-2024 Fox Club 
Яндекс.Метрика