N-Gram Search Index | |
---|---|
ABB Сообщений: 149 Откуда: Санкт-Петербург Дата регистрации: 21.10.2006 |
Встречал кто-либо готовое решение на VFP?
|
Re: N-Gram Search Index | |
---|---|
of63 Сообщений: 25256 Откуда: Н.Новгород Дата регистрации: 13.02.2008 |
На что это похоже?
|
Re: N-Gram Search Index | |
---|---|
Igor Korolyov Сообщений: 34580 Дата регистрации: 28.05.2002 |
На поисковые движки типа гуглового, как я понимаю.
Это надо для естественного языка, или применимо к какому-то другому специфическому мало-словарно-фразосодержащему? Если первое, то наверняка фокс не потянет. Там же "базы" террабайтные ------------------ WBR, Igor |
Re: N-Gram Search Index | |
---|---|
ABB Сообщений: 149 Откуда: Санкт-Петербург Дата регистрации: 21.10.2006 |
Мне нужно для ~ 50 000 слов
|
Re: N-Gram Search Index | |
---|---|
Igor Korolyov Сообщений: 34580 Дата регистрации: 28.05.2002 |
50К это словарный запас на двух "пушкиных", если что
А "фраз" сколько? N какой интересует? Всё одно сомневаюсь я что фокс подходящая система для решения. P.S. "готовых реализаций" не видел и не слышал даже что такое есть ------------------ WBR, Igor |
Re: N-Gram Search Index | |
---|---|
ABB Сообщений: 149 Откуда: Санкт-Петербург Дата регистрации: 21.10.2006 |
Рассматривается вариант решения следующей задачи. Имеется список населенных пунктов районов ряда областей(ФИАС), как существующих так и исчезнувших. И второй список с большим количеством опечаток который необходимо соединить с первым. Как вариант использовалось расстояние Левенштейна - результат не очень. Рассматривается вариант 3-грам индекса - может результат будет получше?
|
Re: N-Gram Search Index | |
---|---|
Igor Korolyov Сообщений: 34580 Дата регистрации: 28.05.2002 |
В смысле за "фразу" брать "область район нп"? Боюсь не поможет тебе лексический индекс - т.к. если уж там опечаток тьма, то и порядок элементов наверняка перепутан серьёзно, и пропуски элементов будут.
Это как раз к Олегу вопрос - у него есть на фоксе алгоритм для вынимания более-менее приемлемых адресов из г*на. В поиске глянь, он как-то описывал и даже код выкладывал - ещё по КЛАДР, но, полагаю, подход тот же и для ФИАС сгодится. ------------------ WBR, Igor |
Re: N-Gram Search Index | |
---|---|
pasha_usue Сообщений: 3650 Откуда: Е-бург Дата регистрации: 06.10.2006 |
Я операторов на такое дело сажу обычно. Один оператор - 500 населённых пунктов в день влёгкую с ретроспективным гуглением.
|
Re: N-Gram Search Index | |
---|---|
ABB Сообщений: 149 Откуда: Санкт-Петербург Дата регистрации: 21.10.2006 |
Опыт подсказывает, что область- район как правило правильные(или легко правятся). Проблема именно в населенных пунктах.
|
Re: N-Gram Search Index | |
---|---|
ABB Сообщений: 149 Откуда: Санкт-Петербург Дата регистрации: 21.10.2006 |
Операторов нет
|
Re: N-Gram Search Index | |
---|---|
of63 Сообщений: 25256 Откуда: Н.Новгород Дата регистрации: 13.02.2008 |
Для КЛАДР (от ФИАС мало чем отличается в смысле записи наименований и типов нп) есть коррелятор, написанный кровью, и вряд ли стоящий к повторению/использованию. Громоздкий, как ИИ
Проще использовать Интернет-ресурсы по переводу г*но-записи адреса в запись КЛАДР и ФИАС. Для одиночных записей - бесплатно, пакетный режим - за денешку (копеек 1-20 за адрес где-то... не пользовался). Ссылки поищи на форуме же (искать "КЛАДР"), или в поисковике. |
Re: N-Gram Search Index | |
---|---|
346 Автор Сообщений: 142 Откуда: Ростовская обл. Дата регистрации: 08.09.2006 |
может поможет нечеткое сравнение строк. я выуживал ошибки(опечатки) в именах и улицах
www.foxclub.ru |
© 2000-2024 Fox Club  |