:: Архив конференции по VFP до 2005 года
Тема работы.
rusl
Автор

Сообщений: 200
Откуда: СПб
Дата регистрации: 01.02.2005
Суть в том, что мне нужно автоматически определять тему сайта на основе критериев постороенных по обучающей выборке.

1. Для начала "грабитель сайтов" написанный на РНР скачивает сайты по темам с DMOZ.org и формирует для них папки с текстовыми файлами (одна страница - один текстовый файл). Таким образом получаем выборку по интересующей нас теме.
2. Далее в действие вступает Фокс. Все текстовые страницы переписываю в мемо-поля таблицы (создавая таким образом для одного сайта одну таблицу с текстовыми страницами внутри мемо-полей).
3. Далее создаю новую двухстолбцовую таблицу, где текст из мемо-полей разбит на слова для каждой страницы (pagesite_1| word1; pagesite_1| word2,... pagesite_59| word1,... и т.д.)
4. Потом считаем для каждого слова каждой страницы частоту и записваем все это в трехстолбцовую таблицу (pagesite_1| word1| 0.0003; pagesite_1| word2 | 0.00051,... pagesite_59| word1 | 0.001,... и т.д.)
5. А далее строятся критерии, в чем собственно и состоит задача моего дисера (их придумать).



Может и можно придумат другой, более эффективный алгоритм. Но пока в этом я не вижу особых изъянов.
Ratings: 0 negative/0 positive
Re: Тема работы.
AleksM

Сообщений: 17881
Дата регистрации: 11.11.2003
Сама идея понятна и как разрулить статобработку без создания необъятных баз с мемо полями вроде тоже.
Но JS заострил вопрос на достоверности этих данных, ради чего и производится статанализ.
Приведенные им аргументы вполне обоснованы.
Ощущение такое, что в описании отсутствует логический цикл обработки информации.




------------------
Лучше переесть, чем недоспать.
Не спеши, а то успеешь.
Ratings: 0 negative/0 positive
Re: Тема работы.
rusl
Автор

Сообщений: 200
Откуда: СПб
Дата регистрации: 01.02.2005
Для динамических страниц придется сделать исключение (как их обработать я не вижу).

Цитата:
Ощущение такое, что в описании отсутствует логический цикл обработки информации.
Я не совсем понял, что Вы имеете ввиду.
Ratings: 0 negative/0 positive
Re: Тема работы.
AleksM

Сообщений: 17881
Дата регистрации: 11.11.2003
Цитата:
Я не совсем понял, что Вы имеете ввиду

То что не был описан способ решения проблем затронутых JS или приведены другие аргументы в защиту работы (я не имею ввиду аргумент защиты самой диссертации .

P.S. Во, человек еще не защищается, а мы ему уже оппонируем.




------------------
Лучше переесть, чем недоспать.
Не спеши, а то успеешь.
Ratings: 0 negative/0 positive
Re: Тема работы.
rusl
Автор

Сообщений: 200
Откуда: СПб
Дата регистрации: 01.02.2005
Цитата:
То что не был описан способ решения проблем затронутых JS
Как я понял из слов JS, проблема в невозможности скачивания динамических страниц. Так и бог с ними. Скорее всего бдет достаточно (в крайнем случае) нединамических страниц сайта. Если нет, то что-нибудь еще придумаю.

Цитата:
или приведены другие аргументы в защиту работы
А это я опять не понял... В защиту актуальности темы или ее алгоритма?
Ratings: 0 negative/0 positive
Re: Тема работы.
AleksM

Сообщений: 17881
Дата регистрации: 11.11.2003
Цитата:
В защиту актуальности темы или ее алгоритма?

Актуальность конечно первична. Алгоритм то разработать (подобрать) можно.




------------------
Лучше переесть, чем недоспать.
Не спеши, а то успеешь.
Ratings: 0 negative/0 positive
Re: Тема работы.
rusl
Автор

Сообщений: 200
Откуда: СПб
Дата регистрации: 01.02.2005
По поводу актуальности темы:

1. С академической точки зрения, даже степень влияния фазы Луны на размножение дождевых червей в в лесостепях Монголии имеет научный интерес.
2. Опять же, это интереснее, чем проводить статрасчеты поступления грузов на склад какого-нибудь таможенного терминала.
3. И третье, эта работа поможет мне в будущем решить одну задачку.

Но вообще, конечно, интересна оптимизация создания таблиц с частотами, так как в Фоксе я не силен.
В любом случае такие таблицы будут основой расчетов и потому без них не обойтись.
Ratings: 0 negative/0 positive
Re: Тема работы.
AleksM

Сообщений: 17881
Дата регистрации: 11.11.2003
Ну раз достигнута внутренняя гармония, осталось только реализовать задуманное, по возможности применив данные советы.
Удачи




------------------
Лучше переесть, чем недоспать.
Не спеши, а то успеешь.
Ratings: 0 negative/0 positive
Re: Тема работы.
rusl
Автор

Сообщений: 200
Откуда: СПб
Дата регистрации: 01.02.2005
А чисто теоретически можно создать хитрый запрос к текстовым файлам (во как!) и сразу получить результирующую таблицу с частотами слов для каждого текстового файла?
Ratings: 0 negative/0 positive
Re: Тема работы.
PaulWist

Сообщений: 14618
Дата регистрации: 01.04.2004
Не только теоретически, но и практически реализуемо




------------------
Есть многое на свете, друг Горацио...
Что и не снилось нашим мудрецам.
(В.Шекспир Гамлет)
Ratings: 0 negative/0 positive


Извините, но у вас нет прав для того, чтобы оставлять сообщения в этом форуме.

On-line: 11 (Гостей: 11)

© 2000-2024 Fox Club 
Яндекс.Метрика