Тема работы. | |
---|---|
rusl Автор Сообщений: 200 Откуда: СПб Дата регистрации: 01.02.2005 |
Суть в том, что мне нужно автоматически определять тему сайта на основе критериев постороенных по обучающей выборке.
1. Для начала "грабитель сайтов" написанный на РНР скачивает сайты по темам с DMOZ.org и формирует для них папки с текстовыми файлами (одна страница - один текстовый файл). Таким образом получаем выборку по интересующей нас теме. 2. Далее в действие вступает Фокс. Все текстовые страницы переписываю в мемо-поля таблицы (создавая таким образом для одного сайта одну таблицу с текстовыми страницами внутри мемо-полей). 3. Далее создаю новую двухстолбцовую таблицу, где текст из мемо-полей разбит на слова для каждой страницы (pagesite_1| word1; pagesite_1| word2,... pagesite_59| word1,... и т.д.) 4. Потом считаем для каждого слова каждой страницы частоту и записваем все это в трехстолбцовую таблицу (pagesite_1| word1| 0.0003; pagesite_1| word2 | 0.00051,... pagesite_59| word1 | 0.001,... и т.д.) 5. А далее строятся критерии, в чем собственно и состоит задача моего дисера (их придумать). Может и можно придумат другой, более эффективный алгоритм. Но пока в этом я не вижу особых изъянов. |
Re: Тема работы. | |
---|---|
AleksM Сообщений: 17881 Дата регистрации: 11.11.2003 |
Сама идея понятна и как разрулить статобработку без создания необъятных баз с мемо полями вроде тоже.
Но JS заострил вопрос на достоверности этих данных, ради чего и производится статанализ. Приведенные им аргументы вполне обоснованы. Ощущение такое, что в описании отсутствует логический цикл обработки информации. ------------------ Лучше переесть, чем недоспать. Не спеши, а то успеешь. |
Re: Тема работы. | |
---|---|
rusl Автор Сообщений: 200 Откуда: СПб Дата регистрации: 01.02.2005 |
Для динамических страниц придется сделать исключение (как их обработать я не вижу).
Цитата:Я не совсем понял, что Вы имеете ввиду. |
Re: Тема работы. | |
---|---|
AleksM Сообщений: 17881 Дата регистрации: 11.11.2003 |
Цитата: То что не был описан способ решения проблем затронутых JS или приведены другие аргументы в защиту работы (я не имею ввиду аргумент защиты самой диссертации . P.S. Во, человек еще не защищается, а мы ему уже оппонируем. ------------------ Лучше переесть, чем недоспать. Не спеши, а то успеешь. |
Re: Тема работы. | |
---|---|
rusl Автор Сообщений: 200 Откуда: СПб Дата регистрации: 01.02.2005 |
Цитата:Как я понял из слов JS, проблема в невозможности скачивания динамических страниц. Так и бог с ними. Скорее всего бдет достаточно (в крайнем случае) нединамических страниц сайта. Если нет, то что-нибудь еще придумаю. Цитата:А это я опять не понял... В защиту актуальности темы или ее алгоритма? |
Re: Тема работы. | |
---|---|
AleksM Сообщений: 17881 Дата регистрации: 11.11.2003 |
Цитата: Актуальность конечно первична. Алгоритм то разработать (подобрать) можно. ------------------ Лучше переесть, чем недоспать. Не спеши, а то успеешь. |
Re: Тема работы. | |
---|---|
rusl Автор Сообщений: 200 Откуда: СПб Дата регистрации: 01.02.2005 |
По поводу актуальности темы:
1. С академической точки зрения, даже степень влияния фазы Луны на размножение дождевых червей в в лесостепях Монголии имеет научный интерес. 2. Опять же, это интереснее, чем проводить статрасчеты поступления грузов на склад какого-нибудь таможенного терминала. 3. И третье, эта работа поможет мне в будущем решить одну задачку. Но вообще, конечно, интересна оптимизация создания таблиц с частотами, так как в Фоксе я не силен. В любом случае такие таблицы будут основой расчетов и потому без них не обойтись. |
Re: Тема работы. | |
---|---|
AleksM Сообщений: 17881 Дата регистрации: 11.11.2003 |
Ну раз достигнута внутренняя гармония, осталось только реализовать задуманное, по возможности применив данные советы.
Удачи ------------------ Лучше переесть, чем недоспать. Не спеши, а то успеешь. |
Re: Тема работы. | |
---|---|
rusl Автор Сообщений: 200 Откуда: СПб Дата регистрации: 01.02.2005 |
А чисто теоретически можно создать хитрый запрос к текстовым файлам (во как!) и сразу получить результирующую таблицу с частотами слов для каждого текстового файла?
|
Re: Тема работы. | |
---|---|
PaulWist Сообщений: 14618 Дата регистрации: 01.04.2004 |
Не только теоретически, но и практически реализуемо
------------------ Есть многое на свете, друг Горацио... Что и не снилось нашим мудрецам. (В.Шекспир Гамлет) |
© 2000-2024 Fox Club  |