Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Extortioner Сообщений: 854 Откуда: Новосибирск Дата регистрации: 06.10.2005 |
Добрый день. Есть такое ведомство - Минкомсвязь России, у него есть сайт, а на сайте есть интересующий меня реестр (http://rsoc.ru/mass-communications/reestr/media/).
Там сейчас зарегистрированно 88 783 СМИ. Хочется получить две вещи - 1) всю эту базу в удобоваримом виде (к примеру табличка в Excel). 2) каким-то образом автоматизировать поиск по каждому из полученных названий так, чтобы он возвращал либо сайт издания (если он есть), либо хоть контакты типа e-mail. Можно, конечно, всё это делать вручную, но на это по-моему очень много времени уйдёт. Есть у кого-нибудь соображения как можно получить нужный мне результат? Да, чуть не забыл - им я писал, получил стандартную отписку, что, дескать по всем мы вам не дадим, но если нужны данные по какому-то конкретному СМИ, то пишите запрос - предоставим. Исправлено 1 раз(а). Последнее : Extortioner, 14.06.12 08:04 |
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Igor Korolyov Сообщений: 34580 Дата регистрации: 28.05.2002 |
|
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Влад Колосов Сообщений: 22664 Откуда: Ростов-на-Дону Дата регистрации: 05.05.2005 |
Существуют инет-спайдеры всяких калибров для скачивания сайтов.
------------------ Совершенство - это не тогда, когда нельзя ничего прибавить, а тогда, когда нечего убавить. |
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Extortioner Сообщений: 854 Откуда: Новосибирск Дата регистрации: 06.10.2005 |
Да не, вроде после прочтения сопутствующих тем с форума проблем с граббингом сайта, я так понимаю не возникнет.
Проблемы будет по второй части вопроса - можно ли каким-то образом автоматизировать поиск в поисковых системах, чтобы не проверять все 88 тысяч записей вручную? |
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Igor Korolyov Сообщений: 34580 Дата регистрации: 28.05.2002 |
Поиск чего? Там есть поиск по названию издания (включая стандартный для SQL символ подстановки % - они даже не запрещают делать запрос всего-всего-всего через указание в качестве критерия поиска одиночного % - можно и так поступить, если там внутренняя нумерация с большими дырками идёт - запрос с % и ходить потом по "страницам" ответа, а внутри каждой страницы по "ссылкам на издания") - он вполне себе "автоматизируется" (и переход по "страницам результатов" тоже) - получаешь страницу ответа - её можно так же автоматизированно разобрать (хотя может оказаться и геморройно - зависит от того как написан сайт - насколько криворукие были разработчики, или насколько они, подлецы, хотели затруднить тебе автоматизированный разбор ).
И таки да - сайто-выкачивальщики это уже умеют, даже не надо самому писать ничего Даже простейший wget и тот может по ссылкам ходить. ------------------ WBR, Igor |
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Extortioner Сообщений: 854 Откуда: Новосибирск Дата регистрации: 06.10.2005 |
Блин, однако я им сайт положил
Вот нефиг от меня отписками отделываться... |
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Igor Korolyov Сообщений: 34580 Дата регистрации: 28.05.2002 |
Сейчас работает. Может это просто они тебя забанили? Я бы на их месте так и сделал - ну ежели низЗЗя целиком базу выдавать
------------------ WBR, Igor |
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Extortioner Сообщений: 854 Откуда: Новосибирск Дата регистрации: 06.10.2005 |
Не, не забанили, я с друзьями из других городов по аське связывался - тоже думал, что забанили, но они тоже зайти не могли.
|
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
akvvohinc Сообщений: 4203 Откуда: Москва Дата регистрации: 11.11.2008 |
Цитата:Да нет, он хочет, получив всю информацию с этого сайта, получить где-то еще то, чего там нет - адрес сайта или почту этих организаций (и не руками через Гугл). Исправлено 2 раз(а). Последнее : akvvohinc, 22.06.12 01:45 |
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Extortioner Сообщений: 854 Откуда: Новосибирск Дата регистрации: 06.10.2005 |
Ну в общем-то да
Но видимо это достаточно трудно, я сейчас придумал уже другой вариант - буду брать справочник типа 2 гиса, выдирать из него всё, что связано с печатными изданиями и сравнивать с полученной выборкой по этому городу из базы Роскомнадзора. |
Re: Как бы вытянуть базу из Роскомнадзора? | |
---|---|
Crispy Автор Сообщений: 18571 Дата регистрации: 16.05.2005 |
Попробуй не грабить сайт целиком грабилкой сайтов, а использовать скраперы. Они как правило неплохо настраиваются под вытягивание только конкретного контекста, был у меня когда-то такой плагин под первого огнелиса еще, помнится пару раз тянул им спрятанные музыкальные файлы, но потом как-то он затерялся при смене версий браузера за редкой надобностью. А сейчас наткнулся на описание любопытной небольшой проги, которая возможно тебя и удовлетворит:
Ну леченую прогу (если в таком есть необходимость) думаю и сам найдешь без проблем. ;) ------------------ В действительности все иначе, чем на самом деле. (Антуан де Сент-Экзюпери) |
© 2000-2024 Fox Club  |