:: Игры Разума
Как бы вытянуть базу из Роскомнадзора?
Extortioner

Сообщений: 854
Откуда: Новосибирск
Дата регистрации: 06.10.2005
Добрый день. Есть такое ведомство - Минкомсвязь России, у него есть сайт, а на сайте есть интересующий меня реестр (http://rsoc.ru/mass-communications/reestr/media/).
Там сейчас зарегистрированно 88 783 СМИ. Хочется получить две вещи -
1) всю эту базу в удобоваримом виде (к примеру табличка в Excel).
2) каким-то образом автоматизировать поиск по каждому из полученных названий так, чтобы он возвращал либо сайт издания (если он есть), либо хоть контакты типа e-mail.

Можно, конечно, всё это делать вручную, но на это по-моему очень много времени уйдёт. Есть у кого-нибудь соображения как можно получить нужный мне результат?

Да, чуть не забыл - им я писал, получил стандартную отписку, что, дескать по всем мы вам не дадим, но если нужны данные по какому-то конкретному СМИ, то пишите запрос - предоставим.



Исправлено 1 раз(а). Последнее : Extortioner, 14.06.12 08:04
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Igor Korolyov

Сообщений: 34580
Дата регистрации: 28.05.2002
FOR ln1 = 1 TO 100000
запрос и разбор rsoc.ru
ENDFOR
пока не забанят


------------------
WBR, Igor
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Влад Колосов

Сообщений: 22664
Откуда: Ростов-на-Дону
Дата регистрации: 05.05.2005
Существуют инет-спайдеры всяких калибров для скачивания сайтов.


------------------
Совершенство - это не тогда, когда нельзя
ничего прибавить, а тогда, когда нечего убавить.
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Extortioner

Сообщений: 854
Откуда: Новосибирск
Дата регистрации: 06.10.2005
Да не, вроде после прочтения сопутствующих тем с форума проблем с граббингом сайта, я так понимаю не возникнет.
Проблемы будет по второй части вопроса - можно ли каким-то образом автоматизировать поиск в поисковых системах, чтобы не проверять все 88 тысяч записей вручную?
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Igor Korolyov

Сообщений: 34580
Дата регистрации: 28.05.2002
Поиск чего? Там есть поиск по названию издания (включая стандартный для SQL символ подстановки % - они даже не запрещают делать запрос всего-всего-всего через указание в качестве критерия поиска одиночного % - можно и так поступить, если там внутренняя нумерация с большими дырками идёт - запрос с % и ходить потом по "страницам" ответа, а внутри каждой страницы по "ссылкам на издания") - он вполне себе "автоматизируется" (и переход по "страницам результатов" тоже) - получаешь страницу ответа - её можно так же автоматизированно разобрать (хотя может оказаться и геморройно - зависит от того как написан сайт - насколько криворукие были разработчики, или насколько они, подлецы, хотели затруднить тебе автоматизированный разбор ).
И таки да - сайто-выкачивальщики это уже умеют, даже не надо самому писать ничего Даже простейший wget и тот может по ссылкам ходить.


------------------
WBR, Igor
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Extortioner

Сообщений: 854
Откуда: Новосибирск
Дата регистрации: 06.10.2005
Блин, однако я им сайт положил
Вот нефиг от меня отписками отделываться...
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Igor Korolyov

Сообщений: 34580
Дата регистрации: 28.05.2002
Сейчас работает. Может это просто они тебя забанили? Я бы на их месте так и сделал - ну ежели низЗЗя целиком базу выдавать


------------------
WBR, Igor
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Extortioner

Сообщений: 854
Откуда: Новосибирск
Дата регистрации: 06.10.2005
Не, не забанили, я с друзьями из других городов по аське связывался - тоже думал, что забанили, но они тоже зайти не могли.
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
akvvohinc

Сообщений: 4203
Откуда: Москва
Дата регистрации: 11.11.2008
Цитата:
Поиск чего? Там есть поиск по названию издания...
Да нет, он хочет, получив всю информацию с этого сайта, получить где-то еще то, чего там нет - адрес сайта или почту этих организаций (и не руками через Гугл).



Исправлено 2 раз(а). Последнее : akvvohinc, 22.06.12 01:45
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Extortioner

Сообщений: 854
Откуда: Новосибирск
Дата регистрации: 06.10.2005
Ну в общем-то да
Но видимо это достаточно трудно, я сейчас придумал уже другой вариант - буду брать справочник типа 2 гиса, выдирать из него всё, что связано с печатными изданиями и сравнивать с полученной выборкой по этому городу из базы Роскомнадзора.
Ratings: 0 negative/0 positive
Re: Как бы вытянуть базу из Роскомнадзора?
Crispy
Автор

Сообщений: 18571
Дата регистрации: 16.05.2005
Extortioner
Хочется получить две вещи

Попробуй не грабить сайт целиком грабилкой сайтов, а использовать скраперы. Они как правило неплохо настраиваются под вытягивание только конкретного контекста, был у меня когда-то такой плагин под первого огнелиса еще, помнится пару раз тянул им спрятанные музыкальные файлы, но потом как-то он затерялся при смене версий браузера за редкой надобностью. А сейчас наткнулся на описание любопытной небольшой проги, которая возможно тебя и удовлетворит:
SysNucleus WebHarvy v1.5.0.26

WebHarvy is a handy application designed to enable you to automatically extract data from web pages and save the extracted content in different formats. With WebHarvy, capturing data from web pages is as easy as navigating to the pages which contain data and clicking on the data to be captured. WebHarvy will intelligently identify patterns of data occurring in web pages. Using WebHarvy, you can extract data such as product catalogues or search results from a variety of websites which fall in to different categories like Real Estate, Ecommerce, Academic Research, Entertainment, Technology etc. The data extracted from web pages can be saved in a variety of formats. Often web pages display data such as search results in multiple pages. WebHarvy can automatically crawl and extract data from multiple pages.

Simple Point & Click Interface

WebHarvy is a visual web scraper. There is absolutely no need to write any scripts or code to scrape data. You will be using WebHarvy's in-built browser to navigate to web pages. You can select the data to be scraped with mouse clicks. It's that easy !

Intelligently Identifies Patterns

WebHarvy automatically identifies patterns of data occurring in web pages. So if you need to scrape a list of items (name, address, email, price etc) from a web page, you need not do any additional configuration. If the data repeats, WebHarvy will scrape it automatically.

Export Captured Data

You can save the data scraped from web pages in a variety of formats. The current version of WebHarvy allows you to save the captured data as a CSV, TSV or an XML file. You can also export the scraped data to an SQL database.

Capture Data From Multiple Pages

Often web pages display data such as search results in multiple pages. WebHarvy can automatically crawl and extract data from multiple pages. Just point out the 'link to the next page' to WebHarvy and WebHarvy will automatically scrape data from all pages.

Ну леченую прогу (если в таком есть необходимость) думаю и сам найдешь без проблем. ;)


------------------
В действительности все иначе, чем на самом деле.
                                      (Антуан де Сент-Экзюпери)
Ratings: 0 negative/0 positive


Извините, только зарегистрированные пользователи могут оставлять сообщения в этом форуме.

On-line: 7 (Гостей: 7)

© 2000-2024 Fox Club 
Яндекс.Метрика