:: Не фоксом единым
Re: web data scraping
alex;
Автор

Сообщений: 4085
Откуда: Москва
Дата регистрации: 23.11.2004
Гулин Федор
#
##
###

Это заголовки в Markdown типа H1, H2, H3 в Word.
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Раньше эта программа выполнялась, теперь в colab получил вот такие сообщения:
---------------------------------------------------------------------------
RuntimeError Traceback (most recent call last)
/tmp/ipython-input-2-826708112.py in <cell line: 0>()
64
65 if __name__ == '__main__':
---> 66 main()
и ещё вот такие:

60 process = CrawlerProcess(settings)
61 process.crawl(BlogSpider)
---> 62 process.start()
63
64

/usr/local/lib/python3.11/dist-packages/scrapy/crawler.py in start(self, stop_after_crawl, install_signal_handlers)
500 "after", "startup", install_shutdown_handlers, self._signal_shutdown
501 )
--> 502 reactor.run(installSignalHandlers=install_signal_handlers) # blocking call
503
504 def _graceful_stop_reactor(self) -> Deferred[Any]:

/usr/local/lib/python3.11/dist-packages/twisted/internet/asyncioreactor.py in run(self, installSignalHandlers)
251 def run(self, installSignalHandlers=True):
252 self.startRunning(installSignalHandlers=installSignalHandlers)
--> 253 self._asyncioEventloop.run_forever()
254 if self._justStopped:
255 self._justStopped = False

/usr/lib/python3.11/asyncio/base_events.py in run_forever(self)
595 """Run until stop() is called."""
596 self._check_closed()
--> 597 self._check_running()
598 self._set_coroutine_origin_tracking(self._debug)
599

/usr/lib/python3.11/asyncio/base_events.py in _check_running(self)
587 def _check_running(self):
588 if self.is_running():
--> 589 raise RuntimeError('This event loop is already running')
590 if events._get_running_loop() is not None:
591 raise RuntimeError(

RuntimeError: This event loop is already running
делаю всё как раньше, сначала pip install scrapy pandas xlsxwriter, потом копирую код программы в следующую ячейку кода
и нажимаю на стрелку "выполнить"
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Всё установилось, но та же проблема: в Idle Python пишу строку:
pip install pandas
и получаю сообщение: "Syntax error" с указанием на букву "i" в слове install
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Это повтор по ошибке



Исправлено 1 раз(а). Последнее : glaz58, 17.07.25 20:15
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
chunihin-df
В блокноте можно сразу запустить установку scrapy
pip install scrapy
Как в блокноте запустить? В Idle не запускается, сообщает "Syntax error" с указанием на букву "i" в слове "install". В colab раньше всё работало, теперь перестало.
Ratings: 0 negative/0 positive
Re: web data scraping
alex;
Автор

Сообщений: 4085
Откуда: Москва
Дата регистрации: 23.11.2004
pip - это вроде exe

P.S. Устал, не хочется вникать.
Александр, с ИИ, может, быстрее получится решить?
Отправить что и где выполняется и какая ошибка.
gigachat, например



Исправлено 1 раз(а). Последнее : alex;, 17.07.25 21:42
Ratings: 0 negative/0 positive
Re: web data scraping
alex;
Автор

Сообщений: 4085
Откуда: Москва
Дата регистрации: 23.11.2004
Так то DeepSeek думаю умнее чем gigachat
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Мне в DeepSeek отправить сообщения, которые выдал Colab "Runtime error" и т.д.?
Ratings: 0 negative/0 positive
Re: web data scraping
alex;
Автор

Сообщений: 4085
Откуда: Москва
Дата регистрации: 23.11.2004
Да со всеми подробностями.
Цитата:
Colab выдал ошибку...
...

Выполняю ....

В чем проблема?

DeepSeek
Ошибка "This event loop is already running" в Scrapy/Colab
Эта ошибка возникает, когда вы пытаетесь запустить Scrapy crawler в среде, где уже работает асинхронный event loop (например, в Google Colab или Jupyter Notebook).

Причины проблемы
Google Colab/Jupyter уже используют asyncio event loop для своей работы

Scrapy (через Twisted) пытается запустить новый event loop, когда один уже активен

Решения
Вариант 1: Использовать CrawlerRunner вместо CrawlerProcess...



Исправлено 4 раз(а). Последнее : alex;, 18.07.25 16:47
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Как вот эту хорошую программу запустить просто с помощью Python? Программа находится в отдельной папке.
И таких программ должно быть много, так как надо парсить много сайтов. И чтобы выданные таблицы не путались друг с другом.
Ratings: 0 negative/0 positive
Re: web data scraping
alex;
Автор

Сообщений: 4085
Откуда: Москва
Дата регистрации: 23.11.2004
Вспомнил тему о Excel iqy
Задумался о расширении для браузера, которое показывает страницы в режиме иммерсивного чтения и с фолдом как в flexgrid.


Цитата:
Иммерсивное чтение (например, в браузере или Kindle) обычно:

Убирает все лишние элементы интерфейса.

Делает текст крупным, комфортным для глаз.

Позволяет скроллить/пролистывать, иногда выделять или делать заметки.

Цитата:
Правильный путь — это мягкое обезвреживание динамических частей:
* блокировка MutationObserver сайта,
* остановка таймеров,
* изоляция твоего UI в Shadow DOM,
* аккуратная работа с DOM без перезаписи всего дерева.



Исправлено 3 раз(а). Последнее : alex;, 29.11.25 18:34
Ratings: 0 negative/0 positive
Re: web data scraping
alex;
Автор

Сообщений: 4085
Откуда: Москва
Дата регистрации: 23.11.2004
Главное ввязаться в бой. Забросить проще.

[attachment 37352 Screenshot2025-11-29170104.png]

https://github.com/tnsr1/chrome_ext

P.S. И еще добавить outline?



Исправлено 4 раз(а). Последнее : alex;, 29.11.25 17:30
Ratings: 0 negative/0 positive
Re: web data scraping
alex;
Автор

Сообщений: 4085
Откуда: Москва
Дата регистрации: 23.11.2004
Readability действительно поможет извлечь чистый контент
Цитата:
Алгоритм Readability от Mozilla — это библиотека для выделения основного текста на веб-страницах, которая используется в «режиме чтения» (Reader View)
в браузере Firefox. Цель — устранить ненужные элементы (рекламу, навигацию, боковые панели) и оставить за рамками основное содержимое.
https://raw.githubusercontent.com/mozilla/readability/main/Readability.js


А может сохранять статику и в iqy открывать в Excel?



Исправлено 4 раз(а). Последнее : alex;, 29.11.25 19:56
Ratings: 0 negative/0 positive
Re: web data scraping
alex;
Автор

Сообщений: 4085
Откуда: Москва
Дата регистрации: 23.11.2004
Блин прикольно.
Тока пилить еще и пилить


[attachment 37353 Screenshot2025-11-29220724.png]
Ratings: 0 negative/0 positive


Извините, только зарегистрированные пользователи могут оставлять сообщения в этом форуме.

On-line: 4 (Гостей: 4)

© 2000-2025 Fox Club 
Яндекс.Метрика