:: Не фоксом единым
Re: web data scraping
chunihin-df

Сообщений: 151
Откуда: Тюмень
Дата регистрации: 18.11.2013
Вот так, например
Ratings: 0 negative/0 positive
Re: web data scraping
dimag

Сообщений: 484
Откуда: Одинцово
Дата регистрации: 17.12.2002
[attachment 37155 deepseek.jpg]
glaz58
dimag
Спроси DeepSeek, например
Можно вариант запроса к Deepseek здесь написать?

Так я же в сообщении Спроси DeepSeek даже прикрепил скриншот с вопросом к DeepSeek. Повторю здесь тогда.


------------------
Never judge a book by its cover.
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58
Автор

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
кусок текста HTML взять из окна "элементы", который открывается для выделенного элемента на сайте "показать код"? При этом как определить начало и конец текста HTML?
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58
Автор

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
До запроса к Deepseek уже написан код, и довольно сложный.
Ratings: 0 negative/0 positive
Re: web data scraping
chunihin-df

Сообщений: 151
Откуда: Тюмень
Дата регистрации: 18.11.2013
glaz58
кусок текста HTML взять из окна "элементы", который открывается для выделенного элемента на сайте "показать код"?
Да, это кусок html, который соответствует позиции в каталоге. Если совсем не хочется разбираться, то запрос к deepseek такой

Привет. Напиши код для scrapy для этого сайта https://lider-vrn.ru/catalog/santekhnika/
* lider-vrn.ru - это ссылка на каталог сантехника, если что (https:// lider-vrn.ru / catalog/santekhnika/ )

И результат
import scrapy
class SantekhnikaSpider(scrapy.Spider):
name = 'santekhnika'
allowed_domains = ['lider-vrn.ru']
start_urls = ['https://lider-vrn.ru/catalog/santekhnika/']
custom_settings = {
'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'DOWNLOAD_DELAY': 1,
'CONCURRENT_REQUESTS_PER_DOMAIN': 2
}
def parse(self, response):
# Парсим товары на странице
products = response.css('div.catalog-item')
for product in products:
yield {
'name': product.css('a.name::text').get().strip(),
'price': product.css('div.price::text').get().replace(' ', '').replace('₽', '').strip(),
'link': response.urljoin(product.css('a.name::attr(href)').get()),
'image': response.urljoin(product.css('img.product-img::attr(src)').get())
}
# Пагинация - ищем следующую страницу
next_page = response.css('a.page-link[rel="next"]::attr(href)').get()
if next_page:
yield response.follow(next_page, callback=self.parse)



Исправлено 1 раз(а). Последнее : chunihin-df, 30.04.25 07:08
Ratings: 0 negative/1 positive
Re: web data scraping
glaz58
Автор

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Спасибо, буду разбираться. Чудеса, да и только!:hi2:
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58
Автор

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Если с DeepSeek работать через телеграм-бота, он требует Edge Web-view runtime. Установил Microsoft Edge, а Web-view runtime всё равно не установился.
Ratings: 0 negative/0 positive
Re: web data scraping
dimag

Сообщений: 484
Откуда: Одинцово
Дата регистрации: 17.12.2002
glaz58
Если с DeepSeek работать через телеграм-бота, он требует Edge Web-view runtime. Установил Microsoft Edge, а Web-view runtime всё равно не установился.

А зачем такой геморрой то ? Просто зарегся и можешь пользоваться. https://chat.deepseek.com/sign_in


------------------
Never judge a book by its cover.




Исправлено 1 раз(а). Последнее : dimag, 03.05.25 21:59
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58
Автор

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Спасибо. Всё получилось. Какие есть ограничения на бесплатное использование?



Исправлено 3 раз(а). Последнее : glaz58, 05.05.25 18:29
Ratings: 0 negative/0 positive
Re: web data scraping
dimag

Сообщений: 484
Откуда: Одинцово
Дата регистрации: 17.12.2002
На чат ограничений нет, деньги за API только


------------------
Never judge a book by its cover.
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58
Автор

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Спасибо. То есть, могу отправлять запросы без ограничений?
Ratings: 0 negative/0 positive
Re: web data scraping
Joys

Сообщений: 3622
Дата регистрации: 25.06.2000
Вы может слать любые запросы, это бесплатно. Обо всех ограничениях если они случатся, вам сообщат. В любом случае все "беседы" будут сохранены.
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58
Автор

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
Спасибо. Надеюсь, я не перегружу нейросеть запросами.
Ratings: 0 negative/0 positive
Re: web data scraping
Гулин Федор

Сообщений: 4679
Откуда: Минск
Дата регистрации: 24.10.2002
тут аналитик проверяла мои правки во view
и нашла одну нестыковку - я спросил как

выгружала в Excel вью и отчет с аксапты и сравнивала их через GPT
вот DeepSeek беслптыный пока не осиливает большие xls
(там 8000 строк но много полей )
а GPT (платный) вполне
еще она Grok юзала - но у меня не взлетело

но вот чтоб создать рабочий prompt я потратил почти 2 дня
GPT делает чего то но не всегда то
там он код питона (Pandas) генерил - я качал код и запускал с Pycharm
но в конце концов смог - т.е потренировашись м.б польза
хотя при похожем таске

но gpt умный - но может иногда даже сам смапить столбцы из 2 экселей
даже елси там заголовки не совсем точно совпадают
вообщем как дополнительный тул вполне себе
Ratings: 0 negative/0 positive
Re: web data scraping
glaz58
Автор

Сообщений: 885
Откуда: Воронеж
Дата регистрации: 09.02.2008
DeepSeek выдала мне по запросу во такой код (для самой критичной части):

import scrapy
class VodosnabzhenieSpider(scrapy.Spider):
name = "vodosnabzhenie"
allowed_domains = ["ekoport.ru"]
start_urls = ["https://ekoport.ru/catalog/vodosnabzhenie/"]
def parse(self, response):
# Пример извлечения названия и ссылки на товары
for product in response.css(".catalog-item"):
yield {
'name': product.css(".catalog-item__title a::text").get(),
'link': response.urljoin(product.css(".catalog-item__title a::attr(href)").get()),
# Предположим, что есть элемент с ценой товара, замените селектор если нужно
'price': product.css(".catalog-item__price::text").get()
}
# Пагинация: следуем по ссылкам на следующие страницы
next_page = response.css(".pagination-next a::attr(href)").get()
if next_page:
yield response.follow(next_page, self.parse)
Уместно ли будет послать этот код с запросом: "Написать код для сохранения результатов в xlsx"?
Ratings: 0 negative/0 positive
Re: web data scraping
dimag

Сообщений: 484
Откуда: Одинцово
Дата регистрации: 17.12.2002
Цитата:
Уместно ли будет послать этот код с запросом: "Написать код для сохранения результатов в xlsx"?

Дело не в том уместно или нет, ИИ без разницы, он ответит на любой вопрос и сгенерирует тебе код. Только все равно придется его немного править, чтоб он заработал. Он работает как помошник, делает "грязную работу" за тебя и избавляет от рутины.


------------------
Never judge a book by its cover.
Ratings: 0 negative/0 positive
Re: web data scraping
dimag

Сообщений: 484
Откуда: Одинцово
Дата регистрации: 17.12.2002
Гулин Федор
выгружала в Excel вью и отчет с аксапты и сравнивала их через GPT
вот DeepSeek беслптыный пока не осиливает большие xls
(там 8000 строк но много полей )

Вот промт для анализа большой таблицы:
Автор промта Михаил Омельченко
# Я загрузил Excel-файл xxxxx_sales_data.xlsx с четырьмя листами:
## Клиенты: ID клиента, Имя, Фамилия, Город, Дата регистрации
- Товары: ID товара, Название товара, Категория, Цена на единицу
- Заказы: ID заказа, ID клиента, Дата заказа, Статус заказа
- Позиции заказов: ID заказа, ID товара, Количество, Цена за единицу, Сумма
## Проанализируй эти таблицы по следующим шагам:
### 1. Проверька данных:
Проверь корректность связей:
- Все ли ID клиента из Заказы присутствуют в Клиенты?
- Все ли ID товара из Позиции заказов есть в Товары?
- Проверь, правильно ли рассчитана колонка Сумма (должна быть Количество * Цена за единицу) в Позиции заказов
- Найди дубликаты по ID заказов или ID клиента, а также пропущенные или подозрительные значения
### 2. Объединение таблиц: Создай объединённую таблицу, где каждая строка:
одна позиция заказа, включая:
- Дата заказа
- Статус заказа
- Название товара и категория
- Количество, цена и категория
- Имя и фамилия клиента, город
### 3. Анализ:
- Общий выручка по статусам заказов
- Top-10 товаров по количеству продаж
- Top-5 клиентов по выручке
- Средний чек по завершённым заказам
- Город с наибольшей выручкой
### 4. Визуализация:
- График выручки по датам или неделям
- Диаграмма долей заказов по статусу
- Барчарт популярных товаров
- Диаграмма по городам по объёму продаж
### 5. Выводы:
- Подведи итоги: кто ключевые клиенты и товары
- Есть ли ошибки, выбросы, аномалии?
- Что стоит оптимизировать или улучшить?


------------------
Never judge a book by its cover.




Исправлено 2 раз(а). Последнее : dimag, 15.05.25 09:36
Ratings: 0 negative/1 positive
Re: web data scraping
dimag

Сообщений: 484
Откуда: Одинцово
Дата регистрации: 17.12.2002
[attachment 37163 continue.jpg]
Гулин Федор
GPT делает чего то но не всегда то
там он код питона (Pandas) генерил - я качал код и запускал с Pycharm

Для того, чтобы эффективно писать код, лучше использовать доступ по API и например addon Continue, потому, что там можно указать ИИ модель. Я использую Claude (он заточен для написания кода) и тогда можно легко передать нужный контекст, например файлы (я выделил красным) для генерации кода или даже можно подключить коннект к локалной БД и тогда он начнет очень хорошо писать запросы зная структуру данных. Поэтому если у ИИ есть контекст, то сгенерированный код получается очень качественным.


------------------
Never judge a book by its cover.
Ratings: 0 negative/1 positive
Re: web data scraping
Гулин Федор

Сообщений: 4679
Откуда: Минск
Дата регистрации: 24.10.2002
интересно - но у меня задача не стояла в написании кода
было 2 экселя
один из моего View который я делал
2-й из отчета аксапты
всю черновую работу сделала аналитик сама - там реально много полей (70+)
(кстати по идее и маппинг полей GPT может пробовать сам сделать - но там точно придется пободаться)
и темплейт промпта у меня был
т.е мне тупо надо было сравнить 2 файла и найти там дубли и несоотвествия

и вот часть оно находило верно
а часть (NULL) выдавало лишних ....
ну т.е я мог просто фильтрануть выходной эксель и убрать их - но появился СПОРТИВНЫЙ интерес заставить GPT сгенерить тот xls который мне нужен

а не давно заюзал его еще для создания документации по кубу
выдал через SSMS описание куба (xmla но в реальности json)
и 2 часа бодался чтобы он сгенерил удобно читаемый Word
дня через 4 заметил что часть информации не попала и так как prompt рабочий был (я в конце просил его сгенерить)
подправил и за пол.часика догрузил инф-цию (хотя 7-9 итераций все равно ушло)
и результат меня кстати порадовал реально удобней читать с Word чем с json.

а насчет генерации кода - мне сдается Python он будет классно генерить - ибо я вижу что эти 2 задачи он решал с помощью его
про остальные ХЗ

ps а да еще спрашивал как сгенерить мс-скл универсальную процедуру для создания хэша по всем полям (учитывая NULL)
вполне нормальная заготовка была
Ratings: 0 negative/0 positive
Re: web data scraping
Гулин Федор

Сообщений: 4679
Откуда: Минск
Дата регистрации: 24.10.2002
dimag
Гулин Федор
выгружала в Excel вью и отчет с аксапты и сравнивала их через GPT
вот DeepSeek беслптыный пока не осиливает большие xls
(там 8000 строк но много полей )

Вот промт для анализа большой таблицы:
Автор промта Михаил Омельченко
# Я загрузил Excel-файл xxxxx_sales_data.xlsx с четырьмя листами:
## Клиенты: ID клиента, Имя, Фамилия, Город, Дата регистрации
- Товары: ID товара, Название товара, Категория, Цена на единицу
- Заказы: ID заказа, ID клиента, Дата заказа, Статус заказа
- Позиции заказов: ID заказа, ID товара, Количество, Цена за единицу, Сумма
## Проанализируй эти таблицы по следующим шагам:
### 1. Проверька данных:
Проверь корректность связей:
- Все ли ID клиента из Заказы присутствуют в Клиенты?
- Все ли ID товара из Позиции заказов есть в Товары?
- Проверь, правильно ли рассчитана колонка Сумма (должна быть Количество * Цена за единицу) в Позиции заказов
- Найди дубликаты по ID заказов или ID клиента, а также пропущенные или подозрительные значения
### 2. Объединение таблиц: Создай объединённую таблицу, где каждая строка:
одна позиция заказа, включая:
- Дата заказа
- Статус заказа
- Название товара и категория
- Количество, цена и категория
- Имя и фамилия клиента, город
### 3. Анализ:
- Общий выручка по статусам заказов
- Top-10 товаров по количеству продаж
- Top-5 клиентов по выручке
- Средний чек по завершённым заказам
- Город с наибольшей выручкой
### 4. Визуализация:
- График выручки по датам или неделям
- Диаграмма долей заказов по статусу
- Барчарт популярных товаров
- Диаграмма по городам по объёму продаж
### 5. Выводы:
- Подведи итоги: кто ключевые клиенты и товары
- Есть ли ошибки, выбросы, аномалии?
- Что стоит оптимизировать или улучшить?

Кстати вопрос
#
##
###
это для себя
или это помогает GPT - типа он понимает что это вложенность (?? какая то)
Ratings: 0 negative/0 positive


Извините, только зарегистрированные пользователи могут оставлять сообщения в этом форуме.

On-line: 3 (Гостей: 3)

© 2000-2025 Fox Club 
Яндекс.Метрика