Предыдущая тема :: Следующая тема |
Автор |
Сообщение |
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Чт Фев 27, 2020 6:02 am Заголовок сообщения: |
|
|
Без него не получается парсить сайты |
|
Вернуться к началу |
|
|
Rasty Crackpot цитировать
Репутация: +88/–10
Зарегистрирован: 23.05.2006 Сообщения: 24372
Награды: Нет
|
Добавлено: Чт Фев 27, 2020 11:46 am Заголовок сообщения: |
|
|
Как pip тебе поможет сайты парсить?
pip - это хуевина, которая помогает модули ставить. Не получается с pip разобраться - можешь модули вручную ставить.
1. Качаешь с https://pypi.org/ свой httplib2 и lxml (или другие модули, какими ты сайт хочешь парсить). Модули упакованы в архив с расширением xml.
2. Распаковываешь.
Внутри будут две папки:
модульнейм
модульнейм-версия.dist-info
Вторую папку (dist-info) выкидываешь наxуй. В первой смотришь:
1. Если нет файла setup.py - тупо закидываешь папку в \Lib\ (в папке, где Python установлен). Все, модуль установлен.
2. Если есть setup.py - заходишь в папку (куда распаковал модуль) с помощью командной строки (могут понадобиться права администратора) и оттуда запускаешь этот setup.py |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Чт Фев 27, 2020 2:14 pm Заголовок сообщения: |
|
|
Admin писал(а): | Как pip тебе поможет сайты парсить?
|
Гугл писал что у меня не работает библиотека beautifulSoap из-за того что не установлен pip |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Сб Фев 29, 2020 2:18 pm Заголовок сообщения: |
|
|
Расти спасибо, помогло.
Правда с парсером оказалось сложней чем думал, сказівается пробел в понимании html или как єта ху.йня назівается, та что отображает код страниц браузера?
Отакая хрень получилась
http://prntscr.com/r9hne5
не пойму где лажа
как я понял, class нужен для того что бі вітянуть не весь html код страниці, а только его часть, которая соответствует єтому class
http://prntscr.com/r9hpx9
как то так, вроде все как кнЫжка писала, даже не ругается на код, а результат почему то пустишка |
|
Вернуться к началу |
|
|
Rasty Crackpot цитировать
Репутация: +88/–10
Зарегистрирован: 23.05.2006 Сообщения: 24372
Награды: Нет
|
Добавлено: Сб Фев 29, 2020 8:42 pm Заголовок сообщения: |
|
|
На первом скрине ты пытаешься найти тег "a" с атрибутом class. На втором скрине у тега "a" нет атрибута class. |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Сб Фев 29, 2020 9:20 pm Заголовок сообщения: |
|
|
не могу пока осмыслить это все. я по примеру делал, тело так писало и у него работало(
Там была ошибка в коде, но после того как поправил, лучше не стало( |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Вс Мар 01, 2020 5:51 pm Заголовок сообщения: |
|
|
блять. закралось у меня подозрение что что то не то с библиотеками.
html выводимый Питоном сужественно отличается от того что на странице сайта но какая то схожесть есть. |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Вс Мар 01, 2020 10:17 pm Заголовок сообщения: |
|
|
таки кажись да, было две папки с названием одной библиотеки, + наверно что через анаконду мучался, ща на PyCharm пробую |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Пн Мар 02, 2020 10:26 pm Заголовок сообщения: |
|
|
Расти, сможет знаешь в чем дело? Вытеягиваю кусок html (смотре скрин по сылке), вытягивается все текстовое, ссылки, все кроме одной строки.
В этой строке прячется маленькая картинка типа статичного смайлика.
http://prntscr.com/rakf4e |
|
Вернуться к началу |
|
|
Rasty Crackpot цитировать
Репутация: +88/–10
Зарегистрирован: 23.05.2006 Сообщения: 24372
Награды: Нет
|
Добавлено: Вт Мар 03, 2020 2:45 am Заголовок сообщения: |
|
|
Этой картинки не существует в виде отдельного файла. В теге img, вместо ссылки на файл, xml-код (svg) закодированный с помощью Base64. |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Вт Мар 03, 2020 4:34 pm Заголовок сообщения: |
|
|
Вот зараза. Как думаешь, в виде текста ее реально вынянуть? |
|
Вернуться к началу |
|
|
Rasty Crackpot цитировать
Репутация: +88/–10
Зарегистрирован: 23.05.2006 Сообщения: 24372
Награды: Нет
|
Добавлено: Вт Мар 03, 2020 7:48 pm Заголовок сообщения: |
|
|
Я не до конца понимаю, что ты пытаешься сделать и что у тебя не получается сделать. |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Вт Мар 03, 2020 7:56 pm Заголовок сообщения: |
|
|
У каждой сущности(новость) есть какая то картинка, я хочу спарсить не картинку, а хотя бы текстовое ее отображение (xml-код (svg) закодированный с помощью Base64.). Я вытягиваю всю инфу по каждой сущности и там есть все кроме вот этого названия, которое мне нужно.
Может проблема в том что на сайтах, где api на месяц стоит 150 бачей, что спарсишь? |
|
Вернуться к началу |
|
|
Rasty Crackpot цитировать
Репутация: +88/–10
Зарегистрирован: 23.05.2006 Сообщения: 24372
Награды: Нет
|
Добавлено: Чт Мар 05, 2020 7:47 pm Заголовок сообщения: |
|
|
Так ты может опять не тот тег вытягиваешь |
|
Вернуться к началу |
|
|
Slav Мастер-Флудер I цитировать
Репутация: +31
Зарегистрирован: 06.06.2006 Сообщения: 17133 Откуда: КиевЪ Награды: Нет
|
Добавлено: Чт Мар 05, 2020 8:15 pm Заголовок сообщения: |
|
|
Та вроде все то...данные все вытягиваются, кроме названия этого файла. Может ещё в типе данных загвоздка, text вытягиваю. А какой другой пока не разобрался |
|
Вернуться к началу |
|
|
|