Закрыто

[Python] Scrapy - фреймворк для парсинга

Тема в разделе "Бизнес и свое дело", создана пользователем Im MT, 26 авг 2016.

Цена: 30835р.
Взнос: 349р.
101%

Основной список: 94 участников

Резервный список: 1 участников

Статус обсуждения:
Комментирование ограничено.
  1. 26 авг 2016
    #1
    Im MT
    Im MT МодерМодератор Команда форума

    Складчина: [Python] Scrapy - фреймворк для парсинга

    scrapylogo.png

    По просьбам трудящихся, открываю складчину на подробное руководство по Scrapy.

    Scrapy - это open source python framework для парсинга веб-сайтов.

    В отличие от предыдущей складчины, в которой рассматривался только пример реализации парсера (how-to), в этой будет подробное руководство по последней версии фреймворка.

    Примеры руководства будут построены на реальных сайтах для более детального понимания проблем и их решений.

    В рамках складчины будут рассмотрены следующие темы:
    • Начальный уровень
      • Принципы работы Scrapy. Класс Spider и его разновидности.
      • Класс Item - структура данных Scrapy.
      • Класс Selectors - собственный класс извлечения данных (аналог BeautifulSoup)
      • то, что не вошло в другие разделы (небольшой, но полезный функционал)
    • Продвинутый уровень
      • Обработка и Экспорт полученных данных
      • Расширенные настройки запросов
      • то, что не вошло в другие разделы (небольшой, но полезный функционал)
    • Дополнительная информация
      • Работа с командной строкой
      • Настройка Scrapy
    • Рецепты

    Бонусы*:
    120 складчиков - глава о запуске скриптов в Scrapy Cloud
    120 складчиков - глава об установке и настройке Scrapy Cloud на свой сервер.
    *учитывается кол-во участников только из основного списка на момент активации складчины


    Стоимость: 349 рублей
     
    Последнее редактирование: 19 ноя 2016
    9 пользователям это понравилось.
  2. Последние события

    1. skladchik.com
      Складчина закрыта.
      1 июл 2017
    2. skladchik.com
      Складчина доступна.
      4 май 2017
    3. skladchik.com
      Складчина закрыта.
      13 дек 2016
    4. skladchik.com
      RomanDGX не участвует.
      7 дек 2016

    Последние важные события

    1. skladchik.com
      Складчина закрыта.
      1 июл 2017
    2. skladchik.com
      Складчина доступна.
      4 май 2017
    3. skladchik.com
      Складчина закрыта.
      13 дек 2016
    4. skladchik.com
      Складчина активна.
      21 ноя 2016
  3. Обсуждение
  4. 26 авг 2016
    #2
    Demidka
    Demidka ЧКЧлен клуба
    Будет ли написан парсер?Пример
     
  5. 26 авг 2016
    #3
    bormental
    bormental ШтрафникШтрафник
    Скажите, в складчине будем ждать 80 человек? В любом случае, тема очень интересна
     
  6. 26 авг 2016
    #4
    Im MT
    Im MT МодерМодератор Команда форума
    Да, по ходу руководства. В каждой главе парсер будет усовершенствоваться.
    Специально ждать не будем. Но и старт складчины - не завтра. Времени хватит.
     
    2 пользователям это понравилось.
  7. 29 авг 2016
    #5
    Im MT
    Im MT МодерМодератор Команда форума
    Те, кто готов проверить материал в середине сентября, отпишитесь здесь или в ЛС. Есть два места.
     
  8. 29 авг 2016
    #6
    Василий Сергеевич
    Василий Сергеевич ОргОрганизатор
    Я готов
     
    1 человеку нравится это.
  9. 8 сен 2016
    #7
    Im MT
    Im MT МодерМодератор Команда форума
    Осталось немного до первого бонуса и ровно половина до второго.
    А пока Вы решаетесь записываться или нет, я ищу еще двух проверяющих на середину сентября.
     
    1 человеку нравится это.
  10. 9 сен 2016
    #8
    Xaosss
    Xaosss ЧКЧлен клуба
    Могу выступить проверяющим. Python более менее знаю, есть опыт создания десятка парсеров на BeautifulSoup.
     
  11. 9 сен 2016
    #9
    Im MT
    Im MT МодерМодератор Команда форума
    К сожалению, проверяющими могут быть только участниками со статусом Организатор или Модератор :(
     
  12. 12 сен 2016
    #10
    mukus
    mukus ДолжникДолжник
    Уважаемый Im MT, если не трудно, расскажите подробнее, для каких сайтов будут написаны пауки?
    А еще, последний пункт Рецепты - это pipelines?
     
  13. 12 сен 2016
    #11
    Im MT
    Im MT МодерМодератор Команда форума
    Нет, рецепты - это примеры кода решающие частые проблемы.
    Основной пример, который будет расширяться по всему руководство - парсер для отслеживания скидок в интернет магазине. Это идеальный вариант для развития по нарастающей.

    + рецепты по неохваченным позициям
     
    2 пользователям это понравилось.
  14. 18 сен 2016
    #12
    Im MT
    Im MT МодерМодератор Команда форума
    В относительно не не торопливом темпе ищутся проверяющие. В статусе Модератор или Организатор.
     
    1 человеку нравится это.
  15. 18 сен 2016
    #13
    instocky
    instocky ЧКЧлен клуба (А)
    несколько вопросов по Scrapy:
    1. умеет ли он притворяться браузером(куки, сессии и тп)?
    2. реализована ли поддержка прокси?
    3. поддерживает ли многопоточность?
    4. если на странице реализована технология AJAX - справляется?
     
    1 человеку нравится это.
  16. 18 сен 2016
    #14
    Im MT
    Im MT МодерМодератор Команда форума
    1. Конечно.
    2. Да, с версии 0.8 реализована поддержка прокси.
    3. Имеется.
    4. Все скрипты, что есть на страницы в момент загрузки он обрабатывает.
    Если что-то нужно подгрузить под действием пользователя (клик, скролл) - нет.
    Для этого используются дополнительные запросы или подключается библиотека selenium, которая будет симулировать действия.
     
    2 пользователям это понравилось.
  17. 18 сен 2016
    #15
    instocky
    instocky ЧКЧлен клуба (А)
    На некоторых страницах(например avito) дополнительные данные(телефон) открываются именно по клику.
    Будет ли рассмотрено подключение selenium в рамках поддержки в приватной ветки?
     
  18. 18 сен 2016
    #16
    Im MT
    Im MT МодерМодератор Команда форума
    Такие действия обычно делаются с помощью дополнительного запроса.
    В рецептах добавлю пример.
     
    5 пользователям это понравилось.
  19. 3 окт 2016
    #17
    Im MT
    Im MT МодерМодератор Команда форума
    Первый бонус предварительно* разблокирован.
    *учитывается кол-во участников только из основного списка на момент активации складчины
     
    2 пользователям это понравилось.
  20. 5 окт 2016
    #18
    Im MT
    Im MT МодерМодератор Команда форума
    Еще разочек, к выходным ищутся еще два проверяющих. Два. Всего лишь два. Модераторы или Организаторы.
     
  21. 15 окт 2016
    #19
    Roguerus
    Roguerus ЧКЧлен клуба
    Раз мы находимся в разделе бизнес и свое дело, будет ли раскрыта тема монетизации после изучения материала? Возможно вы скажите подумай сам, но всё же хотелось бы услышать от автора где и как можно применить эти знания для получения финансового результата. Спасибо.
     
    1 человеку нравится это.
  22. 16 окт 2016
    #20
    Im MT
    Im MT МодерМодератор Команда форума
    Более подходящего раздела не было :) Тема монетизации раскрыта не будет, поскольку тут их всего несколько и таки очень слабые.

    1. Создание парсеров/ботов на заказ. Фриланс.
    2. Создание личный проектов использующих ботов. К примеру, сервис по отслеживанию скидок.
    3. Продажа напарсенных данных. Как понимаю, в черных кругах очень часто требуются всякие почты, номера телефонов и т.д.

    Задача складчины познакомить со scrapy, показать как работают внутренние механизмы и научиться ими управлять.

    Кстати, совсем скоро будем собираться ;)
     
    2 пользователям это понравилось.
Статус обсуждения:
Комментирование ограничено.