Закрыто

Создаем парсер на Python

Тема в разделе "Дизайн и креатив", создана пользователем Im MT, 24 апр 2016.

Цена: 21894р.
Взнос: 199р.
101%

Основной список: 119 участников

Резервный список: 2 участников

Статус обсуждения:
Комментирование ограничено.
  1. 20 май 2016
    #21
    Im MT
    Im MT МодерМодератор Команда форума
    Парсер ничего не выкачивает и не клонирует.
    Доступ к сайту естественно нужен,
    а ещё нужно понимание, что такое парсер :)
     
    1 человеку нравится это.
  2. 20 май 2016
    #22
    Im MT
    Im MT МодерМодератор Команда форума
    Проще говоря,
    будет написано приложение (бот), который авторизуется на сайте (в нашем случае lynda.com) его анализирует, парсит данные и забирает прямые ссылки на видео и субтитры и выкачивает их.
     
    1 человеку нравится это.
  3. 20 май 2016
    #23
    Шанита Дэвис
    Шанита Дэвис БанЗабанен
    А что насчет моей просьбы?
     
  4. 20 май 2016
    #24
    Im MT
    Im MT МодерМодератор Команда форума
    По поводу скриншотов - этого не будет.
    Насчет файлов, в самом руководстве этого не будет, но бонусом добавлю реализацию программы, когда на вход будет не одна ссылка (как в примере), а файл с ссылками.
     
  5. 20 май 2016
    #25
    Шанита Дэвис
    Шанита Дэвис БанЗабанен
    а можно еще перебор аккаунтов, я занимаюсь изучением python и не могу сообразить, как задать, чтобы с определенного аккаунта было загружено N страниц, а когда нужной строки нет на странице (так часто дружить нельзя), то подключался другой аккаунт
     
  6. 20 май 2016
    #26
    Im MT
    Im MT МодерМодератор Команда форума
    Если после изучения данного руководства этот вопрос останется в силе. То, в личной беседе, подскажу, как совершать действия с разных аккаунтов.
     
    1 человеку нравится это.
  7. 21 май 2016
    #27
    GalaxyOnFire
    GalaxyOnFire ЧКЧлен клуба
    А не планируешь ещё какие-нибудь курсы по другим ЯП, например Java или хотя бы азы программирования?

    P.S И есть ли возможность создать парсер(downloader?) для скачки с таких сервисов как netflix, hulu. Или там всё плохо из-за DRM защиты?
     
  8. 21 май 2016
    #28
    Im MT
    Im MT МодерМодератор Команда форума
    Этого итак навалом в интернете, да и я не тот специалист от которого хочется это все услышать
    Не знаю, надо смотреть на них.
     
  9. 22 май 2016
    #29
    Pumpkinhead
    Pumpkinhead ДолжникДолжник
    Ещё проверяющие нужны? :rolleyes:
     
  10. 24 май 2016
    #30
    Im MT
    Im MT МодерМодератор Команда форума
    Приношу извинения перед всем, в том числе и перед проверяющими @Милославский @pensionary @DragonFlame
    Выдача материала на проверку задержится на 2 дня. Линда.ком внесла изменения в авторизацию, стала более сложной (вам будет интересно) :) Нужно подправить главу.
     
    3 пользователям это понравилось.
  11. 24 май 2016
    #31
    Василий Сергеевич
    Василий Сергеевич ОргОрганизатор
    @Im MT Пропустил - какая версия Питона?
     
  12. 24 май 2016
    #32
    Tuto
    Tuto БанЗабанен
    Кто-то ещё на 2 есть?
     
  13. 24 май 2016
    #33
    Im MT
    Im MT МодерМодератор Команда форума
    Будем писать Приложение поддерживающее сразу обе версии
     
    4 пользователям это понравилось.
  14. 27 май 2016
    #34
    Im MT
    Im MT МодерМодератор Команда форума
    Не знал, спасибо.

    Пробежавшись глазами по коду, выяснилось, что youtube-dl использует старое api (то, которое было еще до сделки linkedin), им же я пользовался в первой складчине еще на java. Но сейчас они его меняют, делают новое, оно менее удобное для загрузчиков, необходимо совершать дополнительные действия. (полгода назад добавили новое api к получению видео, неделю назад изменили авторизацию). API не публичное, поэтому находить его можно только анализирую запросы и просматривая исходный код страниц.

    Поскольку в руководстве будет не только описание того, как реализовать парсер, но и как проанализировать ситуацию, то соответственно приложение будет под новое api (поэтому собственно и переписываю главу про авторизацию, т.к. старую авторизацию они убрали, хоть api и осталось и оно продолжает функционировать, но наглядно его проанализировать не сможете).

    И соответственно, данное руководство направленно не на то, чтобы написать крутой загрузчик курсов, а чтобы рассмотреть создание парсера на примере lynda.com. Эдакий how to, направленный на новичков (без использования сложный конструкций), чтобы было от чего уже отталкиваться.
     
    4 пользователям это понравилось.
  15. 1 июн 2016
    #35
    Taranis
    Taranis БанЗабанен
    На проверку уже отдали?
     
  16. 1 июн 2016
    #36
    Im MT
    Im MT МодерМодератор Команда форума
    Да
     
    1 человеку нравится это.
  17. 1 июн 2016
    #37
    Милославский
    Милославский ОргОрганизатор (А)
    Отзыв.

    Для начала мой уровень: практикующий программист-любитель (с парсингом сайтов ранее не работал). Материал, предлагаемый автором, состоит из пдф файла на 30 страниц и исходного кода приложенния, которое мы будем создавать в ходе изучения урока. Времени на проверку потратил немного: час на вдумчиваое изучение текстового материала, час на просмотр кода автора и написания своего.

    Итак, что же нам предлагает автор? Написать на python консольное приложение, которое будет скачивать видео и субтитры определенного курса с сайта lynda.com. Исходя из этого умозаключения, я бы переименовал складчину в что-то вроде "создаем даунлоадер курсов". Безусловно, чтобы скачать курс, нужно осуществить парсинг страницы, но это лишь один из пунктов на пути к цели (скачать курс). В итоге получаем не обучение по парсингу сайта, а разбор конкретного примера по шагам. Функционал используемых модулей рассказывается только в объеме необходимом для работы изучаемого приложения. Дальнейшее освоение предметной темы автор предлагает осуществить самостоятельно, используя документацию и другие открытые источники (их хватает и при должном навыке это не составит особого труда). Не хочу сказать, что это плохо или автор вводит в заблуждение, нет. Напротив, об этом прямо указывается в описании и на первой странице мануала. Просто решил осветить этот вопрос, чтобы не было ложных ожиданий у складчиков. Само приложение, исходники которого идут в комплекте, годится только для образовательных целей. Для комфортного пользования над ним придется хорошенько поработать.

    Само усвоение материала не вызвало у меня затруднений, хотя в отдельных пунктах, думаю, у людей с уровнем вовлеченность в кодинг меншим моего могут возникнуть вопросы. Отсюда вытекает и следующий вопрос - о наличии специальных навыков для надлежащего усвоения материала. Желательно наличие навыков программирования, знакомство с python, HTML, общее понимание принципов работы сайтов.

    В ходе проверки я написал небольшой скриптик по выгрузке названий моих складчин (включает в себя авторизацию на складчике, переход в раздел моих складчин и парсинг страницы с целю получить названия). Дополнительными материалами, кроме как данным курсом, не пользовался. Посему, могу сказать, что материал пригоден для начального погружения в тему. Дальнейшее же совершенствование навыков придется осуществлять из других источников. Хотя автор обещает поддержку, что немаловажно.

    Если пробежаться по описанию складчины и сопоставить с материалом, то несоответствий не будет найдено. Отсюда вывод, что описание соответствует содержанию.
    Кому материал будет полезен: начинающим и заинтересованным в развитии навыков автоматизированной работы с сайтами.
    Кому не порекомендовал бы: желающим получить законченный продукт и не готовым самостоятельно дорабатывать приложение. А также тем, кто не относит себя к новичкам и умеет дружить с гуглом.

    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.

    P.S. немного критики по коду (это для автора скорее). Имхо, неуместно внедрение поддержки двух версий: начинающему прогеру это только добавит проблем. И комментарий-вопрос: зачем передавать значения, которые и так по умолчанию, и зачем передавать в качестве аргумента функцию вывода прогресса? Можно же было ее объявить до функции, в которой она используется и все было бы норм.:)
     
    Последнее редактирование модератором: 16 июн 2016
    8 пользователям это понравилось.
  18. 1 июн 2016
    #38
    Im MT
    Im MT МодерМодератор Команда форума
    Cпасибо, что заметил, вызов прогресс бар остался с моего комбайна (там это имеет иной вид и необходимость так делать), исправлю.
     
  19. 1 июн 2016
    #39
    Милославский
    Милославский ОргОрганизатор (А)
    Ага. Ясно
     
  20. 4 июн 2016
    #40
    Taranis
    Taranis БанЗабанен
    Что то остальные проверяющие затягивают с отзывами :(
    Надеюсь они не начали изучать python ради того, чтобы проверить материал :rolleyes:
     
    1 человеку нравится это.
Статус обсуждения:
Комментирование ограничено.