4.88889/5, Отзывов: 9
Закрыто

[O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

Тема в разделе "Программирование", создана пользователем Booba, 26 авг 2015.

Цена: 15228р.
Взнос: 167р.
107%

Основной список: 105 участников

Резервный список: 14 участников

Статус обсуждения:
Комментирование ограничено.
  1. 28 янв 2016
    #21
    definet
    definet ЧКЧлен клуба
    По смыслу предложения: все заголовки страницы (статьи) находятся в тегах h1. Здесь заголовки - имеется ввиду сам текст заголовка; то, что нужно спарсить. А h1 (header) - это тег, разметка; где эти заголовки лежат. Тег title тут не упоминается. Если так понимать, то всё правильно написано.
    Да там и сама фраза "извлечь html с домена" не совсем типичная. Google на ["retrieving * html * from * domain"] возвращает всего 3 результата. С такой фразой, по-моему что from domain name, что просто from domain - всё-равно странно) Вот я и подумал, может в английском это звучит правильно, но, типа - по-простому.
     
  2. 19 мар 2016
    #22
    Monogatari
    Monogatari ЧКЧлен клуба
    Что такое веб-скрапинг?
    Автоматизированный сбор данных из Интернета существует столько же, сколько сам Интернет. Несмотря на то, что веб-скрапинг (web scraping) не является новым термином, раньше это направление было больше известно под названием анализ экранных или интерфейсных данных (screen scraping), интеллектуальный анализ данных (data mining), сбор веб-данных (web harvesting). Похоже, что на сегодняшний день общее мнение склоняется в пользу термина веб-скрапинг (web scraping), который я и буду использовать на протяжении всей книги, хотя время от времени буду называть программы веб-скрапинга роботами (bots). В теории веб-скрапинг – это сбор данных с помощью любых средств, кроме программ, использующих API (или человека, использующего веб-браузер).
    Чаще всего веб-скрапинг осуществляется с помощью программы, которая автоматически запрашивает веб-сервер, запрашивает данные (HTML и другие файлы, которые размещены на веб-страницах), а затем выполняет парсинг этих данных, чтобы извлечь необходимую информацию. На практике веб-скрапинг охватывает широкий спектр методов и технологий программирования, таких, как анализ данных и информационная безопасность. Эта книга посвящена основам веб-скрапинга и краулинга (Часть I) и раскрывает некоторые сложные темы (Часть II).
    Зачем нужен веб-скрапинг?
    Если для Вас единственным способом доступа к Интернету является браузер, Вы теряете огромный спектр возможностей. Хотя браузеры удобны для выполнения JavaScript, вывода изображений и представления объектов в более удобочитаемом формате (помимо прочего), веб-скраперы удобны для сбора и обработки больших объемов данных (помимо прочего). Вместо однократного просмотра одной страницы на дисплее монитора, Вы можете просматривать базы данных, которые уже содержат тысячи или даже миллионы страниц.
    Кроме того, веб-скраперы могут проникнуть в такие места, куда традиционные поисковые системы проникнуть не могут. Поиск Google по "cheapest flights to Boston" выдаст множество рекламных сайтов и популярных сайтов заказа авиабилетов. Google возвращает лишь то, что эти веб-сайты сообщают на своих страницах, а не точные результаты в ответ на различные запросы, введенные в системе заказа авиабилетов. Тем не менее правильно разработанный веб-скрапер может собрать данные о ценах на авиабилеты до Бостона за определенный временной интервал на различных веб-сайтах и подсказать оптимальное время для покупки авиабилета.
     
  3. 21 мар 2016
    #23
    pensionary
    pensionary ОргОрганизатор (А)
    Образец перевода и оформления
    [​IMG]
     
    5 пользователям это понравилось.
  4. 23 мар 2016
    #24
    Monogatari
    Monogatari ЧКЧлен клуба
    Продлите сбор взносов
     
    1 человеку нравится это.
  5. 25 мар 2016
    #25
    Zetterberg
    Zetterberg ДолжникДолжник
    Мля, не успел записаться... Уже нельзя?
     
  6. 26 мар 2016
    #26
    marussia
    marussia ОргОрганизатор (А)
    Кнопку Записаться нажать пробовали?
     
    1 человеку нравится это.
  7. 26 мар 2016
    #27
    hedger
    hedger ЧКЧлен клуба
    Хочу поинтересоваться когда выложите, уж очень нужна книженция прям вот горит .......
     
  8. 26 мар 2016
    #28
    OlegSPb
    OlegSPb ЧКЧлен клуба
    Пока все участники не внесут деньги, организаторы книгу не выложат. Сейчас собрано лишь 38% от гонорара переводчику. Как-то народ не торопится платить. Увы...
     
Статус обсуждения:
Комментирование ограничено.