[zennoposter] Система граббинга html сайтов от аналитика

Тема в разделе "Бизнес и свое дело", создана пользователем analytic, 21 фев 2015.

Статус обсуждения:
Комментирование ограничено.
  1. 21 фев 2015
    #1
    analytic
    analytic ОргОрганизатор (А)
    fotolia_48109314.jpg



    Под конкретные задачи - нужны конкретные лендинги (html сайты).

    Имея на руках нужный сайт - и имея хотя бы начальный уровень знаний HTML - мы можем быстро (зависит от Вашего опыта) адаптировать данный сайт под наши задачи:
    1) Адаптация дизайна и текста под наш продукт/услугу
    2) Добавления веб аналитики - для анализа взаимодействия с сайтом и отслеживания бот-трафика по кампаниям/событиям и т.п.
    3) Добавление партнерских ссылок или ссылок на платежные агрегаты
    4) Другие задачи

    Так вот - поиск и внедрение лендингов (Html сайтов) с учетом тематичности товаров/услуг - Важный элемент в электронной коммерции/партнерском маркетинге/емейл маркетинге и т.п.

    При этом тематичность - это один из Важных приоритетов. Скачивать в ручную - долго и нудно и не всегда получаем желаемый результат.

    Предлагаю Вашему вниманию авторскую складчину - "Система граббинга сайтов".

    Что будет в складчине:
    1) "Система граббинга сайтов от аналитика" - Автоматизация (Zennoposter+PHP)
    2) Инструкция (скорее всего pdf)
    3) Таблица с информацией о сайтах/лендингах (HTML формат) themeforest - более 5400 с возможностью сортировки по категориям
    4) Таблица с информацией о сайтах/лендингах (HTML формат) templatemonster - более 6500 с возможностью сортировки по категориям
    5) Особенности работы с закодированным javascript от templatemonster

    Требования к сайтам:
    1) Html формат
    2) Элементы сайта (картинки, js, css) - хранятся на одном домене (это выполняется в 99,9% )

    Особенности "Системы граббинга сайтов от аналитика":
    1) Работа системы возможна в несколько потоков (1-20)
    2) Для работы системы не нужен хостинг (граббинг идёт через Open server). Что обеспечивает отсутствие возможных претензий на подозрительную активность от хостеров.
    3) В процессе граббинга - данные сохраняются на Вашем компьютере в правильной структуре (папки, файлы и т.п.) - это не DOM сохранение файлов
    4) Возможен граббинг не только одностраничников, но и сложных HTML сайтов с разветвленной структорой (возможно указывать глубину сканирования html ссылок)
    5) Процесс граббинга - автоматизирован и идёт по указанному Вами списку URL. Т.е. Вы указали список URL - запустили процесс и отдыхаете (спустя 1-2 часа на Вашем компьютере 50-300 сайтов (количество зависит от числа потоков и глубины Html связей))
    6) Среднее время на граббинг среднего одностраничника в один поток - 5-7 минут
    7) закрытый проект Зеннопостер

    п.с. ориентировочно через 2-3-4 недели отдам на проверку. Пока нет инструкции, сам системой пользуюсь с октября 2014 =)
     
    Последнее редактирование: 14 мар 2015
    3 пользователям это понравилось.
  2. 21 фев 2015
    #2
    Nice Method
    Nice Method ЧКЧлен клуба
    Тема от Аналитика? Вписываюсь не глядя.
     
    6 пользователям это понравилось.
  3. 21 фев 2015
    #3
    NubClub
    NubClub СкладчикСкладчик
    Чем это отличается от парсера "контентдовнлоадера" и иже с ними?
     
  4. 21 фев 2015
    #4
    analytic
    analytic ОргОрганизатор (А)
    Описанием и автоматизацией
     
  5. 21 фев 2015
    #5
    varik
    varik ЧКЧлен клуба
    5) Процесс граббинга - автоматизирован и идёт по указанному Вами списку URL

    Где брать список урл? если парсить в авто режиме по каким признакам парсить html 5?
     
  6. 21 фев 2015
    #6
    analytic
    analytic ОргОрганизатор (А)
    В складчине прикладываются списки (themeforest templatemonster) + самостоятельно можно поискать лендинги через поисковые системы

    Надо отсортировать списки по нужным Вам категориям и проверить выполнение требований к сайту (иногда на демо выкладывают скриншот сайта или сайт выложен не в html формате)

    Признак html - сайт вида site.ru/info.html
     
    1 человеку нравится это.
  7. 21 фев 2015
    #7
    pterodaktil
    pterodaktil ДолжникДолжник
    правильно ли я понял что это программа с помощью которой можно выдирать шаблоны c TemplateMonster автоматически?
    если да - для этого нужно покупать ZennoPoster?
     
  8. 21 фев 2015
    #8
    analytic
    analytic ОргОрганизатор (А)
    Правильно...отмечу, что работая с TemplateMonster- там надо ещё заменить закодированные файлы javascript

    Покупать Зеннопостер надо.
     
    Последнее редактирование модератором: 22 апр 2015
  9. 21 фев 2015
    #9
    Dexter Morgan
    Dexter Morgan БанЗабанен
    Интересна тема. Занимаюсь лендингами.
    Буду рад протестить материал, когда он будет готов.
     
    1 человеку нравится это.
  10. 21 фев 2015
    #10
    Менталист
    Менталист БанЗабанен
    Доброго времени суток!
    По мере готовности материала-могу взять на проверку.
    Уж больно интересные шаблоны стали появляться, на все не успеть со складчинами;)
     
    1 человеку нравится это.
  11. 23 фев 2015
    #11
    Stereotip
    Stereotip ЧКЧлен клуба
    1. Зачем грабить в таком количестве коды? Не понимаю пока что этого момента. Понимаю, когда надо скопировать понравившейся сайт. А тонны кода.... Объясните, пожалуйста.
    2. система обрабатывает формы заказа (на тех же лендингах)? что мне надо будет сделать для полноценной работы формы заказа после обработки системой?
    3. в каком виде будут сохранены скачанные страницы многостраничного сайта? для дальнейшей работы хотелось бы понимать структуру формирования кода вашей системой
     
  12. 23 фев 2015
    #12
    analytic
    analytic ОргОрганизатор (А)
    Хорошие вопросы;):
    1) Грабить в таком количестве и не надо, просто у каждого бывают свои запросы...
    скажем о частных случаях:
    -хочется сделать клон продажника (в частности потом за счёт 2 темы по массовым рассылкам его (клон) размножить - и запустить емейл рассылки или запустить контекстную рекламу по клонам - что уже по определению - экономия бюджета в 3-5 раз)
    - хочется выложить на своём сайте или с кем то поделиться
    - хочется по выбирать
    - продвинутый уровень - хочется проанализировать эффекты javascripts или по выбирать красивые клипатрты для своего лендинга. Потом из составных частей сделать своё.
    - другие варианты

    2) Нет не обрабатывает. Т.е. php файлы сохраняться, но их надо будет править в ручную
    3) На входе список uils на выходе папки domain1,domain2...внутри каждой папки файлы сайта в соотвествии с номером url. Файлы и папки имеют правильную сруктуру -и запуск любого html файла в этой папке через любой браузер запускает сайт.
     
    1 человеку нравится это.
  13. 23 фев 2015
    #13
    Stereotip
    Stereotip ЧКЧлен клуба
    спрошу по другому) вот возникнет у меня желание - на скопированном многостраничнике заменить контент по всем страницам... ?
    или захочу отключить несколько страниц от индекса... ?
     
  14. 23 фев 2015
    #14
    analytic
    analytic ОргОрганизатор (А)
    Не понял вопроса - Так как не вижу проблемы - открываешь редактор и правишь....дальше всё зависит от Вашего опыта
     
  15. 24 фев 2015
    #15
    Depric
    Depric СкладчикСкладчик
    Пару вопросов можно.
    Вот это интересно, а ip не забанят, если через Open server ?
    Или к Open server как-то прокси прикручены?
    И цена это всего 1500 или с каждого?
     
  16. 24 фев 2015
    #16
    varik
    varik ЧКЧлен клуба
    Скорей всего ip забанят, но он у вас динамический?
    Завернуть можно весь трафик вашего канала интернета.
    Цена 1500 с каждого.
     
  17. 24 фев 2015
    #17
    analytic
    analytic ОргОрганизатор (А)
    Бан не возможен по причине того, что вы парсите html сайты (лендинги и html сайты) через свой локальный сайт на php - т.е.для аналитики чужого сайта вы не более чем пользователь. . Т.е. это маленькие сайты расположенные на разных доменах (демо) - и смысла банить Вас нет.

    Что касается TemplateMonster - то

    1) он сконцентрирован на кодирование javascript. Т.е. по сути динамика сайтов пропадает -ели вы не замените файлы.
    2) Идёт очистка куков для каждой демки и ротация юзер агента - этого достаточно
     
  18. 24 фев 2015
    #18
    Depric
    Depric СкладчикСкладчик
    Ну так а если парсить сайт с 10К страниц, то за многократное обращение к серверу, сервер забанит на одном и том же ip.
    Или я не прав?
     
  19. 24 фев 2015
    #19
    analytic
    analytic ОргОрганизатор (А)
    Во первых где ты найдешь сайт в формате html на 10 000 страниц и имеет смысл тебе его граббить в течении 20-30 дней (это не система создания дорвеев) ?=) Во вторых это зависит от аналитики сайта и систем запрета - у рядовых сайтов этого нет. Даже если есть (хотя я такого не встречал) - я обычно граббинг запускаю с windows сервера - а их я могу менять сколько хочу раз.
     
    Последнее редактирование модератором: 24 фев 2015
  20. 26 фев 2015
    #20
    Depric
    Depric СкладчикСкладчик
    Я тогда вообще ни в тему.
    А мне глаз режет
    Тогда заканчиваю свои вопросы не по теме :oops:
     
Статус обсуждения:
Комментирование ограничено.