Доступно

[ZennoPoster] Барсик - парсер Яндекс.Карт + Геокодер (многопоток, без браузера)

Тема в разделе "Бизнес и свое дело", создана пользователем orka13, 19 июн 2018.

Цена: 3900р.
Взнос: 3900р.
100%

Основной список: 1 участников

Статус обсуждения:
Комментирование ограничено.
  1. 19 июн 2018
    #1
    orka13
    orka13 ЧКЧлен клуба (А)

    Складчина: [ZennoPoster] Барсик - парсер Яндекс.Карт + Геокодер (многопоток, без браузера)

    [​IMG]

    Технические особенности шаблона:
    1. Шаблон делался в ProjectMaker RU 5.17.1.0 (так как последняя 5.17.2.0 версия слишком сырая и с багами, не рекомендую на ней запускать). Тестировался и на старых версиях (5.10.0.1). Стоит ограничение по запуску минимум 5.9.9.1, но как поведет себя на такой старой версии – хз. Закрытого типа (только выполнение). Если у вас нет ZennoPoster, то можно выписать лицензию вместе с Zennobox (мини-версия ZennoPoster), но это стоит +10$ к цене шаблона.
    2. Шаблон работает исключительно на запросах (без запуска вкладок браузера), что позитивно отражается на использовании ресурсов ПК и позволяет неплохо поднимать быстродействие парсинга в многопотоке, ибо основана нагрузка идет только на CPU.
    3. В работе шаблона используется свой алгоритм на основе C#-библиотек HtmlAgilityPack.dll (для работы с XML-ответами сервиса) и Newtonsoft.Json.dll (для обработки JSON ответов).
    4. Ключей API или логинов Яндекса здесь НЕ надо.
    Алгоритм поиска такой: шаблон сначала берет название объекта (города\региона), в пределах которого будем искать, получает координаты его размеров (прямоугольника, или условно «квадрата», в который вписаны границы объекта), и ищет в нем нужные фразы.
    Минусы такого метода: если мы ищем в какой-то области, то в пределы ее квадрата могут попасть мелкие пограничные части соседних областей. А если эта область на границе с другой страной, то соответственно поиск затронет эту маленькую часть соседней страны. Потом ети «левые» объекты можно удалить по столбце адресов вручную, но в ~10% адресов может быть нестандартный синтаксис адреса (иногда нет указания страны, только город\область). То есть для чистоты результатов лучше все же парсить «по городам» а не «по областям». Хотя даже в ситуации с городом в квадрат поиска могут попасть пригородные поселки, но это уже не так критично.

    Чтобы спарсить почти все организации в нужном регионе хватит просто использовать для поиска разнообразные фразы-ключи, под которые наиболее логично подходит список разделов Яндекс.Справочника (~ 1200 фраз, выдается в комплекте с файлами парсера). Используя этот метод получается за пару минут собрать практически все организации любого крупного города. Например, у меня на 100 потоках такие результаты (без пост-парсинга Email):
    1. Москва: 20 минут ~ 400 000 объектов (400 000 со словом «Москва» в адресе, но 530 000 в самом квадрате вокруг города Москва).
    2. Санкт-Петербург: 10 минут ~ 228 000 объектов (233 000).
    3. Самара: 3 минуты ~ 52 000 объектов (59 000).
    4. Сочи - 2 минуты ~28 880 объектов (29 180).
    Варианты использования:
    1. Поиск конкурентов в своей нише\городе.
    2. Поиск фирм под рассылку\спам по телефону\Email.
    3. Поиск соц-страниц и сайтов организаций.
    4. Заполнение собственных сайтов\досок характеристиками объектов из Яндекс.Карт (есть же картинки-миниатюры, можно все аккуратно оформить).
    5. Заработок на указании услуг по парсингу Яндекс.Карт (создаёте темы по форумах, на Kwork).
    1. Фраза поиска
    2. Регион поиска
    3. Название
    4. Категории
    5. Адрес полностью
    6. Район области
    7. Населённый пункт
    8. Улица
    9. Отдельный дом
    10. Все услуги
    11. Время работы
    12. Телефоны (мобильные из России)
    13. Телефоны (бесплатная линия справки)
    14. Телефоны остальные (городские и нераспознанные)
    15. Главный сайт
    16. Все сайты
    17. Вконтакте
    18. Facebook
    19. Instagram
    20. Twitter
    21. Одноклассники
    22. Мой мир
    23. YouTube
    24. Все соц. и бизнес ссылки
    25. Страничка на Яндекс. Карты
    26. ID на Яндекс. Карты
    27. Координаты Широта
    28. Координаты Долгота
    29. Мини-фото из поиска
    30. Все мини-фото (макс. 3)
    31. Мини-фото из панорамы
    32. Картинка-логотип
    33. Email (собираются отдельно из страниц ячейки [16. Все сайты])

    Пример случайной выборки на 4000 строк из результатов парсинга разных фраз по нескольким городам\областям + результат работы в режиме [2. Геокодер]:
    Скачать с Яндекс.Диск (файл CSV + XLSX, последний вручную заполнил и раскрасил).
    Или посмотреть на гугл-докс:
    1. Обычный парсинг - выборка на 4000 строк.CSV
    2. Геокодер - популярные города-области Росии+СНГ

    Подсказки по работе с крупными CSV файлами ищите в теме: Справочная: выборка из файловых баз, крупные *.txt файлы, регулярки, EmEditor, *.csv.

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    Видео-инструкция с примером первого запуска шаблона:




    Я открыт к критике, и если будут актуальные пожелания в расширении функционала, то постараюсь их внедрить. Но это зависит от трудности правок и общего количества складчиков на продукт. Чем вас больше, там у меня больше мотивации возится с шаблоном :).

    Отзывы:
    Отзыв 1
    Отзыв 2
    Отзыв 3
    Отзыв 4 (неофициальный, но самый развёрнутый)
     
    Последнее редактирование модератором: 18 авг 2018
    6 пользователям это понравилось.
  2. Последние события

    1. skladchik.com
      Elliene не участвует.
      19 фев 2019
    2. Elliene
      Elliene участвует.
      18 фев 2019
    3. skladchik.com
      Складчина доступна.
      23 авг 2018
    4. Bublegun
      Bublegun не участвует.
      21 авг 2018

    Последние важные события

    1. skladchik.com
      Складчина доступна.
      23 авг 2018
    2. skladchik.com
      Складчина активна.
      20 авг 2018
    3. skladchik.com
      Сбор взносов начинается 20.08.2018.
      18 авг 2018
    4. skladchik.com
      Брат организатор.
      18 авг 2018
  3. Обсуждение
  4. 19 июн 2018
    #2
    Yacoj
    Yacoj ЧКЧлен клуба
    На правах рекламы, в подписи самая полная на сегодняшний день база авито, успей!
     
  5. 19 июн 2018
    #3
    Лутесса01
    Лутесса01 ДолжникДолжник
    @orka13, попрошусь проверить, хоть и не в списках. Парсинг, формирование баз данных один из видов моего заработка :cool:
    всё необходимое есть: зенка про, прокси, мощное железо, опыт парсинга, желание и время.
    Обязуюсь написать отзыв быстро, качественно и думаю, что немаловажно опишу опыт монетизации по возможности :D Это самое важное для складчиков.
     
  6. 19 июн 2018
    #4
    orka13
    orka13 ЧКЧлен клуба (А)
    ну ок, убедили, стучитесь в личку с ID\почтой лицензии зенки для привязки. только точно больше никого не беру, кроме тех что в списке.
     
    Последнее редактирование модератором: 19 июн 2018
    1 человеку нравится это.
  7. 5 июл 2018
    #5
    orka13
    orka13 ЧКЧлен клуба (А)
    Подтверждаю, что 5.17.2.0 версия не подойдет. У одного из проверяющих 5.17.2.0 нормально сработала на этапе парсинга Яндекс.Карт, но вот при последующем парсенге Email шаблон зацикливается, жрет ресурсы, и не может получить почты из сайтов. Она очень глюченая, можете конечно подправлять ее костылями как на форуме зенки рекомендуют, но гарантий стабильности это не даст, проще использовать предыдущую 5.17.1.0.
    Недавно вышедшая 5.18.0.0 как по мне тоже сыровата. Хоть по ней и нет столько негативных отзывов как по 5.17.2.0, но я не спешу с ней работать.
     
  8. 6 июл 2018
    #6
    Antwoord
    Antwoord ОргОрганизатор
    О Т З Ы В

    1. Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик
    Опытный

    2. Отзыв излагается в собственном вольном стиле, но при этом он должен быть максимально развернутым.
    Отличный парсер давно хотел парсер по Яндекс картам. Спарсил уже несколько десятков городов по разным запросам, все четко! Нравится быстрая скорость и то что емайлы еще собираются

    3. Отзыв на материал, связанный с заработком, трафиком и иными сферами, направленными на достижение измеримых результатов в количественном или денежном выражении, должны подтверждаться скриншотами полученных результатов.
    Результат не заявлялся.

    4. В отзыве должны быть в обязательном порядке отражены следующие аспекты:
    4.1. В каком виде предоставлен материал и насколько удобно он оформлен?

    Материал предоставлен в виде нескольких файлов куда будут загружаться данные для парсинга, видеоинструкция где все показано как пользоваться и сам шаблон

    4.2. Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    Общее время заняло меньше часа.

    4.3. Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Затруднений при проверке не возникло, все легко настраивается

    4.4. Сколько времени заняло достижение заявленного автором результата?
    Результаты не заявлены.

    4.5. Нужны ли специальные навыки и дополнительные материальные вложения?
    Специальные навыки и дополнительные материальные вложения не нужны .

    4.6. Оказывал ли автор должную поддержку в процессе проверки?
    Да, автор всегда на связи.

    4.7. Каковы в целом общие впечатления о компетентности автора?
    Положительные. Автор точно знает свое дело и видно что у человека есть опыт в том что он предлагает

    5. При выполнении заданий следует полностью отказаться от теоретизирования и просто шаг за шагом выполнять все указания, приведенные в инфопродукте.
    Не требовалось.

    6. Если в процессе проверки возникали какие-либо конфликты, недовольства либо значительные несоответствия полученных вами результатов заявленным автором в описании складчины - отразите эти моменты в своем отзыве.
    Не возникло, все ровно.

    7. В итоге считаю, что
    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.
     
    1 человеку нравится это.
  9. 27 июл 2018
    #7
    orka13
    orka13 ЧКЧлен клуба (А)
    Яндекс на днях поменял чуть синтаксис запросов, так что парсер перестал работать. Решение проблемы найдено, шаблон обновил, и перезалил. Новая версия "1.04" должна работать.
    Ну и ждем остальных отзывов, а то что-то очень растянулась проверка.
     
    1 человеку нравится это.
  10. 31 июл 2018
    #8
    Лутесса01
    Лутесса01 ДолжникДолжник
    О Т З Ы В

     
    3 пользователям это понравилось.
  11. 3 авг 2018
    #9
    Брат
    Брат ОргОрганизатор
    Отзыв:

    Укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик?
    Практик.

    В каком виде предоставлен материал и насколько удобно он оформлен?
    Шаблон ZennoPoster, видеоинструкции (из стартпоста), файлы для работы шаблона. Настройки шаблона, с подробным описанием функций (скрины есть в стартпосте).

    Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    В течении трех часов, с подготовкой входных данных

    Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?

    Затруднений не возникало.

    Сколько времени заняло достижение заявленного автором результата?

    По необходимым мне регионам и ключам - парсинг (первичный, без email) занял 11 минут, в 50 потоков. На выходе 280 003 фирмы.

    Нужны ли специальные навыки и дополнительные материальные вложения?
    Нужны доп. вложения в прокси. Использовались пакетные прокси. Требуются навыки работы с зеннопостером.

    Оказывал ли автор должную поддержку в процессе проверки?
    Поддержка не понадобилась, шаблон отработал без ошибок.

    Каковы в целом общие впечатления о компетентности автора?
    Автор компетентен.
    Шаблон проверялся на версии ZennoPoster - 5.16.2.0, и на момент проверки - полностью работоспособный.

    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.

    ps
    При первичном парсинге, на стареньком ПК Core2 Duo и 4ГБ, загрузка памяти -58%, загрузка процессора -95% (в 50 потоков)
     
    Последнее редактирование модератором: 3 авг 2018
    1 человеку нравится это.
  12. 9 авг 2018
    #10
    orka13
    orka13 ЧКЧлен клуба (А)
    Тут проверяющие жаловались, что нет под рукой норм прокси для полноценной проверки работы шаблона, так что вот пост по теме:

    Как показала практика, яндекс выдает капчу при частом обращении к сервису определения координат. Это происходит чаще при парсинге в режиме «геокодер» и реже при обычном парсинге карты, особенно если парсятся популярные города, ведь их координаты и так уже «вшиты» в файлы шаблона («\BARSIK_Yandex_Maps_ParserGeocoder\Input_Yandex_Maps\Популярные_RU_города_регионы.tsv»).
    На днях попался один клиент, у которого не было под рукой надежных платных прокси, и после того как Яндекс начал активно выводить капчу, работа встала. И поскольку шаблон не умеет пока распознавать капчу (не задумывался над этим, так как ротация прокси дешевле обходилась), и не умеет брать прокси с «живого списка» зенопостеровского проксичекера, то пришлось искать где бы это получить более-менее пригодные бесплатные прокси списком.
    Уточню, что нам не нужны супер-приватные дорогие прокси. Ведь даже если прокси уже «закапчен\забанен» в обычном сервисе Яндекс-Поиск, то он в 90% случаев НЕзакапчен в Яндекс-Картах (то есть подходит нам). И под такие требования сойдут бесплатные прокси, которые собирает сервис AWM: Скрытая ссылка - просто введите там капчу, и через 30 секунд получите обычный список прокси, которые можно скопировать в файл шаблона («\BARSIK_Yandex_Maps_ParserGeocoder\Input_Yandex_Maps\Proxy - сюда вставляем прокси.txt»). Только что проверил – Барсик нормально на них парсит как в обычном режиме поиска объектов на Яндекс-Карте, так и в режиме определения координат по списку (Геокодер). Проверка работоспособности прокси вшита в самом шаблоне, так что не страшно если в том списке будет много нерабочих прокси, Барсик их просто проигнорирует после проверки, то есть будет брать строки из списка пока не найдет рабочий прокси.
     
    Последнее редактирование модератором: 9 авг 2018
    1 человеку нравится это.
  13. 14 авг 2018
    #11
    ЗиминА
    ЗиминА ОргОрганизатор
    Отзыв;
    5.1. Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик?
    Практик

    5.2. Отзыв излагается в собственном вольном стиле, но при этом он должен быть максимально развернутым.
    Отличный парсер на основе ZennoPoster
    Проверялось на редакции Lite 5.11.2.0 – всё гуд.
    Собирать емейлы – там где их не предусмотрено )) -> сначала собирает данные и сайты с ЯКарты -> потом парсер проходит по сайтам и собирает емейлы с каждого сайта.
    Это супер. С этой базой можно делать всё что угодно.
    Хоть рассылку КП по ящикам, хоть делать сайт каталог фирм.

    5.4.1. В каком виде предоставлен материал и насколько удобно он оформлен?
    2 Шаблона – первый для парсинга ЯКарт + для сбора емейлов
    Видео инструкции
    Папка для примера – вводных данных

    5.4.2. Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    В принципе 1 день хватит

    5.4.3. Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Не было

    5.4.4. Сколько времени заняло достижение заявленного автором результата?
    Не заявлено

    5.4.5. Нужны ли специальные навыки и дополнительные материальные вложения?
    Нет, хватает основ знания ПК.
    Вложения – если много парсить то нужны прокси .

    5.4.6. Оказывал ли автор должную поддержку в процессе проверки?
    Всегда на связи

    5.4.7. Каковы в целом общие впечатления о компетентности автора?
    Автор компетентен в своём деле.

    5.5. При выполнении заданий следует полностью отказаться от теоретизирования и просто шаг за шагом выполнять все указания, приведенные в инфопродукте.
    Смотришь видео - повторяешь

    5.6. Если в процессе проверки возникали какие-либо конфликты, недовольства либо значительные несоответствия полученных вами результатов заявленным автором в описании складчины - отразите эти моменты в своем отзыве.
    Нет не было.

    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.
     
    1 человеку нравится это.
  14. 19 авг 2018
    #12
    veremenko
    veremenko ЧКЧлен клуба
    Добрый день,

    У карточки организации есть поля:

    Типография полиграфические услуги рекламная продукция
    О месте:

    • срочная печать, Wi-Fi
    Препресс и послепечатная обработка:

    • фальцовка, обжим, нумерация, перфорация, кругление углов, каширование, сверление отверстий, тиснение, высечка, вырубка, биговка, лакирование, переплет, вёрстка, разработка фирменного стиля, ламинирование
    Продукция:

    • брелоки, ручки, зажигалки, POS-материалы, приглашения, пакеты, открытки, наклейки, листовки, коробки, конверты для CD/DVD, конверты, календари, каталоги, журналы, ежедневники, дипломы, грамоты, воблеры, визитки, бейджи, буклеты, блокноты, самокопирующиеся бланки, бланки, блоки для записей, билеты, бирки, ярлыки, брошюры, плакаты, постеры, папки, эмблемы
    Способ печати:

    • шелкография, широкоформатная печать, цифровая печать, трафаретная печать, офсетная листовая печать, высокая печать, UV-печать
    upload_2018-8-19_18-44-39.png

    Эти данные будут спаршены?
     
    1 человеку нравится это.
  15. 19 авг 2018
    #13
    orka13
    orka13 ЧКЧлен клуба (А)
    Шаблон берет всю информацию из поиска, он не заходит на сами страницы-карточки организации, иначе такой скорости обработки не получилось бы добиться. А через поиск сервис выдает меньше результатов чем в карточке. Конкретно по вашему случаю не могу сказать насколько беднее будет результат.
    Чтобы зря не молоть языком предлагаю скинуть в личку или в теме ссылку на карточку нужной организации, а я попробую ее через поиск Барсиком найти и показать какой результат будет в отчете. А дальше сравните сами хватает ли его.
     
  16. 20 авг 2018
    #14
    veremenko
    veremenko ЧКЧлен клуба
    Боюсь адрес будет содержать контакты, что нарушит правила сообщества.
    Если не сложно - возьмите, пожалуйста, любую карточку организации типографии в Москве, с высокой вероятностью эти поля будут на ней.
    Спасибо!
     
  17. 20 авг 2018
    #15
    veremenko
    veremenko ЧКЧлен клуба
    По всей видимость всё парсится, внимательно посмотрел на выгрузку и карточки - совпадает.
     
  18. 20 авг 2018
    #16
    orka13
    orka13 ЧКЧлен клуба (А)
    Кто-то подобное уже спрашивал меня, и знаю что чего-то не хватало. Но там вроде речь шла о картинках, - у меня парсер только миниатюры собирает с поиска, а на карточке можно потом полноразмерные найти. И я просто рекомендовал найти\заказать отдельный парсер для выкачки картинок со страниц.
    Ну и я уже распарсил "Типография" в г. Москва, можете сравнить более подробно, результат в папке - Скрытая ссылка (последний файл).
     
Статус обсуждения:
Комментирование ограничено.