[ZennoPoster] Парсер Email с сайтов и их страниц (многопоток, Get-запросы, паук)

orka13 · 19 мар 2018

Складчина: [ZennoPoster] Парсер Email с сайтов и их страниц (многопоток, Get-запросы, паук)

Технические особенности шаблона:
Шаблон делался в ProjectMaker RU 5.14.0.0. Стоит ограничение по запуску минимум 5.9.9.1, но как поведет себя на старых версиях ZennoPoster – хз. Закрытого типа (только выполнение). Если у вас нет ZennoPoster, то можно выписать лицензию вместе с Zennobox (мини -версия ZennoPoster), но это стоит +10$ к цене шаблона.
Шаблон обрабатывает http\https адреса с авто-определением кодировки ответа. Понимает «301 редирект», и при его нахождении для определения внутренних страниц использует как старый, так и новый адрес. Есть поддержка Punnycode.
Для умного поиска абсолютных и относительных ссылок на внутренние страницы сайта используется свой алгоритм «паука» на основе C#-библиотеки HtmlAgilityPak.
Шаблон ищет внутренние страницы только в пределах одного клика от той страницы, с которой начался парсинг. Также он не выполняет скрипты на странице, поскольку для достижения максимального быстродействия он работает на чистых запросах без подключения браузера. В итоге получаем максимальное быстродействие, но пропускаем незначительный процент хитрых сайтов, где может стоять защита от парсинга почты: когда почта появляется только при обработке страницы в браузере или при дополнительных условиях (движении мышки, скроллинг страницы, клик пользователя на кнопке «Показать почту» и т.д.).

Алгоритм работы:
Шаблон получает урл из списка и получает Get-запросом HTML-код страницы. Ищет в нем почту. Если найдено почт меньше чем указано в настройке «#1.3», то шаблон ищет нужное количество (указывается в настройке #1.1) внутренних страниц. При этом он берет не случайные ссылки, а отдает предпочтение сначала ссылкам с признаками «контактной страницы» как в урле, так и в тексте ссылки (анкоре). После формирования списка внутренних страниц идет по очереди парсинг каждой страницы на наличие email. В финале полученный список email чистится от дублей, от мусора и сохраняется в файл результатов.

О файлах:
Все файлы должны быть строго в кодировке «UTF-8» (Юникод)!!! Желательно с BOM (с сигнатурой), хотя сойдет любой вариант.

«\Input\Urls_UTF-8_!!!.txt» - сюда залить строки с ссылками на парсинг. Каждый поток шаблона берет с удалением первую строку, и после окончания ее обработки (и дочерних страниц, если настройки позволяют), опять вырезает 1 строку, и так по кругу. Потоки остановятся только когда опустеет этот файл, или можете переименовать файл для преждевременной остановки процесса.

«\Input\Список отсева плохих email.txt» - тут можете задать список неподходящих ников (например, badnick@) или доменов (например, @mail.ru). Каждое значение с новой строки. Шаблон по очереди берет каждую строку и проверяет нет ли вхождения (регулярки не поддерживаются) этой строки в найденной email. Если есть, то этот email отбрасывается из обработки и в финальный отчет не попадает. Если не нужно использовать этот список, то оставьте файл пустым, или переименуйте.

«\Input\Рулярка отсева плохих email.txt» - тут можете подкорректировать мою регулярку для удаления неподходящих email, но крайне не советую ее трогать, есть нет навыков работы с Regex. Если вдруг не нужно использовать эту регулярку, то оставьте файл пустым, или переименуйте.

«\Input\Useragents.txt» - обычный список Юзерагентов используемых при Get-запросах. Лучше не трогать.

«\Output\Url_Mail.txt» - файл с результатами в формате «Ur[разделитель]Email».

«\Temp_data\Url_Main_Bad.txt» - файл с ссылками из «Urls_UTF-8_!!!.txt», которые не получилось обработать (обычно случается, когда сайт недоступен, или защита от парсинга).

«\Temp_data\Url_Sub_Bad.txt» - файл с внутренними ссылками, которые не получилось обработать.

Для тестирования работы шаблона я решил прогнать всю базу существующих сайтов в доменной зоне «RU» (5 305 046 шт. на момент старта). Парсинг проходил именно с теми настройками что на скриншоте, в 100 потоков. По времени заняло все приблизительно 120 часов. Нагрузка сети ~30-50 Мегабит, CPU ~50-80%, RAM ~400 Мегабайт. Пример нагрузки видно на видео.
Сама база присутствует в соседней складчине:
База Email-адресов всех RU-сайтов: 2,3 млн. e-mail

Шаблон делал под себя. Не для рассылки, а для дополнения почтовыми данными базы Яндекс.Карт. Там же и попросили выложить отдельно этот парсер.

Запускать шаблон теоретически лучше не больше чем в ~130 потоков, или так чтобы нагрузка на ваш CPU не превышала 80% (просто рекомендация). У меня практика показала, что даже если и добавить больше потоков, то скорость обработки не увеличится. Хотя все зависит от режимов работы и мощности железа. Колебание скорости реальной работы очень легко анализировать по графику нагрузки сети (у меня в районе 40 мбит\секунду идет нагрузка). Если вы видите, что после прибавления потоков график уже не особо растет, значит не смысла ставить больше, ибо достигнут физический предел.

Скрытая ссылка

Пример случайной выборки из результатов работы шаблона на 10 000 строк:

Скрытое содержимое.

Видео первого запуска шаблона:

UPD:
Отзывы

[/QUOTE]

Basill · 19 мар 2018

А выборку можно ставить? или критерии поиска

orka13 · 19 мар 2018

Не совсем понял вопроса…
Имеется ввиду может шаб ли по ключевым словам искать сайты в сети через Поисковые Системы, а уже потом парсить с них мейлы?
- Нет, не умеет. Шаблону надо подсунуть уже готовый список с ссылками доноров.

Есть у меня мощный парсер выдачи Bing под эту задачу, но еще не дошли руки выставить здесь. Он бы помог в такой ситуации.

Sagittarius · 20 мар 2018

Не особо поняла из описания, но, например из Мой Мир сможет парсить?

analytic · 20 мар 2018

orka13 сказал(а): ↑

- Нет, не умеет. Шаблону надо подсунуть уже готовый список с ссылками доноров.
.
Нажмите, чтобы раскрыть...

А если это форум -парсятся емейлы со всех страниц? Или паук работает только по страницам связанными с контактной информацией?

analytic · 20 мар 2018

orka13 сказал(а): ↑

Есть у меня мощный парсер выдачи Bing под эту задачу, но еще не дошли руки выставить здесь. Он бы помог в такой ситуации.
Нажмите, чтобы раскрыть...

С какими лимитами работаешь? А то в последнее 2 года сложно стало парсить - прокси быстро в бан попадают.
п.с. Bing просто продвигает платный API

orka13 · 20 мар 2018

Sagittarius сказал(а): ↑

Не особо поняла из описания, но, например из Мой Мир сможет парсить?
Нажмите, чтобы раскрыть...

Нет, не сможет. под такие задачи лучше поискать узконаправленные парсеры заточенные только под соц-сети. Там обычно нужны свои алгоритмы обхода защиты, то есть надо парсить не просто код страницы (как в моем парсере), а простукивать API сервиса, либо нужна целая цепочка запросов с передачей куки для получение заветного поля с email.

analytic сказал(а): ↑

А если это форум -парсятся емейлы со всех страниц?...
Нажмите, чтобы раскрыть...

Парсятся только страницы, ссылки на которые присутствуют в стартовой странице (которая бралась из файла «Urls_UTF-8_!!!.txt»). В старпосте указано это:

Шаблон ищет внутренние страницы только в пределах одного клика от той страницы, с которой начался парсинг
Нажмите, чтобы раскрыть...

analytic сказал(а): ↑

...Или паук работает только по страницам связанными с контактной информацией?
Нажмите, чтобы раскрыть...

Нет, не только. Просто, например, если вы указали лимит брать максимум 30 внутренних страниц, а на обрабатываемой странице 60 внутренних ссылок, то при составлении списка шаблон пытается сначала добавить в него все ссылки с признаками «контактной страницы», а потом уже добиваем список и другими внутренними ссылками, пока список не наберет 30 строк.

analytic сказал(а): ↑

С какими лимитами работаешь? А то в последнее 2 года сложно стало парсить - прокси быстро в бан попадают.
п.с. Bing просто продвигает платный API
Нажмите, чтобы раскрыть...

Я под доры миллионы паршу через прокси, и все ок. Чуть попозже его выставлю, а то сейчас и так много авторских складчин открыл, надо по очереди их провести сначала.

analytic · 20 мар 2018

orka13 сказал(а): ↑

Я под доры миллионы паршу через прокси, и все ок. Чуть попозже его выставлю, а то сейчас и так много авторских складчин открыл, надо по очереди их провести сначала.
Нажмите, чтобы раскрыть...

Это понятно....тут вопрос в конкретике. Будем ждать парсер bing.
п.с. Сейчас и парсер Avito есть и рассылщик писем есть на складчике и темы где складчики за 5 часов работы зарабатывают в лучшем случае 200-300 рублей - всегда стоит вопрос в конкретных цифрах. Результат -расходники.

intelligent man · 20 мар 2018

analytic сказал(а): ↑

парсер Avito есть
Нажмите, чтобы раскрыть...

Дайте ссылку

intelligent man · 20 мар 2018

@orka13

orka13 сказал(а): ↑

«\Output\Url_Mail.txt» - файл с результатами в формате «Ur[разделитель]Email».
Нажмите, чтобы раскрыть...

Как я вижу по видео, результат сохраняется в формате csv, что хорошо. Но почему тогда вы нам скинули txt файл, где правда?

orka13 сказал(а): ↑

«\Input\Список отсева плохих email.txt»
Нажмите, чтобы раскрыть...

Проблема многих программ, они дают этот файл пустым, типо сам заполни, это плохо. Вы так же делаете или там будет уже какой-то готовый список?
Еще не ясно, как идет сбор ссылок с одного сайта? Как я понял, парсер собирает почты, потом подставляет их под один домен, если их много и удаляет дубли. Правильно?
Есть такой парсер Крокодил, я замечал, что он косячно собирает почты. Часто добавляя лишние символы к реальному адресу, то есть неправильно обрабатывает код страницы. Например dgninfo@company.com где правильная часть выделенная жирным, остальное это часть кода, который не относится к почте. Вопрос, ваш парсер не делает такие косяки?

orka13 · 20 мар 2018

intelligent man сказал(а): ↑

Как я вижу по видео, результат сохраняется в формате csv, что хорошо. Но почему тогда вы нам скинули txt файл, где правда?
Нажмите, чтобы раскрыть...

Если сравните формат содержание, то поймете, что этот тот же файл, просто расширение разное. Ибо когда я сохранял выборку рандомных строк через сторонний софт (Penguin), то сохранил в TXT формате. Если смотреть объективно, то между этими форматами (расширениями имени файла) нет разницы, главное начинка самого файла (кодировка, разделители).

Проблема многих программ, они дают этот файл пустым, типо сам заполни, это плохо. Вы так же делаете или там будет уже какой-то готовый список?
Нажмите, чтобы раскрыть...

Да закину примерочный список на пару строк, чтобы покупатели не возились с созданием файла с нуля и не наделали косяков с кодировкой.

Еще не ясно, как идет сбор ссылок с одного сайта? Как я понял, парсер собирает почты, потом подставляет их под один домен, если их много и удаляет дубли. Правильно?
Нажмите, чтобы раскрыть...

Зачем подставлять? Мы же не ищем исключительно почты на почтовом домене сайта (ну типа info@site.ru), нам подойдут любые почтовые адреса, которые встречаются на странице (@gmail.com, @mail.ru и т.д.).

Есть такой парсер Крокодил, я замечал, что он косячно собирает почты. Часто добавляя лишние символы к реальному адресу, то есть неправильно обрабатывает код страницы. Например dgninfo@company.com где правильная часть выделенная жирным, остальное это часть кода, который не относится к почте. Вопрос, ваш парсер не делает такие косяки?
Нажмите, чтобы раскрыть...

Если в HTML-коде сайта там тоже будет такое выделение жирным, то парсер поймет что это две разные части, и из кода:
Код:
dgn<b>info@blablacompany.com</b> bla bla bla
спарсит только нужное. Специально проверил, подставив вручную этот код в HTML случайной страницы. Но «company.com» пришлось заменить на «blablacompany.com», поскольку «@company.com» входит в стандартный «черный список» в регулярке по умолчанию .
Скрытая ссылка

intelligent man · 20 мар 2018

@orka13

orka13 сказал(а): ↑

Если сравните формат содержание, то поймете, что этот тот же файл, просто расширение разное. Ибо когда я сохранял выборку рандомных строк через сторонний софт (Penguin), то сохранил в TXT формате. Если смотреть объективно, то между этими форматами (расширениями имени файла) нет разницы, главное начинка самого файла (кодировка, разделители).
Нажмите, чтобы раскрыть...

Это понятно, парсер сохраняет данные в формате csv (что лучше) или txt?

intelligent man сказал(а): ↑

Еще не ясно, как идет сбор ссылок с одного сайта? Как я понял, парсер собирает почты, потом подставляет их под один домен, если их много и удаляет дубли. Правильно?
Нажмите, чтобы раскрыть...

Ставим парсинг сайта Скрытая ссылка, он на странице Скрытая ссылка находит почту ivan@company.com и на странице Скрытая ссылка находит почту anton@company.com Что дальше делает парсер и какой будет результат?

intelligent man · 21 мар 2018

@orka13
Я надеюсь продажа парсера будет при любом количестве участников?

orka13 · 21 мар 2018

intelligent man сказал(а): ↑

@orka13
Я надеюсь продажа парсера будет при любом количестве участников?
Нажмите, чтобы раскрыть...

Да, конечно. здесь же все равно не страшно, что продам одному, а раздаст массе, ведь шаблон закрытый и идет привязка только к одной лицензии ZennoPoster/ZennoBox. Забыл указать это в теме, хотя кто покупает шаблоны зенки, то знают что почти всегда они закрытого типа и с привязкой продаются.
Я собирался через ~3…6 недель начинать сбор.

muffin1 · 13 апр 2018

orka13 сказал(а): ↑

Я собирался через ~3…6 недель начинать сбор.
Нажмите, чтобы раскрыть...

Очень жду парсер

orka13 · 13 апр 2018

давайте хоть до 10 человек добьем пусть будет сбор.

muffin1 · 14 апр 2018

muffin_ilya сказал(а): ↑

Очень жду парсер
Нажмите, чтобы раскрыть...

забыл уточнить, что парсер URL жду)) на него же тоже будет складчина, как было обещано?

intelligent man · 15 апр 2018

muffin_ilya сказал(а): ↑

забыл уточнить, что парсер URL жду)) на него же тоже будет складчина, как было обещано?
Нажмите, чтобы раскрыть...

Что за парсер вы имеете ввиду?

Кроули · 16 апр 2018

@orka13 Хм... а если я по форуму... мейлы участников зареганых спарсит?

Лутесса01 · 16 апр 2018

Кроули сказал(а): ↑

@orka13 Хм... а если я по форуму... мейлы участников зареганых спарсит?
Нажмите, чтобы раскрыть...

Присоединяюсь к вопросу! Причем интересен парсинг таких форумов, где email в профиле пользователя не отображаются

[ZennoPoster] Парсер Email с сайтов и их страниц (многопоток, Get-запросы, паук)

Складчина: [ZennoPoster] Парсер Email с сайтов и их страниц (многопоток, Get-запросы, паук)

Отзывы участников