[ZennoPoster] Парсер Email с сайтов и их страниц (многопоток, Get-запросы, паук)

orka13 · 16 апр 2018

Кроули сказал(а): ↑

@orka13 Хм... а если я по форуму... мейлы участников зареганых спарсит?
Нажмите, чтобы раскрыть...

Да я как-то не задавался целью спарсить полностью весь сайт или раздел. Мой паук узконаправленный, он только внутренние страницы собирает, ссылки на которые находит на начальной странице парсинга, то есть в пределах 1 клика он начальной страницы.
Если надо какой-то сайт целиком спарсить, то придется костылей прикрутить: подсунуть парсеру список всех страниц этого сайта, и отключить поиск дополнительных внутренних страниц. Список всех страниц можно либо с карты сайта выдернуть (если она есть), либо сторонними парсерами (полноценными пауками) пройтись по всем ссылкам сайта и собрать список ссылок. Например, бесплтатный софт Xenu's Link Sleuth такое умеет, пробовал. Но учтите, что он сильно тупит, если больше ~100 000 страниц в базе накапливается (долго дубли проверяет при добавлении новых ссылок).

Лутесса01 сказал(а): ↑

Присоединяюсь к вопросу! Причем интересен парсинг таких форумов, где email в профиле пользователя не отображаются
Нажмите, чтобы раскрыть...

Я так понял имеется ввиду необходимость регистрации+авторизации пользователя, чтобы видеть доп-поля с почтами у других пользователей. Увы, такое точно не планирую добавлять, это уже слишком надо углубляться в разработку шаблона.

orka13 · 19 апр 2018

Ищу трех одного проверяющего (из числа членов клуба со статусом "Модератор" или "Организатор"). Для проверки работы шаблона желательно иметь лицензию ZennoPoster. Но это не обязательно, так как я могу выписать вам временно (на 3 недели, иначе бесплатно сервис не позволяет, надо 10$ платить) ZennoBox-версию шаблона. Правда у нее лимит в 20 потоков, а я тестировал на ~100.

Блин, парни, мой косяк: 10 человек уже собралось, а проверяющие так и не нашлись. Сейчас попробую повторить поиски…

UPD: все проверяющие найденны (@Кроули) + @ЗиминА + Basill

intelligent man · 21 апр 2018

@orka13
Хочу записаться в складчину, но есть вопросы по работе шаблона. У меня парсеров почт в арсенале штук 5 или 6, но ни одна не идеальна. Хотелось бы найди идеал в шаблоне от orka13

orka13 сказал(а): ↑

\Input\Список отсева плохих email.txt
Нажмите, чтобы раскрыть...

Насколько проработан этот файл или он будет изначально пустым? Что я бы предложил, конкретно, взять из базы 5305046 сайтов. И прогнать этим шаблоном без использования регулярок и черного списка. Потом полученную базу почт, посчитать у нее количество повторений по строкам, отсортировать по самым повторяющимся. Соответственно, зачастую самые повторяющиеся, это плохие почты. И эти почты я бы добавил в данный файл, что скажете?

orka13 сказал(а): ↑

\Input\Рулярка отсева плохих email.txt
Нажмите, чтобы раскрыть...

Регулярка отсекает какого плана почты? Слишком длинные, без окончаний (.ru, .com и т.п.) или что?

orka13 сказал(а): ↑

Пример случайной выборки из результатов работы шаблона на 10 000 строк
Нажмите, чтобы раскрыть...

Открыл этот файл, во многих базах, как стандарт, между почтами только запятая, я бы убрал знак пробела. Глянул на предмет плохих почт, по способу, который написал выше:

info@reg.ru
tm@reg.ru
info@rocket.name
support@hostland.ru
parking_bob@gmail.com
pochta@domimen.ru
support@site.su
op@trudovik.ru
mainmail@telki3.com
advmail@telki3.com
paymail@telki3.com
techmail@telki3.com
anketa@telki.ru
anketa@telki.com
support@bmbullet.info
juldomain@gmail.com
support@netfox.ru
info@netfox.ru
reg@netfox.ru
sales@gobrand.ru
finance@fastvps.ru
complain@fasvps.ru
ru-bill@nic.ru
info@idomainer.pro
ru-ncc@nic.ru
tld-ncc@nic.ru
ru-cont@nic.ru
support@nic.ru
cofr@cofr.ru
your@email.com
mail@mail.com
noreply@blogger.com
ivan@mail.ru
domainname@mail.ru

orka13 сказал(а): ↑

Ищет в нем почту. Если найдено почт меньше чем указано в настройке «#1.3», то шаблон ищет нужное количество (указывается в настройке #1.1) внутренних страниц.
Нажмите, чтобы раскрыть...

Тут хотелось бы больше гибкости, например, часто есть компании, которые указывают свой сайт на тиу ру. И тут вопрос, какое указать количество почт, если 1 почта, то шаблон не соберет 9 почт, при условии, что их там 10. Если я напишу 100 почт, то он там может собрать лишнее.

orka13 сказал(а): ↑

Шаблон ищет внутренние страницы только в пределах одного клика от той страницы, с которой начался парсинг.
Нажмите, чтобы раскрыть...

Это я к чему, как предложение, может дать в дополнение к этому, настройку парсинга только с первой страницы. Такое иногда бывает полезно и придаст универсальности шаблону.
Далее, что очень важно, как шаблон обрабатывает исходные ссылки:
1) Он их не должен переделывать, так как обычно почты идут из базы данных. И потом эту информацию с почтами надо вернуть обратно в базу данных. Например, указан сайт firma.ru а шаблон запишет почту с сайтом Скрытая ссылка или было Скрытая ссылка а стало Скрытая ссылка Понимаете, это недопустимо, данные просто не встанут обратно в базу данных. То есть запись в итоговый файл должна идти в исходном написании сайта из файла Urls_UTF-8_!!!.txt.
2) Вроде как получил ответ, но хочу убедиться. В файле Urls_UTF-8_!!!.txt указан сайт firma.ru/contact/ Шаблон зашел на него и нашел почту ivan@firma.ru Потом шаблон перешел на страницу Скрытая ссылка и нашел почту anna@firma.ru Что будет в итоговом файле? Для меня в идеале:
firma.ru/contact/;ivan@firma.ru,anna@firma.ru

intelligent man · 21 апр 2018

orka13 сказал(а): ↑

Шаблон ищет внутренние страницы только в пределах одного клика от той страницы, с которой начался парсинг.
Нажмите, чтобы раскрыть...

Реально сделать настройку глубины парсинга, видел же наверное в других программах?
1 - только первая страница
2 - первая и ссылки на ней (как понимаю, сейчас только так делает)
3 - еще глубже
n - любая цифра по глубина парсинга с исходного сайта

orka13 · 21 апр 2018

intelligent man сказал(а): ↑

@orka13...
\Input\Список отсева плохих email.txt
Насколько проработан этот файл или он будет изначально пустым? Что я бы предложил, конкретно, взять из базы 5305046 сайтов. И прогнать этим шаблоном без использования регулярок и черного списка. Потом полученную базу почт, посчитать у нее количество повторений по строкам, отсортировать по самым повторяющимся. Соответственно, зачастую самые повторяющиеся, это плохие почты. И эти почты я бы добавил в данный файл, что скажете?
\Input\Рулярка отсева плохих email.txt
Регулярка отсекает какого плана почты? Слишком длинные, без окончаний (.ru, .com и т.п.) или что?...
Нажмите, чтобы раскрыть...

"\Input\Список отсева плохих email.txt" изначально пуст, точнее заполнен для примера вот такими строками:
Код:
@badmail.ru
badnick@
Список самых часто встречающихся почт я уже сделал (это отрывки, только ТОП, проверялась не вся база, а только случайная выборка, ибо этого хватает для анализа, ориентируйтесь на цифры относительно соседних строк, и не принимайте цифры как показатель общего вхождения во всей базе):
Скрытая ссылка
UPD: что-то не вижу там некоторых популярных адресов, пересниму эти документы в ближайшие сутки, а то может это с какого-то другого эксперимента моего, больше месяца прошло, не помню точно.
UPD2: переснял и перезалил.
На их основе составлялась регулярка в "\Input\Рулярка отсева плохих email.txt":
Код:
^(test|example|sample)@|(rating|^(e?mail|ivanov|name))@Mail\.ru|%|@(test|example|sample|(your|my)?company|addresshere)?(domen|domaine?|site|website)?\.(com|ru|net|org)|(support@tiu.ru|donate@opencart.com|sample@domain.ru|your@email.here|support@sweb.ru|spm111@yandex.ru|helpdesk.support@payanyway.ru|your@email.here|username@gmail.com|\.png|\.gif|\.jpg|\.jpeg?)$|[^a-z0-9\@]{2,}
...Открыл этот файл, во многих базах, как стандарт, между почтами только запятая, я бы убрал знак пробела. Глянул на предмет плохих почт, по способу, который написал выше:...
Нажмите, чтобы раскрыть...

Вы же можете заменить содержимое приведенных выше файлов на свое на основе собственного анализа и знаний, и подобных строк не будет в отчете. А вот пробел уберу в следующей версии, раз говорите это не популярно.

... Тут хотелось бы больше гибкости, например, часто есть компании, которые указывают свой сайт на тиу ру. И тут вопрос, какое указать количество почт, если 1 почта, то шаблон не соберет 9 почт, при условии, что их там 10. Если я напишу 100 почт, то он там может собрать лишнее...
Нажмите, чтобы раскрыть...

Перечитайте еще раз описание настройки, вы, наверное, неправильно ее поняли, или я не понял вопроса... Она не влияет на лимит поиска почт в пределах одной страницы. Если на странице 10 почт, то все 10 попадут в отчет. Она только отключает последующий парсинг на внутренних страницах, ели найденное количество почт нас удовлетворяет (для экономии времени/ресурсов).
Если не хотите парсить внутренние страницы «тиу ру», то просто отключите их парсинг глобально, указав «0» в настройке «#1.1».

...Это я к чему, как предложение, может дать в дополнение к этому, настройку парсинга только с первой страницы. Такое иногда бывает полезно и придаст универсальности шаблону...
Нажмите, чтобы раскрыть...

«0» в настройке «#1.1» как раз отключит "паука" (парсинг дополнительных страниц).

...Далее, что очень важно, как шаблон обрабатывает исходные ссылки:
1) Он их не должен переделывать, так как обычно почты идут из базы данных. И потом эту информацию с почтами надо вернуть обратно в базу данных. Например, указан сайт firma.ru а шаблон запишет почту с сайтом Скрытая ссылка или было Скрытая ссылка а стало Скрытая ссылка Понимаете, это недопустимо, данные просто не встанут обратно в базу данных. То есть запись в итоговый файл должна идти в исходном написании сайта из файла Urls_UTF-8_!!!.txt.
2) Вроде как получил ответ, но хочу убедиться. В файле Urls_UTF-8_!!!.txt указан сайт firma.ru/contact/ Шаблон зашел на него и нашел почту ivan@firma.ru Потом шаблон перешел на страницу Скрытая ссылка и нашел почту anna@firma.ru Что будет в итоговом файле? Для меня в идеале:
firma.ru/contact/;ivan@firma.ru,anna@firma.ru...
Нажмите, чтобы раскрыть...

Только что проверил. Теоретически оно у меня так и пишет сейчас (ну о лишних пробелах я писал что уберу), то есть используется именно старый адрес в таком виде, в котором он лежал в файле входящем. Вот только если там не указан протокол («Скрытая ссылка или «Скрытая ссылка), то шаблон выйдет по ошибке, ибо я такой проверки не предусмотрел изначально. Этот тоже подправлю в новой версии, ну чтобы он добавлял приставку «Скрытая ссылка, если ее нет.

orka13 · 21 апр 2018

intelligent man сказал(а): ↑

Реально сделать настройку глубины парсинга, видел же наверное в других программах?
1 - только первая страница
2 - первая и ссылки на ней (как понимаю, сейчас только так делает)
3 - еще глубже
n - любая цифра по глубина парсинга с исходного сайта
Нажмите, чтобы раскрыть...

Реально, пару лет назад делал такое под себя, типа аналог полноценного паука «Xenu's Link Sleuth» на ZennoPoster. Но это реализуемо только как отдельный продукт, так как там дофига мороки.
И то либо в 1 поток, либо в многопотоке, но парсить только 1 сайт, а не любой набор ссылок. Так как самое слабое место в таком продукте: держать где-то в памяти, или в файле, или в БД некую базу уже обработанных ссылок, и каждый раз когда мы находим на очередной странице внутренние ссылки мы должны сравнить каждую из найденных ссылок нет ли ее в базе. Если ЕСТЬ, то игнорируем, если НЕТ, то добавляем ее в очередь на парсинг (опять же файл очереди надо формировать), а после успешного парсинга добавляем в базу. В зенке надо организовать всю эту связь, наладить запись\чтение между потоками так, чтобы быстродействие не упало… Увы, это слишком затратно по времени, и в ближайшие месяцы точно добавлять такого не буду.

intelligent man · 21 апр 2018

orka13 сказал(а): ↑

Список самых часто встречающихся почт я уже сделал (это отрывки, только ТОП, проверялась не вся база, а только случайная выборка, ибо этого хватает для анализа, ориентируйтесь на цифры относительно соседних строк, и не принимайте цифры как показатель общего вхождения во всей базе), гугл доки:
Нажмите, чтобы раскрыть...

В идеале лучше делать на всём, а не на выборке. И потом, по топам сверху только 3 позиции, явно странно и не правдоподобно. Какая-то очень маленькая выборка, которая не показывает ожидаемого результата.

orka13 сказал(а): ↑

Только что проверил. Теоретически оно у меня так и пишет сейчас (ну о лишних пробелах я писал что уберу), то есть используется именно старый адрес в таком виде, в котором он лежал в файле входящем. Вот только если там не указан протокол («Скрытая ссылка или «Скрытая ссылка), то шаблон выйдет по ошибке, ибо я такой проверки не предусмотрел изначально. Этот тоже подправлю в новой версии, ну чтобы он добавлял приставку «Скрытая ссылка, если ее нет.
Нажмите, чтобы раскрыть...

А почему шаблон выйдет ошибкой, например skladchik.com Адресная строка браузера не выдает ошибки, значит и загрузчик зенки не должен выдавать ошибку. Понимаешь, это же серьезно, если такой результат возвращать в базу данных. То он не сядет, так как skladchik.com будет не равно https://v21.skladchik.org Надо чтобы осталось так же, если никак, то на этапе загрузки сайта, шаблон прибавляет http:// а при сохранении в итоговый файл, если такое прибавление было, то убирает его, часть http:// Думаю легко прописать, а шаблон тогда будет более чистым и честным.

orka13 сказал(а): ↑

Реально, пару лет назад делал такое под себя, типа аналог полноценного паука «Xenu's Link Sleuth» на ZennoPoster. Но это реализуемо только как отдельный продукт, так как там дофига мороки.
И то либо в 1 поток, либо в многопотоке, но парсить только 1 сайт, а не любой набор ссылок. Так как самое слабое место в таком продукте: держать где-то в памяти, или в файле, или в БД некую базу уже обработанных ссылок, и каждый раз когда мы находим на очередной странице внутренние ссылки мы должны сравнить каждую из найденных ссылок нет ли ее в базе. Если ЕСТЬ, то игнорируем, если НЕТ, то добавляем ее в очередь на парсинг (опять же файл очереди надо формировать), а после успешного парсинга добавляем в базу. В зенке надо организовать всю эту связь, наладить запись\чтение между потоками так, чтобы быстродействие не упало… Увы, это слишком затратно по времени, и в ближайшие месяцы точно добавлять такого не буду.
Нажмите, чтобы раскрыть...

Нет, огромная глубина не нужна и делаем только по начальному домену. Приведу пример, есть изначальный сайт Скрытая ссылка и твой шаблон перейдет с него на страницу Скрытая ссылка и остановится, так? А на этой странице Скрытая ссылка будут ссылки на города: Москва, Питер, Казань и т.д. Например Скрытая ссылка и только тут будет почта, как и с другими городами. Как я понимаю шаблон до них не дойдет, что не весело. Теперь понятнее?

intelligent man · 21 апр 2018

orka13 сказал(а): ↑

пробел уберу в следующей версии
Нажмите, чтобы раскрыть...

А что это означает, то есть когда?

orka13 · 22 апр 2018

intelligent man сказал(а): ↑

В идеале лучше делать на всём, а не на выборке. И потом, по топам сверху только 3 позиции, явно странно и не правдоподобно. Какая-то очень маленькая выборка, которая не показывает ожидаемого результата...
Нажмите, чтобы раскрыть...

А зачем «в идеале», если нам главное увидеть среднестатистические показатели для топ-100 строк, чтобы понять каких почт нибольше, и по ненужным значениям подправить маску для фильтрации. Я же там написал (UPD:…) что вижу нестыковку и обновлю те отчеты (вот сейчас обновил там блок, проверьте). Пересчитал показатели повторно на выборке размером в 300 000 строк. Увы, всю базу с соседней темы (3,8 млн. строк с дублями) проверять не буду, так как мой шаблон для составления этого статистического отчета 100 000 строк обрабатывает за 3 минуты, 300 000 строк уже за 20 минут, так что на ставить обработку ради избежание погрешности в несколько процентов смысла не вижу.

..А почему шаблон выйдет ошибкой, например skladchik.com Адресная строка браузера не выдает ошибки, значит и загрузчик зенки не должен выдавать ошибку. Понимаешь, это же серьезно, если такой результат возвращать в базу данных. То он не сядет, так как skladchik.com будет не равно https://v21.skladchik.org Надо чтобы осталось так же, если никак, то на этапе загрузки сайта, шаблон прибавляет http:// а при сохранении в итоговый файл, если такое прибавление было, то убирает его, часть http:// Думаю легко прописать, а шаблон тогда будет более чистым и честным...
Нажмите, чтобы раскрыть...

Потому что в старпосте темы явно указано: "для достижения максимального быстродействия он работает на чистых запросах без подключения браузера". Там применяются не обычные кубики эмуляции браузера зенопостера, а связки с C# кодом, где шаг "влево, шаг вправо...". Этот алгоритм с "http://" я уже описал в предыдущих постах.

...Нет, огромная глубина не нужна и делаем только по начальному домену. Приведу пример, есть изначальный сайт Скрытая ссылка и твой шаблон перейдет с него на страницу Скрытая ссылка и остановится, так? А на этой странице Скрытая ссылка будут ссылки на города: Москва, Питер, Казань и т.д. Например Скрытая ссылка и только тут будет почта, как и с другими городами. Как я понимаю шаблон до них не дойдет, что не весело. Теперь понятнее?...
Нажмите, чтобы раскрыть...

Все-равно это сложно, и есть подводные камни, которые всплывут во время разработки\тестирования. Задача с глубоким расширением функционала паука сейчас не будет решаться точно, так что увы, здесь на встречу не пойду.

А что это означает, то есть когда?
Нажмите, чтобы раскрыть...

Это "уже". Протестировал с приставками, без, с разным РеГисТРом. Вот так теперь отчет выглядит (без пробелов):

Скрытая ссылка
knigoboom.ru;knigoboom@ya.ru
SIBSERA.RU;sibsera@mail.ru
Скрытая ссылка
nadezhdaschool.ru;n.n.murashkina@mail.ru
sema-translation.ru;mail@sema-translation.ru
Скрытая ссылка
VERHUSHKA.RU;juldomain@gmail.com
Скрытая ссылка
integrationika.ru;support@dowlatow.ru
SANDPICTURES.RU;contact@sandpictures.ru
SEO-USLUGI.RU;info@immowehner.com,angela@immowehner.com,rumiya@immowehner.com,andrea@immowehner.com
IMPERIATOURISM.RU;expo@imperiatourism.ru
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
rodnye-berega.ru;info@rodnye-berega.ru
ovs-sodruzhestvo.ru;info@ovs-sodruzhestvo.ru
ukmayak72.ru;mayaktsn@yandex.ru
1xq.ru;office@1xq.ru
Скрытая ссылка
radiointim.ru;690278@sip.zadarma.com,andstalex@gmail.com
2008sirius.ru;2008sirius@inbox.ru,e2610552@yandex.ru,e2610550@yandex.ru
10SAITOV.RU;info@nextplatform.ru
Скрытая ссылка
Скрытая ссылка
7-dnei.ru;stranadedamoroza@list.ru,.stranadedamoroza@list.ru
IBDI-NAILS.RU;opt@ibdi-nails.ru,info@ibdi-nails.ru,erfolgkazan@yandex.ru
Скрытая ссылка
hprofi.ru;info@reg.ru,tm@reg.ru
PSK-074.RU;psk-074@mail.ru
Скрытая ссылка
meduzabox.ru;sales@gobrand.ru
Скрытая ссылка
Скрытая ссылка
Нажмите, чтобы раскрыть...

intelligent man · 22 апр 2018

orka13 сказал(а): ↑

Потому что в старпосте темы явно указано: "для достижения максимального быстродействия он работает на чистых запросах без подключения браузера". Там применяются не обычные кубики эмуляции браузера зенопостера, а связки с C# кодом, где шаг "влево, шаг вправо...". Этот алгоритм с "http://" я уже описал в предыдущих постах.
Нажмите, чтобы раскрыть...

Про браузер я понял, самое главное, сайт из файла Urls_UTF-8_!!!.txt и сайт из файла Url_Mail.txt. Они будут всегда одинаковые?

orka13 сказал(а): ↑

Протестировал с приставками, без, с разным РеГисТРом.
Нажмите, чтобы раскрыть...

Только есть не все варианты, еще:
firma.ru
firma.ru/
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка

intelligent man · 22 апр 2018

orka13 сказал(а): ↑

Скрытая ссылка
Нажмите, чтобы раскрыть...

Вот этот файл, было хорошо добавить прямо рядом с шаблоном, как полезный материал

orka13 сказал(а): ↑

«0» в настройке «#1.1» как раз отключит "паука" (парсинг дополнительных страниц).
Нажмите, чтобы раскрыть...

Вот это тонкий момент, можно забыть о нем, а с шаблоном будет идти какой-то мануал?

orka13 · 22 апр 2018

intelligent man сказал(а): ↑

Про браузер я понял, самое главное, сайт из файла Urls_UTF-8_!!!.txt и сайт из файла Url_Mail.txt. Они будут всегда одинаковые?..
Нажмите, чтобы раскрыть...

ДА.

...Только есть не все варианты, еще:..
Нажмите, чтобы раскрыть...

Протестировал на таком списке (12 адресов нормальных идут + 12 тех же адресов, но уже подобавлял лишние "www", "https:" и слеши :

Скрытая ссылка
knigoboom.ru
SIBSERA.RU
Скрытая ссылка
nadezhdaschool.ru
sema-translation.ru
Скрытая ссылка
VERHUSHKA.RU
Скрытая ссылка
integrationika.ru
SANDPICTURES.RU
SEO-USLUGI.RU
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Нажмите, чтобы раскрыть...

В итоге на выходе 2 файла:
\Output\Url_Mail_22_04_2018.csv:

Скрытая ссылка
knigoboom.ru;knigoboom@ya.ru
SIBSERA.RU;sibsera@mail.ru
Скрытая ссылка
nadezhdaschool.ru;n.n.murashkina@mail.ru
sema-translation.ru;mail@sema-translation.ru
Скрытая ссылка
VERHUSHKA.RU;juldomain@gmail.com
Скрытая ссылка
integrationika.ru;support@dowlatow.ru
SANDPICTURES.RU;contact@sandpictures.ru
SEO-USLUGI.RU;info@immowehner.com,angela@immowehner.com,rumiya@immowehner.com,andrea@immowehner.com
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Скрытая ссылка
Нажмите, чтобы раскрыть...

\Temp_data\Url_Main_Bad_22_04_2018.txt:

Скрытая ссылка
Скрытая ссылка
Нажмите, чтобы раскрыть...

Как видите 2 адреса забраковало, так как у них не настроена переадресация на актуальный адрес (https>http), и даже в браузере они не открываются.

intelligent man сказал(а): ↑

Вот этот файл, было хорошо добавить прямо рядом с шаблоном, как полезный материал
Нажмите, чтобы раскрыть...

Ок, добавлю в архив.

Вот это тонкий момент, можно забыть о нем, а с шаблоном будет идти какой-то мануал?
Нажмите, чтобы раскрыть...

Да там минимум настроек, и видео запуска в стартпосте уже есть. Легче просто добавить чуть больше описания в окне с настройками, что я уже сделал, и в новой версии будет вот так:

То есть пока еще не закончился сбор вы задавайте вопросы, я все актуальные правки вынесу в отдельную новую версию с файлом-описанием, и складчики получат оба варианта в архиве. И в будущем обновления будут также бесплатны, надо будет только новую версию по ссылке закачать.

intelligent man · 22 апр 2018

orka13 сказал(а): ↑

пока еще не закончился сбор вы задавайте вопросы
Нажмите, чтобы раскрыть...

Прекрасно, я задал все вопросы. Записался, буду покупать, спасибо.

orka13 · 22 апр 2018

Угу, только как с предыдущей складчиной на Яндекс Карты не выпишитесь перед началом сборов .
А мне осталось еще найти третьего проверяющего (неактуально, уже нашел Basill), дождаться их отзывов и можно начинать сбор.

И скинул первым двум проверяющим новую версию, хотя если они уже начали проверку на старой, то можно не обновляться. Вот ее описание:
Emails_Site_Parser_by_orka13_V_1.01 (22.04.2018)
Новые фичи:

[+] Подправил в описании «Входных параметров» пункт 1.3 и 1.1, а то были жалобы что они малоинформативные.

[+] Добавил возможность задавать список доменов (в файле "Urls_UTF-8_!!!.txt") без приставок ("http://", "https://"), то есть просто как “site.ru”.

[+] Убрал пробелы в отчете между почтовыми адресами в пределах одной строки, так как было замечание что такой формат будет более популярен.

[+] Добавил в архив с шаблоном файл «Топ почтовых ящиков с RU-сайтов (для формирования стоп-листа).xlsx».

intelligent man · 22 апр 2018

orka13 сказал(а): ↑

Угу, только как с предыдущей складчиной на Яндекс Карты не выпишитесь перед началом сборов
Нажмите, чтобы раскрыть...

Нет, здесь точно не выпишусь.

Mozgovik · 22 апр 2018

А в чем преимущество парсера перед готовой базой имейлов?
Или наоборот.
Ведь эта база создана при помощи этого же парсера.
Только там готовое уже всё (осталось только отсортировать),
а здесь надо заново парсить всё.

orka13 · 22 апр 2018

Ну парсер дает возможность парсить любые страницы, которые ему подсунуть, а в базе только доменная зона RU парсилась (Парсилась главная страница + дополнительно список из 30 шт. внутренних страниц).

Mozgovik · 22 апр 2018

orka13 сказал(а): ↑

Ну парсер дает возможность парсить любые страницы, которые ему подсунуть
Нажмите, чтобы раскрыть...

Если подсунуть список чьих-нибудь друзей из ВК - он спарсит их телефоны?
И вообще, как обстоят дела с парсингом мейлов из соц сетей и форумов?

orka13 · 23 апр 2018

Mozgovic сказал(а): ↑

А в чем преимущество парсера перед готовой базой имейлов?
Или наоборот...
Нажмите, чтобы раскрыть...

Забыл поделится опытом работы с этим парсером на крупной базе (добавлю это в отдельную вкладку в настройках):
Внимание: шаблон работает сверх-быстро без использования браузера (на Get-запросах).
Но обратной стороной медали будет большая нагрузка на сетевое оборудование в многопотоке. Например, когда я работаю свыше 100 потоков, то обычный домашний Lan-роутер зависает каждые пару минут (не из-за скорости, а из-за слишком большого количества секций). Приходилось временно без него работать напрямую, или сбавлять потоки.
А при "промышленном парсинге" (я парсил несколько дней подряд базу на 5 млн сайтов) вас может заблокировать вышестоящий провайдер за «подозрительную сетевую активность» (мне урезали на сутки скорость с 100 мбит до 10 без предупреждения ). Подобно поступит и большинство хостинг-провайдеров, если вы надумаете на удаленном сервере парсинг длительный запустить.

Кроули · 23 апр 2018

ОТЗЫВ:
Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик?
Практик. Работаю с шаблонами Зенки (время от времени) 2,5 года

В каком виде предоставлен материал и насколько удобно он оформлен?
Шаблон Зенки. Инструкция видео и текстовая

Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
Можно проверить работоспособность шаблона буквально запустив его один раз. Если пользоваться донорами, предоставленными Автором – это будет долго.
Я оставил пару десятков сайтов и… проверка произошла очень-очень быстро.

Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
Легка! Самое прикольное, что шаблон и настраивать то не нужно. Только запустить шаблон…

Сколько времени заняло достижение заявленного автором результата?
Шаблон работает. Сразу же.

Нужны ли специальные навыки и дополнительные материальные вложения?
Самые минимальные навыки работы с Зенкой

Оказывал ли автор должную поддержку в процессе проверки?
Да, оказывал.

Каковы в целом общие впечатления о компетентности автора?
Несомненно, Автор компетентен.

Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.

Отзыв на инфопродукт отражает мое субъективную точку зрения.