Исправление ошибок написания баз email-адресов

Тема в разделе "Бизнес и свое дело", создана пользователем woober, 18 июн 2018.

Статус обсуждения:
Комментирование ограничено.
  1. 18 июн 2018
    #1
    woober
    woober ЧКЧлен клуба (А)
    [​IMG]

    Здравствуйте!

    Данный шаблон позволяет Вам проверить правильность написания email-адресов не с точки зрения существования mailbox’ов со стороны почтового сервера, а с точки зрения правильности их написания в зависимости от правил того или иного почтового сервиса.
    Основная идея этого шаблона заключается в том, что если email-адрес, например, сервиса mail.ru был написан с ошибкой, то его нужно попробовать исправить вместо того, чтобы выбрасывать из своего списка рассылки, ведь это потенциальный клиент.

    Почему вообще нужно исправлять? — когда люди пишут email-адреса, они могут ошибиться в написании, поставить лишние знаки и т.д. — все это препятствует отправке письма на такой почтовый ящик, т.к. лишняя буква/знак — это у большинства сервисов уже совсем другой почтовый ящик, которого может и не быть, а при попытке отправить на такой почтовый ящик письмо через софт он будет считаться невалидным.

    Например:


    Таким образом при проверке базы email-адресов часть из них будет исправлена. Другая часть будет отсеяна как несуществующие (например, если домен почтового ящика несуществует). В среднем с базы в 4 млн. email-адресов 1-5% email-адресов исправляются (40 тыс. — 200 тыс.), примерно столько же отфильтровываются, как плохие. Итого средний эффект на базу 2-10%

    Что нужно для работы:
    1. Программа ZennoPoster/ZennoBox версии 5.9.9.1 или выше. Очень желательно, чтобы на этом ПК было по возможности больше ядер процессора, т.к. основная нагрузка при проверке возлагается на них.
    2. Список email-адресов
    3. MySQL база данных версии 5.5 или выше, специально созданная под шаблон. База данных может использоваться как у хостинга, так и на своем сервере (на своем VPS сервере с SSD-диском предпочтительнее, т.к. скорость проверки увеличивается в 2-5 раз)

    Шаблон занимается:
    1. исправлением написания домена
    2. исправлением написания почтового ящика и проверкой вообще мог ли пользователь на том или ином сервисе зарегистрировать такой почтовый ящик (Ведь если он чисто физически не мог его зарегистрировать, то это ведь плохой email-адрес)
    3. проверка существования почтового домена
    4. проверка на наличие стоп-слов в домене и почтовом ящике
    5. очистка базы от заведомо плохих почтовых доменов, на которые в 99+% случаев смысла слать вообще никакого нет (по желанию эту опцию Вы сможете отключить)
    6. очистка базы от временных почтовых ящиков
    7. очистка базы от заведомо известных нежелательных email-адресов
    На текущий момент в шаблоне более 20 этапов проверки почтового ящика

    Таким образом, если раньше весь процесс рассылки по этапам можно было свести к
    • получение базы
    • проверка базы через web-интерфейс сервисов/smtp-запросы
    • рассылка

    То теперь добавляется еще 1 немаловажный этап
    • получение базы
    • проверка правильности написания email-адресов и существование домена, исправление адресов по своим внутренним базам
    • проверка базы через web-интерфейс/smtp-запросы
    • рассылка

    Таким образом даже если сервис предоставит неверную информацию о том или ином email-адресе, то благодаря проверке написания почтовых ящиков мы сможем снизить количество отправляемых писем на заведомо несуществующие email-адреса.

    В следствие этого:
    • повышается доставляемость
    • база лучше и быстрее чистится (засчет исправления написания mailbox’ов/доменов)
    • снижается количество баунсов и как следствие банов

    Кому будет полезен этот шаблон:
    • email-маркетологам
    • владельцам сайтов, которые собирают email-адреса клиентов/посетителей

    Что насчет скорости проверки:
    Т.к. шаблон работает с базой данных MySQL, то скорость работы во многом зависит от скорости работы этого сервера с базой данных MySQL, а так же скорости работы Вашего ПК. В среднем в 1 поток шаблон проверяет за 1 час работы от 50 тыс. до 100 тыс. email-адресов.
    Если запустить выполнение в несколько потоков, то скорость проверки увеличится. Однако, в многопоточном режиме шаблон лучше запускать при подключении к быстрому серверу MySQL

    Отдам на проверку от 10 участников
     
    2 пользователям это понравилось.
  2. 18 июн 2018
    #2
    Basill
    Basill ОргОрганизатор (А)
    Картинка хороша, какой размер MySQL физический, т.е сколько она занимает место? Инструкция как поднять базу у себя на компе будет?
     
    1 человеку нравится это.
  3. 18 июн 2018
    #3
    milagros
    milagros ОргОрганизатор
    А с просто .txt работать нельзя? Если расскажете как переделать миллионы email-ов в базу, то могу проверить)
     
  4. 19 июн 2018
    #4
    Basill
    Basill ОргОрганизатор (А)
    Скорее всего в базе прописаны данные для работы с шаблоном, а сама база может быть в любом формате, автор меня поправит если не прав.
     
  5. 19 июн 2018
    #5
    milagros
    milagros ОргОрганизатор
    Я так поняла что именно база почт должна быть в mysql. Ждем ответа автора, делаем ставки))
     
  6. 19 июн 2018
    #6
    orka13
    orka13 ЧКЧлен клуба (А)
    Хотите пополнить базу почтовых адресов? То эта складчина для вас:
    [ZennoPoster] Барсик - парсер Яндекс.Карт + Геокодер (20 000 объектов в минуту)
    Варианты использования:
    • Поиск конкурентов в своей нише\городе.
    • Поиск фирм под рассылку\спам по телефону\Email.
    • Поиск соц-страниц и сайтов организаций.
    • Заполнение собственных сайтов\досок характеристиками объектов из Яндекс.Карт (есть же картинки-миниатюры, можно все аккуратно оформить).
    • Заработок на указании услуг по парсингу Яндекс.Карт (создаёте темы по форумах, на Kwork).
     
  7. 19 июн 2018
    #7
    woober
    woober ЧКЧлен клуба (А)
    4 млн. email-адресов = примерно 1 Гб.
    Поднимать у себя локально на компьютере БД не особо хорошее решение, т.к. помимо нагрузки, которую будет создавать ZennoPoster, так же нагрузку будет создавать база данных. Как следствие, общая скорость проверки упадет, причем ощутимо.
    Более того в ходе проверки шаблон сильно кушает CPU, т.к. там много разных этапов проверок, то 1 поток грузит 1 ядро примерно на 80%.

    Отсюда лучше будет держать базу данных подальше от рабочего ПК.
    Правильный выбор - свой сервер, т.к. там ресурсы ни с кем не делятся, так что и проблем меньше и скорость выше. Сервер можно взять на digitalocean по промокоду, который дает сразу на баланс 10$ и создавать/удалять виртуалки по мере надобности, т.к. оплата там почасовая.

    Инструкции как поднять у себя на компе нет, не будет. Но я посмотрю более детально в сторону SQLite3 и если эта БД покажет хорошую производительность, то добавлю её в шаблон, таким образом вопрос по поиску БД MySQL отпадет.

    Все сводится к следующим этапам
    1. заносим email-адреса в текстовый файл
    2. указываем в шаблоне данные по подключению к MySQL-базе данных : IP-адрес сервера, логин+пароль, имя созданной базы (вот как любой хостинг дает данные базы данных для сайта - вот ровно такие же данные и в шаблоне указываются, база данных MySQL для сайта вполне подойдет для проверки до 100-500 тыс. email-адресов)
    3. запускаем шаблон на импорт данных из текстового файла в БД
    4. запускаем шаблон на проверку email-адресов (многопоточный режим)
    5. запускаем шаблон на проверку наличия непроверенных email-ов (вдруг остались после проверки)
    6. выгрузка информации в 3 файла: Хорошие email-адреса, Плохие email-адреса, Исправленные email-адреса
    Чуть позже приложу скрины и видео пример работы, чтобы было нагляднее видно.
     
    1 человеку нравится это.
  8. 19 июн 2018
    #8
    Basill
    Basill ОргОрганизатор (А)
    Примерный параметра компа что бы работать в 5 потоках, какие параметры для сервера если там ставить MySQL ? Как поставить поставить на сервер MySQL и с ней работать будут инструкции? т.к не все умеют с ней работать и знают что это такое.
     
  9. 19 июн 2018
    #9
    woober
    woober ЧКЧлен клуба (А)
    Тут, я думаю, правильнее не инструкцию добавлять, а отдельный шаблон, который под это дело сам настроит панель управления + добавит базу + чуть подкорректирует её настройки.
    По инструкции многие замучаются в командной строке что-то там печатать =) За эту идею отдельное спасибо, попробую добавить такой функционал.

    По параметрам, как я и написал выше, 1 поток грузит 1 ядро на 80%. Соответственно, характеристики ПК с ZennoPoster:
    • Для запуска шаблона в 4-6 потоков необходимо 4 ядра CPU (большее количество потоков можно, конечно, запустить, но ZP может начать подтормаживать)
    • Оперативки от 2 Гб.
    • Windows 7+
    Характеристики сервера:
    • 1 ядро CPU
    • 1 Гб оперативки
    • от 20 Гб HDD (SSD - крайне обязательно)
    • ОС предпочитаю Debian/Ubuntu
     
  10. 19 июн 2018
    #10
    milagros
    milagros ОргОрганизатор
    Все поняла, кроме этого) А если их на порядок больше? Или это в смысле к существующей базе подключиться и через неё проверять?
     
  11. 19 июн 2018
    #11
    Basill
    Basill ОргОрганизатор (А)
    С зенкой все сложнее т.к скажем веб шаблон может сжирать и 400 мб оперативки а может только 200 и грузит процесор по разному.
    Зависит от того что шаблон делает и что использует.

    Давай по другому. Скажем сервер vps под виндус 6 ГБ RAM, cpu 2. Сколько потоков такой потянет?
     
  12. 20 июн 2018
    #12
    woober
    woober ЧКЧлен клуба (А)
    Заметил, что базы данных от хостингов (типа jino и других) при бОльшем количестве информации в БД (большем количестве email-адресов) начинают тупить. Долго отдают информацию, обновляют её. Порой не с первого раза. Поэтому и указал такое количество.

    Если существующая база данных используется каким-либо сайтом, то лучше создать отдельную базу данных для шаблона.


    этот шаблон не использует браузер, вся его работа заключается в анализе email-адреса, проверке его по различным внутренним спискам и словарям. Таким образом основная нагрузка идет на процессор. Если у Вас 2 ядра выделяется на vps = 2-3 потока. примерно 100 тыс - 200 тыс. email-ов в час.
     
    2 пользователям это понравилось.
  13. 20 июн 2018
    #13
    Earthshaker
    Earthshaker БанЗабанен
  14. 3 фев 2019
    #14
    Алексей3741
    Алексей3741 ЧКЧлен клуба (А)
    Последнее редактирование модератором: 4 фев 2019
Статус обсуждения:
Комментирование ограничено.