Закрыто

База организаций России из Яндекс Карты (Яндекс Справочник)

Тема в разделе "Бизнес и свое дело", создана пользователем orka13, 7 мар 2018.

Цена: 10270р.
Взнос: 950р.
32%

Основной список: 40 участников

Резервный список: 1 участников

Статус обсуждения:
Комментирование ограничено.
  1. 7 мар 2018
    #1
    orka13
    orka13 ЧКЧлен клуба (А)

    Складчина: База организаций России из Яндекс Карты (Яндекс Справочник)

    Скрытая ссылка​

    Время сбора базы: 23.02.2018 по 06.03.2018.
    Используемый инструмент: собственные парсер открытый данных ЯндексКарт + парсер Email с сайтов, все на ZennoPoster.
    Регион: Россия
    Количество объектов в базе: ~4 336 000.
    Из них:
    • 2 049 000 имеют заполнено поле с сайтами (1 134 000 уникальных значений)
    • 1 382 000 имеют заполнено поле с email (1 287 000 уникальных значений)
    • 2 985 000 имеют заполнено поле с телефонами\факсами (3 378 000 уникальных значений)

    Формат файла: таблица *.CSV (обычный текстовый файл, разделитель табуляция, кодировка UTF-8), размер 2,3 ГБ, сжатая в архив *.zip размером 634 Мбайт.
    Инструмент для работы: Лично я работал с файлом через мультифункциональный текстовый редактор EmEditor («Меню > Правка > Разделенные данные > Табулятор»). в MS EXCEL лимит на 1 млн строк, так что туда можно импортировать только часть данных при желании («Данные > Из текста > Открыть файл > С разделителями, Unicode UTF-8 > Знак табуляции > Готово»). Ну и можно сделать импорт этого файла в любые редакторы, которые поддерживают быстрою выборку.
    Возможное применение: Email-рассылка, SMS-рассылка, прозвон, аналитика рынка и конкурентов.

    Колонки в базе:
    1. Название
    2. Категории
    3. Адрес
    4. Все услуги
    5. Телефоны
    6. Главный сайт
    7. Все сайты
    8. Вконтакте
    9. Facebook
    10. Instagram
    11. Twitter
    12. Одноклассники
    13. Мой мир
    14. YouTube
    15. Все соц. и бизнес ссылки
    16. Страничка на Яндекс.Карты
    17. Координаты Широта
    18. Координаты Долгота
    19. ID на Яндекс.Карты
    20. Почтовые ящики c сайтов

    Пример случайной выборки из базы на 10 000 строк:
    Такое количество данных позволит оценить нужна вам база или нет. Ну а для проверяющих задача, как по мне, состоит лишь в том, чтобы проверить отвечают ли остальные данные такому же формату.

    И в добавок вот полностью весь столбец «Адрес», чтобы вы смогли понять сколько в каком городе объектов. Сортировка здесь по алфавиту, но некоторые города могут указываться без родительских элементов (страны, области), так что проверяйте через «поиск-количество совпадений», а не просто визуально листая строки:
    Приблизительные подсчеты объектов по городам:
    • Москва: 430 000.
    • Санкт-Петербург: 230 000.
    • Самара: 48 000.
    • Сочи: 27 000.

    Об Е-mail в базе: Е-mail собирался отдельно на сайтах организаций, если такие были указаны, так как с недавнего времени Яндекс отключил показ Е-mail. Парсилась страничка, указанная в карточке организации на Яндекс картах, а также часть соседних внутренних страницы сайта, на которые вели ссылки с этой странички (приоритет отдавался «контактам», «о нас» и т.д.). Это помогло увеличить вероятность нахождения почтового адреса, даже если он не присутствовал на целевой странице, и увеличило общее количество почт. Так что если встретите в отчете большое количество ящиков на организацию, то основным ящиком можно считать первое значение, а остальные уже обычно нашлись на других страницах.

    Похожие старые складчины (НЕ авторские, так что и цены там ниже :)):
    https://v21.skladchik.org/threads/База-организаций-России-Яндекс-Карты.152556/
    https://v21.skladchik.org/threads/База-Яндекс-Справочника-Россия.170686/

    UPD:
    Обновление: 1 раз через 2-3 месяца после первой выдачи. Это при условии доступности парсинга.

    UPD2:
    Отзывы
    [​IMG] [​IMG] [​IMG]

    Видео из отзыва от Testimonial:

    Я открыт к конструктивной критике и пожеланиям складчиков. Это видно по последних страницах комментариев темы. Учитывая ваши замечания, я могу подправить базу под более востребованный вид. Сейчас вот сделал альтернативную версию с разделением телефонных данных на три отдельных столбца. Чтобы не уходить от изначального описания базы просто раздам 2 версии (изначальную классическую и в качестве бонуса переделанную), а там уже сами выбирайте какая удобнее.
     
    Последнее редактирование модератором: 24 мар 2018
    13 пользователям это понравилось.
  2. Последние события

    1. skladchik.com
      Складчина закрыта.
      22 май 2021
    2. Anna Mahmutova
      Anna Mahmutova участвует.
      4 мар 2020
    3. nor5a
      nor5a участвует.
      21 сен 2019
    4. Александр Александров 3
      Александр Александров 3 участвует.
      19 июл 2019

    Последние важные события

    1. skladchik.com
      Складчина закрыта.
      22 май 2021
    2. skladchik.com
      Складчина доступна.
      27 мар 2018
    3. skladchik.com
      Складчина активна.
      27 мар 2018
    4. skladchik.com
      Сбор взносов начинается 27.03.2018.
      25 мар 2018
  3. Обсуждение
  4. 7 мар 2018
    #2
    Ragnar Lodbrok
    Ragnar Lodbrok АдминАдминистратор Команда форума
    Обновление для участников предполагается? Если да, то сроки и периодичность.
     
    1 человеку нравится это.
  5. 7 мар 2018
    #3
    orka13
    orka13 ЧКЧлен клуба (А)
    Думаю, оптимально будет сделать обновление 1 раз через 2-3 месяца после первой выдачи. Так нормально? Это при условии доступности парсинга. Я просто не могу гарантировать что Яндекс не изменит кардинально правила доступа, и у меня получится повторить проделанное. Другие парсеры постоянно перестают работать с каждой сменой алгоритма Яндекс.Карт, выживают только те, у которых автора успевают обновления выкатывать.
     
    2 пользователям это понравилось.
  6. 7 мар 2018
    #4
    Mr-Grey
    Mr-Grey ОргОрганизатор (А)
    Могу проверить.
     
    1 человеку нравится это.
  7. 7 мар 2018
    #5
    bizzon
    bizzon ЧКЧлен клуба
    А ссылки на фото организации не парсит, чтобы импортировать в свой справочник на сайте?
     
  8. 7 мар 2018
    #6
    orka13
    orka13 ЧКЧлен клуба (А)
    Нет, по умолчанию не парсит, так как ссылок на них нет в стандартном ответе API поиска ЯндексКарт. Да и не задавался я изначально такой целью.
    Можете уже самостоятельно спарсить картинки из страницы-карточки организации (столбец «Страничка на Яндекс.Карты»).

    Если очень надо, и будет еще спрос от желающих, то попробую переделать парсер на захват полей с картинками еще на етапе сбора базы. Теоретически это возможно, если изменить формат запроса к API (такой сейчас Яндекс в браузере использует), но гарантий дать не могу, так этот метод не тестирвал, может он непригоден к массовому парсингу (больше % ошибок выдает, не дает глубоко парсить, или жестче банит IP).
    И я не в курсе временные там ссылки на картинки, или постоянные. То есть пригодны ли урлы картинок для репоста на сайте, или они через пару дней отмирают. Для эксперимента давайте оставим здесь ссылку на организации товара и на ее картинку:
    Код:
    https://yandex.ru/maps/org/sushi_bar_tokio/1005811784/
    https://avatars.mds.yandex.net/get-altay/216588/2a0000015b1ffe3fd4d9dca3b936e86ac266/M
     
  9. 8 мар 2018
    #7
    orka13
    orka13 ЧКЧлен клуба (А)
    Тут один из проверяющих задался интересным вопросом: "как в EmEditor отфильтровать строки по нужной фразе". Я ошибочно считал раньше, что удобной привычной фильтрации там нет, предполагается что для удобства можно отрывок до 1 млн строк импортировать в EXCEL (я в старпосте написал, как в нем такое проделать). А если все же охота в этом редакторе то я делал через «Поиск>Закладка» в выделенном фрагменте (выделял перед этим нужный столбец, два раза кликнув над ним в панели линейки). И потом уже строки с закладкой копировал в отдельный документ («Правка > Закладки > Документа > Копировать строки»).

    Но сегодня я поискал в сети, и открыл для себя более удобный метод. Всего 4 клика, и получаем нужную фильтрацию в пределах любого столбца:
    Скрытая ссылка

    Кроме того, там есть поддержка регулярных выражений, так что если надо только какое-то слово искать, без родительских слов, в которые входит это слово («банк», но НЕ «банкомат»), то укажите вокруг нужного слова границы слов (символы «\b» на языке регулярок). Как на скрине:
    Скрытая ссылка

    Оставлю этот тут, чтобы пригодилось складчикам.
    UPD 22.03.18: Заметьте что на скринах не просто идущие подряд строки с подсветкой соответствий, а реально только те строки, в которых нашлись совпадения (номера строк слева то не подряд идут!)
     
    Последнее редактирование модератором: 23 мар 2018
    4 пользователям это понравилось.
  10. 8 мар 2018
    #8
    orka13
    orka13 ЧКЧлен клуба (А)
    Совсем забыл: чтобы выделит несколько значений, используйте там расширенный фильтр, или символ «или» в регулярках: «|». Пример (регистр роли не играет):
    Код:
    \b(банк|Денежные переводы|обмен валюты)\b
    Еще материал по теме (шпаргалка по регуляркам на 1 страницу): Скрытая ссылка
     
  11. 9 мар 2018
    #9
    Mr-Grey
    Mr-Grey ОргОрганизатор (А)
    О Т З Ы В

    1. Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик
    Опытный

    2. Отзыв излагается в собственном вольном стиле, но при этом он должен быть максимально развернутым.
    Это база данных с яндекс. Отформатированная и удобная к использованию. Разбита по категориям.

    3. Отзыв на материал, связанный с заработком, трафиком и иными сферами, направленными на достижение измеримых результатов в количественном или денежном выражении, должны подтверждаться скриншотами полученных результатов.
    Результат не заявлялся.

    4. В отзыве должны быть в обязательном порядке отражены следующие аспекты:
    4.1. В каком виде предоставлен материал и насколько удобно он оформлен?

    Материал предоставлен в формате .csv с огромным весом более 2гг. Также даны рекомендации по работе с такими файлами.

    4.2. Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    Общее время заняло чуть меньше часа.

    4.3. Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Затруднений при проверке не возникло.

    4.4. Сколько времени заняло достижение заявленного автором результата?
    Результаты не заявлены.

    4.5. Нужны ли специальные навыки и дополнительные материальные вложения?
    Умение устанавливать программу на пк.

    4.6. Оказывал ли автор должную поддержку в процессе проверки?
    Всё было выдано сразу в полном объёме.

    4.7. Каковы в целом общие впечатления о компетентности автора?
    Тут база данных по сути. Компетентность как таковая не нужна.

    5. При выполнении заданий следует полностью отказаться от теоретизирования и просто шаг за шагом выполнять все указания, приведенные в инфопродукте.
    Не требовалось.

    6. Если в процессе проверки возникали какие-либо конфликты, недовольства либо значительные несоответствия полученных вами результатов заявленным автором в описании складчины - отразите эти моменты в своем отзыве.
    Нет, автор помогал в вопросах. Их было всего два и по мелочам.

    7. В итоге считаю, что
    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.
     
    3 пользователям это понравилось.
  12. 9 мар 2018
    #10
    htrmaster
    htrmaster ОргОрганизатор
    Отзыв.

    Свой уровень владения информацией и навыками: в данной области вы: новичок, теоретик либо опытный практик?

    Практик.

    В каком виде предоставлен материал и насколько удобно он оформлен?
    Материал предоставлен в виде текстового документа запакованного в архив ZIP, в распакованном виде 2,4Гб. Материал полностью соответствует описанию и примеру данных.

    Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    Проверка заняла около 3х часов, увлекся слегка возможностями EmEditor в плане сортировки, но на моем средней мощности компьютере сортировки по 20-30 минут занимали.

    Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Никаких затруднений не было,

    Нужны ли специальные навыки и дополнительные материальные вложения?
    Специальных навыков особых не нужно, как и вложений.

    Оказывал ли автор должную поддержку в процессе проверки?
    Поддержка не понадобилась.

    Каковы в целом общие впечатления о компетентности автора?
    Автор компетентен.

    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.
     
    4 пользователям это понравилось.
  13. 9 мар 2018
    #11
    intelligent man
    intelligent man ОргОрганизатор
    @orka13
    Уточню, у тебя как парсит шаблон, можно выбрать любые города? Можно выбрать любые рубрики? Можно спарсить по поисковым запросам, ключам?
    Сделай складчину еще на шаблон по сбору почт, только надо добавить туда хороший список минус слов (или как его правильно назвать).
     
  14. 9 мар 2018
    #12
    orka13
    orka13 ЧКЧлен клуба (А)
    города или любые гео-точки вставляем в один файл-список.Допускаются различные (народные) названия города, главное чтобы Яндекс "понял" о каком городе идет речь, и не прописал вместо нужного какой-то другой город с похожим названием.
    Можно также и другие географические точки уазывать (реки, озера...). Допускаются такие вариации:
    • Россия, Санкт-Петербург
    • Россия, Санкт-Петербург, улица Тельмана, 56
    • город Санкт-Петербург
    • Москва
    • МАсква
    • Питер
    • озеро Байкал

    По разным ключам в пределах единой рубрики парсинга нет. просто есть поиск по запросам\ключам, это и есть поиск по рубрике. То есть просто если задать в качестве ключа рубрику, то парсит всю рубрику. Например во второй файл-список вносим такие строки и вперед:
    • строительные и отделочные работы
    • автомобильные грузоперевозки
    • студия веб-дизайна
    • детские игровые залы и площадки
    • it-компания
    • строительная компания
    Вот это уже можно на днях сделать, там почти все протестировано.
     
    1 человеку нравится это.
  15. 20 мар 2018
    #13
    Testimonial
    Testimonial ШтрафникШтрафник
    Официальный отзыв проверяющего:

    ВИДЕО ОТЗЫВ:


    Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик?
    Никогда не работал с базами больше чем 1000 человек. Был опыт спама по базе в 800 человек с помощью СМС.

    В каком виде предоставлен материал и насколько удобно он оформлен?
    База в формате .txt Весит 2.4гб. Легко открывается с помощью EmEditor.

    Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    Открытие базы - пару секунд. Проверка и сортировка - несколько часов, т.к. 4 миллиона строк сортировались по 10-40 минут.

    Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Усваивать его не надо. Проверяется за пару секунд вставкой названий организаций в Яндекс.Карту

    Сколько времени заняло достижение заявленного автором результата?
    Результат не заявлен. Пару часов проверял базу на соответствие.

    Нужны ли специальные навыки и дополнительные материальные вложения?
    Понадобится подходящий редактор для работы с такими объемами данных. Автор предлагает EmEditor.

    Оказывал ли автор должную поддержку в процессе проверки?
    Автор оказал не просто поддержку - он сразу выдал всю нужную информацию не ожидая вопросов. А потом еще и предложил решение, когда я сам столкнулся с затруднением.

    Каковы в целом общие впечатления о компетентности автора?
    На мой взгляд автор собаку съел на работе с базами. На мои вопросы ответ был дан еще до того, как они возникли.

    Если в процессе проверки возникали какие-либо конфликты, недовольства либо значительные несоответствия полученных вами результатов заявленным автором в описании складчины - отразите эти моменты в своем отзыве.
    Замечаний нет.

    Вывод:
    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины



    Отсебятина:
    Если вы еще не знаете для чего вам нужна будет эта база - ее можно купить впрок и решить. Автор все равно обновит ее через пару месяцев - будет время подумать.:)
     
    5 пользователям это понравилось.
  16. 20 мар 2018
    #14
    orka13
    orka13 ЧКЧлен клуба (А)
    Спасибо за теплый отзыв!
    Забыл только в переписке подсказать что не обязательно искать вручную организацию на карте (хотя этот метод может даже и надежнее будет для проверки), а хватает просто в конце таблицы найти колонку «Страничка на Яндекс.Карты». Там указана страничка организации со всеми данными (у некоторых даже есть фото, отзывы..). Хотя я изредка замечал, что там может чуть по-другому информация отображаться, но различия минимальны (чуть меньше\больше деталей указано).
     
  17. 21 мар 2018
    #15
    yamelomanchik
    yamelomanchik ДолжникДолжник
    Когда планируются сборы? Предлагаю уже начинать собираться потихоньку, так как взнос вырисовыется вполне адекватный.
     
  18. 21 мар 2018
    #16
    fetmarshal
    fetmarshal ОргОрганизатор (А)
    Внос фиксированный тут, независимо от количества складчиков;)
     
  19. 21 мар 2018
    #17
    yamelomanchik
    yamelomanchik ДолжникДолжник
    Понятно, благодарю)
     
  20. 21 мар 2018
    #18
    orka13
    orka13 ЧКЧлен клуба (А)
    Уже через пару дней начнем сборы, только вчера поле последнего отзыва подал заявку на статус "Автора". Ждемс...
     
  21. 21 мар 2018
    #19
    orka13
    orka13 ЧКЧлен клуба (А)
    Уже через пару дней начнем сборы, только вчера поле последнего отзыва подал заявку на статус "Автора". Ждемс...
     
  22. 21 мар 2018
    #20
    intelligent man
    intelligent man ОргОрганизатор
    Слушай, а это не мало на всю Россию?
     
Статус обсуждения:
Комментирование ограничено.