[ZennoPoster] Парсинг/публикация новостей на свои сайты

Тема в разделе "Бизнес и свое дело", создана пользователем a10ne, 12 ноя 2017.

?

Какую cms добавить следующей?

  1. Joomla

    26 голосов
    50,0%
  2. Drupal

    6 голосов
    11,5%
  3. Modx

    11 голосов
    21,2%
  4. InstantCMS

    5 голосов
    9,6%
  5. UCOZ?

    4 голосов
    7,7%
Статус обсуждения:
Комментирование ограничено.
  1. 13 ноя 2017
    #21
    a10ne
    a10ne ПартнерПартнер (А)
    Лить сразу в БД не всегда удобно в вп. Там есть таблица postmeta, чтобы в ней правильно настроить миниатюры (они важны практически всем), надо очень хорошо повозиться. Плюс есть вероятность, что потом из админки конечные пользователи не смогут это править (просто не будет отображаться).
    Я так понимаю, вы переживаете за скорость работы? Работает достаточно шустро, вряд ли можно сделать супер огромную очередь, а вот рисковать качеством не хотелось бы. Пользователю так или иначе надо указать доступы либо к админке, либо к бд. Только с бд сложнее.
     
  2. 13 ноя 2017
    #22
    ФорсМажор
    ФорсМажор ЧКЧлен клуба
    а для WooCommerce или Opencart можно такое реализовать для добавления с сайта интернет-магазина донора, агрегатора или площадок типа tiu новых товаров в нужных категориях в аналогичные категории на сайте?...если да, то еще бы из нескольких доноров
     
  3. 13 ноя 2017
    #23
    cranston
    cranston ЧКЧлен клуба
  4. 13 ноя 2017
    #24
    a10ne
    a10ne ПартнерПартнер (А)
    Это слишком трудозатратно по отладке + результат все равно не будет совпадать по каким-то отдельным сайтам, так что нет. Такие парсеры настраиваются практически всегда индивидуально.

    По вашему вопросу, парсить кнопку думаю, возможно. Надо смотреть сам донор, пришлите в ЛС. А вот заполнять доп поля вп по крайней мере сейчас - нет.
     
  5. 13 ноя 2017
    #25
    lingvarik
    lingvarik БанЗабанен
    возник еще вопрос. Можно ли реализовать такую функцию в парсере, например, мне нужны каждый день свежие статьи под определенные ключевые запросы. Вручную я вбиваю в строку поисковика гугл ключевое слово, потом в разделе инструменты выбираю фильтр ''за последние 24 часа'' или за "последний час" и вручную сохраняю ссылки на сайты со статьями, которые мне выдал поиск. Можно ли это автоматизировать в данном парсере - задал ключевик, задал фильтр (последние 24 часа, 1 час и т.п.) и парсер собрал мне нужную инфу - ссылки на источник со статьями, собственно сам текст статей и фотографии?
     
  6. 13 ноя 2017
    #26
    Владдд
    Владдд ЧКЧлен клуба
    1. Абзацы. Шаблон должен уметь разбивать текст на абзацы с настраиваемым кол-вом предложений. То есть, в настройках указывается кол-во предложений в абзаце, и шаблон разбивает всю статью на абзацы по три предложения. Естественно, шаблон должен отделять заголовки и подзаголовки и + маркированные или нумерованные списки. И самый идеальный вариант, если шаблон может работать не только с новыми статьями, но и с любой другой статьей основного сайта.
    2. Содержание. Шаблон удаляет содержание в статье донора и генерирует сам + пункты делает активными ссылками, далее вставляет содержание в указанное место в статье. То есть, в настройках указывается расположение содержания в начале статьи или после определенного абзаца. Так, же в идеале если бы шаблон мог это делать и со старыми статьями основного сайта.
     
  7. 13 ноя 2017
    #27
    Izgoj
    Izgoj ЧКЧлен клуба
    А если сам текст не подразумевает разделение на абзацы? Тут как бы может произойти потеря грамматики.
    А вообще, ваши просьбы смахивают на запрос создания искусственного интеллекта на базе Зенки. )
     
    1 человеку нравится это.
  8. 13 ноя 2017
    #28
    a10ne
    a10ne ПартнерПартнер (А)
    Универсального парсера, чтобы вытаскивать контент с разных сайтов еще не придумали, тут нужен другой подход. Мой парсер работает по шаблонам с конкретными сайтами.
    По первому пункту можно сделать разбивку по предложениям и допустим по подзаголовкам. Списки трогать не будем. След предложение не понял.

    По 2му пункту, слишком специфичная и трудоемкая задача, боюсь добиться 100% результативности не выйдет.
     
  9. 14 ноя 2017
    #29
    c8marta
    c8marta ЧКЧлен клуба
    Получается ваш шаблон работает по принципу плагина ВПграбера, здесь на складчине много вордпресовских автонаполняемых сайтов на разную тематику, где идет парсинг через регулярку на определенные сайты на, которые настроен сам плагин т.е от 5 - 10 сайтов с которых берется контент (текст, картинка, видео).

    Так как вы написали, что шаблон работает с конкретными сайтами, меня это не совсем устраивает т.е я полностью завишу от вашего выбора, какой текст парситься на мой сайт т.е с каких сайтов.
    Хотя вы написали в стартпосте что:
    Я постарался сделать удобный инструмент для парсинга любых сайтов

    Объясните ситуацию.
    Я получу шаблон (меня интересует только Вордпрес) который будет парсить контент(текст, картинка, видео) и убирать ссылки в тексте только с определенных сайтов, которые вы дадите, как вы писали их около 30 сайтов и на другие сайты (которые меня интересуют) я этот шаблон применить не смогу, так как у разных сайтов на ВП разная структура верстки шаблона и контента.
    Я вас правильно понял?
     
  10. 14 ноя 2017
    #30
    a10ne
    a10ne ПартнерПартнер (А)
    Мои сайты будут даны просто для примера, чтобы разобраться. Хотите пользуйтесь, хотите нет.
    Это не аналог вп-граббер, хотя бы только потому что работает еще и с дле.
    Все сайты, с которых надо будет парсить, естественно надо настраивать.

    Еще раз для всех - УНИВЕРСАЛЬНОГО СРЕДСТВА ПАРСИТЬ ЛЮБЫЕ САЙТЫ ВСЕГДА ПРАВИЛЬНО НЕТ

    Я много раз думал над тем, как бы реализовать универсальное, но задача:
    1) трудоемка
    2) на энтузиазме не уедешь
     
  11. 14 ноя 2017
    #31
    Ayla753
    Ayla753 ЧКЧлен клуба
    @a10ne а не было мысли прикрутить еще парсинг из выдачи? по определенным ключам? Или хотя бы возможность вставить уже готовые спаршенные ссылки для дальнейшей заливки на сайт.

    И еще. У гугл транслейт есть лимиты на перевод. Как это обходится? Если я, например, хочу сразу перевести и залить 100, 1000 статей на сайт. Прокси помогут или есть варианты?
     
  12. 14 ноя 2017
    #32
    lingvarik
    lingvarik БанЗабанен
    понятно. Допустим у меня уже есть список сайтов (условно 20 шт.) с которых мне нужно регулярно парсить свежий контент. При помощи шаблона я смогу регулярно и главное быстро (самые свежие публикации) вытаскивать контент с этих сайтов (текст, фото)? И при необходимости менять самостоятельно списки нужных мне сайтов для парсинга?
     
  13. 14 ноя 2017
    #33
    a10ne
    a10ne ПартнерПартнер (А)
    Прокси должны помочь в данном случае, так что все равно будет работать.
    Конечно, настроив парсер по этим сайтам, он будет стабильно тянуть с них только свежий контент.
     
    1 человеку нравится это.
  14. 14 ноя 2017
    #34
    Ayla753
    Ayla753 ЧКЧлен клуба
    Спасибо. А что по этому вопросу скажете? Будет возможность если не парсить выдачу, то хотя бы указывать свои конкретные ссылки на статьи для заливки на сайт?
     
  15. 14 ноя 2017
    #35
    a10ne
    a10ne ПартнерПартнер (А)
    у меня есть готовые парсеры выдачи я и г, но вопрос что под найденные сайты не будет шаблонов.
    а если вы будете выгружать сразу ссылки, то все равно будет нужен шаблон для разбора страницы.
     
    1 человеку нравится это.
  16. 15 ноя 2017
    #36
    dmitronix1
    dmitronix1 ЧКЧлен клуба
  17. 17 ноя 2017
    #37
    MatrixSSS
    MatrixSSS ЧКЧлен клуба
  18. 21 ноя 2017
    #38
    ZR1986
    ZR1986 ЧКЧлен клуба
  19. 28 ноя 2017
    #39
    Ashad2009
    Ashad2009 ЧКЧлен клуба
  20. 4 дек 2017
    #40
    WebBot
    WebBot ПартнерПартнер (А)
Статус обсуждения:
Комментирование ограничено.