Закрыто

[Python] Скрипт чистки текста

Тема в разделе "Бизнес и свое дело", создана пользователем montero, 25 авг 2016.

Цена: 19263р.
Взнос: 250р.
102%

Основной список: 83 участников

Резервный список: 3 участников

Статус обсуждения:
Комментирование ограничено.
  1. 27 авг 2016
    #21
    instocky
    instocky ЧКЧлен клуба (А)
    это же просто чистка текста а не генератор =)
    где-то на винте был курс wordpress для доров или типа того(у него в комплекте шел скрипт на php с такой же функцией чистки текста)
     
  2. 27 авг 2016
    #22
    Strellen
    Strellen ЧКЧлен клуба
    Не думаю, что там что-то похожее. Здесь Словари с сигнатурами и т.п.
    ТС молодец. Такой скрипт мне лично не нужен, но куплю, чтобы поддержать разработчика.
    Допустим, у меня в печени стоит чистка текстовки в частности сниппетов, хотя это и простейшая, малозатратная часть подготовки для генерации.
    Код:
    sed 's/[^a-zA-Zа-яА-Я0-9\ ]\+/ /g;s/^[ ]*//;s/[ ]*$//;s/\ \{2,\}/\ /g' file.txt > file2.txt
    Мой предыдущий пост скорее претендует на троллинг.
    Здесь ТС либо надо остановиться и отдавать скрипт "как есть".
    Либо маяться и выполнять хотелки (которых может быть море) в привате.
     
    1 человеку нравится это.
  3. 27 авг 2016
    #23
    instocky
    instocky ЧКЧлен клуба (А)
    согласен, что за такую цену - скрипт должен отдаваться как есть + возможность с автором поболтать в приватной ветке
    поддерживаю
     
    1 человеку нравится это.
  4. 27 авг 2016
    #24
    montero
    montero ЧКЧлен клуба (А)
    Можно будет сделать. Но лучше каждому сделать что-то свое, чтобы тексты были уникальные.
     
    1 человеку нравится это.
  5. 27 авг 2016
    #25
    montero
    montero ЧКЧлен клуба (А)
    Какие-то небольшие доработки сделаю, что-то серьезное вам придется самим.
     
  6. 27 авг 2016
    #26
    montero
    montero ЧКЧлен клуба (А)
    Идеи скрипта полностью из моей головы. Сам покупал закрытый PHP код, но он мне не понравился качеством работы и решил сделать лучше.
     
    1 человеку нравится это.
  7. 27 авг 2016
    #27
    montero
    montero ЧКЧлен клуба (А)
    Желающие проверить материал сообщите мне. У вас должна быть программа для парсинга текстов.
     
  8. 29 авг 2016
    #28
    Lucifer
    Lucifer ДолжникДолжник
    У меня есть чем спарсить, и не одна
     
  9. 29 авг 2016
    #29
    montero
    montero ЧКЧлен клуба (А)
    Проверяющими могут быть только организаторы и модераторы.
    Пока не нашел проверяющих, кому предлагал отказались.
     
  10. 29 авг 2016
    #30
    prosstto
    prosstto ЧКЧлен клуба
    Есть тема "Ищу проверяльщика" попробуй туда написать.
     
    1 человеку нравится это.
  11. 30 авг 2016
    #31
    prosstto
    prosstto ЧКЧлен клуба
    а еще посмотри старые темы про дорвеи. может там есть заинтересованный народ)
     
    1 человеку нравится это.
  12. 30 авг 2016
    #32
    prosstto
    prosstto ЧКЧлен клуба
    @Roman_77 напишите, пожалуйста, когда найдете проверяющих. очень жду. уже 4гб текста лежит на чистку)
     
  13. 30 авг 2016
    #33
    montero
    montero ЧКЧлен клуба (А)
    Активно ищу проверяющих. Проблема в том, что постить в личку можно раз в 30 минут.
     
  14. 31 авг 2016
    #34
    дядя Вася
    дядя Вася ЧКЧлен клуба
    В примерах исходные тексты очень хорошего качества. Попробуйте напарсить сниппетов, например. Вот если их обработает - будет круто.

    Можно список фильтров написать?
     
    1 человеку нравится это.
  15. 31 авг 2016
    #35
    montero
    montero ЧКЧлен клуба (А)
    Сам сниппеты не парсил, использую x-parser-light. Ты сниппеты чем парсишь? У меня есть Datacol, но в нем не вижу такого модуля. Я обещал, что если у складчиков будут проблемы с текстом, дополню код.
    Весь скрипт состоит из большого числа фильтров (каждый фильтр 1-5 строк кода), здесь всё перечислять нет смысла.
     
  16. 31 авг 2016
    #36
    Strellen
    Strellen ЧКЧлен клуба
    Roman_77,
    А ты точно сам написал скрипт чистки, который продаёшь?
    Спарсить с серпа яндекса или гугла сниппеты - дело 15 минут для питониста.
    Код:
    from html.parser import HTMLParser
    Даже если учишься. Эх...:(
     
  17. 31 авг 2016
    #37
    montero
    montero ЧКЧлен клуба (А)
    Конечно. Команда форума смотрит материалы, можно проверяющих попросить погуглить.
    Я Питон не весь знаю, пока изучил обработку данных и общие вещи типа циклов, функций, чтение и запись файлов. До сниппетов пока не добрался.
     
  18. 31 авг 2016
    #38
    Алёнка XXX
    Алёнка XXX ЧКЧлен клуба
    да, действительно.. отличная прога! сама пользуюсь время от времени :)
     
    1 человеку нравится это.
  19. 31 авг 2016
    #39
    дядя Вася
    дядя Вася ЧКЧлен клуба
    Сниппеты да, датаколом можно надергать.

    [​IMG]
    Вот немного текстовки со сниппетов

    Фильтры хотя бы примерные можно перечислить. Есть ли по длине слов в предложениях проверка, по окнчанию предложения, по кол-ву символов последнего слова предложения, чтобы начиналось с заглвной буквы предложение. Уверен, займет самое основное перечислить 5-10 минут, а складчикам - будет лишний повод вписаться ;).
     
    1 человеку нравится это.
  20. 31 авг 2016
    #40
    montero
    montero ЧКЧлен клуба (А)
    Сейчас попробую
    Есть всё то, что перечислено и намного больше, и намного хитрее, именно поэтому не хочу писать. Можно будет у проверяющих спросить - как вам фильтры, это простые заменялки-удалялки или что-то ещё.
     
    1 человеку нравится это.
Статус обсуждения:
Комментирование ограничено.