Закрыто

[Python] Скрипт чистки текста

Тема в разделе "Бизнес и свое дело", создана пользователем montero, 25 авг 2016.

Цена: 19263р.
Взнос: 250р.
102%

Основной список: 83 участников

Резервный список: 3 участников

Статус обсуждения:
Комментирование ограничено.
  1. 25 авг 2016
    #1
    montero
    montero ЧКЧлен клуба (А)

    Складчина: [Python] Скрипт чистки текста

    Предлагаю свой скрипт написанный на Python 3, который обрабатывает текст, собранный парсером и сохраняет только качественные предложения, устраняя в них различные ошибки.
    Скрипт работает аккуратно, сохраняя максимальное количество предложений. В очищенных текстах вы не найдете китайских иероглифов, знаков, изображающих кеды, смайликов и прочих ненужных символов, вы увидите только нормальный текст, знаки пунктуации и необходимые символы.
    По окончании работы скрипт выводит сообщения о времени работы, первоначальном и конечном размерах всех обрабатываемых файлов.
    Участники складчины получат скрипт на 920 строк (открытый код с комментариями), 3 словаря к нему (один словарь на 970 строк), двухстраничный документ, в котором описана установка интерпретатора Python, порядок работы со скриптом и словарями, бонус в виде 2 небольших полезных скриптов. Также я предлагаю настроенную портативную программу для написания/редактирования и выполнения кода.
    Материал рассчитан на тех, кто никогда не писал скриптов и программ.
    Я доволен качеством работы скрипта, предлагаю посмотреть 10 образцов обработанных текстов:

    Может получиться так, что после обработки своих текстов вы обнаружите какие-то "дефекты", что-то вам не понравится. Я готов буду рассмотреть такие тексты и внести изменения в код в ходе обсуждения после закрытия складчины. Длительную поддержку не обещаю, но если будут пожелания со стороны складчиков, внесу изменения в код.
     
    2 пользователям это понравилось.
  2. Последние события

    1. mih81
      mih81 оставил отзыв "Отлично".
      4 ноя 2016
    2. skladchik.com
      Складчина закрыта.
      25 окт 2016
    3. Kevin_N
      Kevin_N участвует.
      17 окт 2016
    4. pilotto
      pilotto участвует.
      16 окт 2016

    Последние важные события

    1. skladchik.com
      Складчина закрыта.
      25 окт 2016
    2. skladchik.com
      Складчина активна.
      7 окт 2016
    3. skladchik.com
      Сбор взносов начинается 07.10.2016.
      5 окт 2016
    4. skladchik.com
      montero организатор.
      5 окт 2016
  3. Отзывы участников

    5/5,
    • 5/5,
      Работой организатора доволен
      Для меня это просто супер находка. Самой главной функцией для себя нашёл фильтр замены в тексте по правилам, которые можно самому задавать и редактировать под нужную тематику.

      Например, можно заменить стоящий в конце предложения союз " а." —на—> ", а стоимость в аптеке - 200 руб."

      Получая дополнительные ключевые фразы в нужной тематике.
      Раньше это делал руками в Нотепад через поиск/замена, на что уходило не меньше 3-х часов на одну пачку текста. Или делал программой uvFilesCorrector - бесплатной, которая с моими объёмами могла справиться буквально за 2-3 дня, обрабатывая не более чем по 10-15 файлов из 2 Мб за заход.

      Уже пользуюсь. Автору спасибо.
      4 ноя 2016
      4 пользователям это понравилось.
    • 5/5,
      Работой организатора доволен
      Скрипт понравился. Вроде бы ничего особенного и раньше без него обходился, но вот появился и все тексты теперь предварительно им обрабатываю...нравится блин. Ну прямо как вишенка на тортике ....мелочь, а приятно :)
      Автор так вообще очень приятный в общении и адекватный человек. Буду приглядывать теперь за ним, может еще что полезное придумает.
      Организатор молодец, раздал быстро, что нам еще для полного счастья то надо.
      15 окт 2016
      7 пользователям это понравилось.
    • 5/5,
      Работой организатора доволен
      Ну что сказать ) Скрипт просто отличный. Лично меня работа скрипта очень порадовала. Хорошая скорость чистки и отличный текст на выходе.
      Автор в привате оперативно отвечает на вопросы и решает проблемы если они возникают. Также совместными усилиями развивается скрипт. Участники пишут свои хотелки, а автор дорабатывает скрипт.
      На установку, настройку и запуск скрипта ушло минут 20+ Теперь только знай тексты для чистки закидывай =)
      Покупкой очень доволен!
      Роман ждем следующие складчины от тебя ;)
      12 окт 2016
      10 пользователям это понравилось.
    • 5/5,
      Работой организатора доволен
      Рекомендую покупать этот скрипт! Скрипт хорошо чистит текст,как заявлено автором! Оперативная поддержка автора,вечером задал вопрос-утром уже есть решение и доработка скрипта под мои нужды!
      11 окт 2016
      9 пользователям это понравилось.
  4. Обсуждение
  5. 25 авг 2016
    #2
    littleboy
    littleboy ЧКЧлен клуба
    Какие зависимости есть у cкрипта? Scrapy? Или все стандартной библиотекой делается?
     
  6. 25 авг 2016
    #3
    montero
    montero ЧКЧлен клуба (А)
    Скрипт использует стандартную библиотеку
     
  7. 25 авг 2016
    #4
    Алёнка XXX
    Алёнка XXX ЧКЧлен клуба
    мне вообще это все незнакомо, то что касается установки скриптов на питоне, по этому появились вопросы, возможно глупые :)
    У скрипта имеется какой нибудь интерфейс?

    Скрипт будет работать только на винде? и на какой?
     
    1 человеку нравится это.
  8. 25 авг 2016
    #5
    montero
    montero ЧКЧлен клуба (А)
    Скрипты не имеют интерфейса, скрипт - это текстовый файл. Я даю настроенную программу с красивой темной темой, скрипт открывается в ней и нажимается клавиша F7, скрипт печатает какие он выполняет операции и сообщает о завершении.
    Питоновские скрипты можно выполнять на Windows, Linux, MacOS. Версии систем любые, кроме древних. В отличие от PHP не требуется серверная программа, устанавливается только интерпретатор, который выполняет код.
     
    2 пользователям это понравилось.
  9. 25 авг 2016
    #6
    Алёнка XXX
    Алёнка XXX ЧКЧлен клуба
    @Roman_77, теперь общий смысл, более понятен :)
    благодарю за пояснение!
     
    2 пользователям это понравилось.
  10. 25 авг 2016
    #7
    студень
    студень ДолжникДолжник
    Как скрипт определяет качественное предложение или нет?
     
  11. 25 авг 2016
    #8
    montero
    montero ЧКЧлен клуба (А)
    Срипт не делает анализ предложений. Хорошего результата я добился за счет большого количества фильтров и использования внешних словарей. Т.е. все строки с большим процентом мусора удаляются, а оставшиеся очищаются.
     
    1 человеку нравится это.
  12. 25 авг 2016
    #9
    prosstto
    prosstto ЧКЧлен клуба
    Хорошо бы чтобы скрипт еще удалял предложения без точки, двоеточия, вопрос. или воскл. знака.
     
  13. 25 авг 2016
    #10
    montero
    montero ЧКЧлен клуба (А)
    Можно подробнее. Почему надо удалять строки без двоеточия, вопросит. и восклицат. знака? Это реализовать просто, но не понятно зачем. Если очень нужно, то я могу в ходе обсуждения написать такой код.
    Мой скрипт ставит точки в конце строк, где их нет.
     
    1 человеку нравится это.
  14. 25 авг 2016
    #11
    Квентин
    Квентин ЧКЧлен клуба
    Roman_77
    Очень интересно!
    Сколько людей собирать планируете?
     
    1 человеку нравится это.
  15. 25 авг 2016
    #12
    montero
    montero ЧКЧлен клуба (А)
    У меня первая авторская, надо дождаться получения статуса партнера, не знаю когда дадут. Долго ждать не планирую, примерно неделю, дней 10.
     
  16. 25 авг 2016
    #13
    prosstto
    prosstto ЧКЧлен клуба
    Это решает вопрос
     
    1 человеку нравится это.
  17. 25 авг 2016
    #14
    instocky
    instocky ЧКЧлен клуба (А)
    @Roman_77
    Качество очистки вполне приемлемое в примерах.
    • Скрипт же не "интеллектуальный", чем лучше словарь соответствует теме тем лучше результат, правильно понимаю?
    • Вопрос что за словари подключаешь?
    • Какая скорость обработки/очистки текста?
    • Пакетная обработка есть?
    • Где этот скрипт сам используешь и где рекомендуешь использовать?
     
    2 пользователям это понравилось.
  18. 25 авг 2016
    #15
    dragobrat
    dragobrat ЧКЧлен клуба
    В приведенном вашем примере, в папке Обработанные тексты, все предложения с новой строчки, то есть без абзацов, так и должно быть, я правильно понимаю что потом надо все это еще и руками перебирать ?
     
  19. 25 авг 2016
    #16
    montero
    montero ЧКЧлен клуба (А)
    Основной словарь содержит минус-слова для удаления строк. В него уже включены слова, сокращения, обрывки слов из разных тем. Конечно составлять идеальный словарь для всех тем рунета можно долго, но добавлять к существующему при работе с какой-то новой темой много не придется. Можно в ходе обсуждения предложить свои тексты, я обработаю и сразу выложу, посмотрите результат. Лучше по вечерам.
    Два другие словаря выполняют замены. Про всё не буду говорить, есть правила для замены спецсимволов типа »=». Т.е. спецсимволов на выходе не будет.
    Сейчас повторно запустил обработку 10 файлов из примера в первом посте. Скрипт выдал:
    - Обработано 10 файла(ов). Исходный размер: 4187381 байт. После обработки: 2910081 байт
    - Затраченное время: 15.06 сек
    Скорость зависит от производительности машины. У меня ЖД, если работать с SSD, будет быстрее.
    Скрипт обрабатывает все txt файлы в той папке, где находится сам.
    Я использую тексты для дорвеев. Можно добавить синонимизацию и использовать на СДЛ.
     
    2 пользователям это понравилось.
  20. 25 авг 2016
    #17
    montero
    montero ЧКЧлен клуба (А)
    Генераторам дорвеев именно такой текст и нужен, они сделают из него абзацы с разным количеством предложений.
    Если нужно делать абзацы, то в ходе обсуждения в приватной теме могу добавить код.
     
    1 человеку нравится это.
  21. 26 авг 2016
    #18
    littleboy
    littleboy ЧКЧлен клуба
    Скрипт написан с применениемООП? Интересуюсь в плане обучения - подчерпнуть идеи и механизмы работы с текстовыми данными.
     
  22. 26 авг 2016
    #19
    montero
    montero ЧКЧлен клуба (А)
    Нет, ООП в этой теме не требуется.
     
  23. 27 авг 2016
    #20
    Strellen
    Strellen ЧКЧлен клуба
    Зря ты доры упомянул :)
    Ща набежим с хотелками...
    Стыковку по запятым (Панченко, как в пандоре) прикрутить сможешь? Ну или на крайняк перестановку слов аля "алгоритм Йоды"?
     
    1 человеку нравится это.
Статус обсуждения:
Комментирование ограничено.