Открыто

Word frequency data 60,000 [wordfrequency.info]

Тема в разделе "Иностранные языки", создана пользователем москитик, 2 июл 2020.

Цена: 20650р.-87%
Взнос: 2548р.

Основной список: 9 участников

Резервный список: 2 участников

  1. 2 июл 2020
    #1
    москитик
    москитик ЧКЧлен клуба

    Складчина: Word frequency data 60,000 [wordfrequency.info]

    Данные COCA 2020 (новинка)

    Этот сайт содержит, пожалуй, наиболее точные данные по частоте употребления слов в английском языке. Данные основаны на миллиардном словарном запасе Corpus of Contemporary American English (COCA) - единственном корпусе английского языка, который является большим, современным и сбалансированным между многими жанрами.

    Приобретая данные, вы получаете доступ к четырем различным наборам данных, и вы можете использовать те из них, которые являются наиболее полезными для вас. Ниже приведены краткие примеры для каждого из этих наборов данных, и вы также можете увидеть гораздо более полные примеры.
    1) Самые основные данные показывают частоту каждого из верхних 60 000 слов (лемм) в каждом из восьми основных жанров корпуса. В отличие от данных о частоте слов, которые основаны только на веб-страницах, данные COCA позволяют увидеть частоту по всем жанрам, чтобы узнать, является ли слово более неформальным (например, блоги или субтитры к телевидению и фильмам) или более формальным (например, академическим). Ниже приведены лишь несколько записей слов на разных уровнях частоты (ранг), 1-60 000.

    2) Другой набор данных показывает частоту не только в восьми основных жанрах, но и почти в 100 "поджанрах" (Журнал-Спорт, Газета-Финансы, Академическое-Медицинское, Web-Reviews, Блоги-Личные, или ТВ-комедии и т.д.).

    3) Третий набор данных показывает частоту словосочетаний в топ-формах 60 000 лемм:

    4) Окончательный набор данных показывает 219 000 лучших слов (не лемм) в миллиардном словарном корпусе - каждое слово, которое встречается не менее 20 раз и в 5 различных текстах. А для каждого слова он показывает, в каких жанрах он наиболее распространен (опять же, чтобы показать +/- формальное), и какие проценты являются заглавными (полезно для определения +/- правильного существительного).
    Скрытая ссылка
    Насколько эти данные новее? Происходит изменение языка. Если список слов основан на текстах 15-20-летней давности (или, что гораздо хуже, на 100-летних романах, являющихся общественным достоянием), то в нем будет отсутствовать много слов из современного языка. COCA основана на текстах 1990-2019 годов (28 миллионов слов каждый год, плюс блоги и другие веб-страницы с 2012-13 годов).

    Информация: Скрытая ссылка
    Цена: Скрытая ссылка
    (к сожалению действует временный запрет на покупки нового списка из России и Китая)
     
    3 пользователям это понравилось.
  2. Последние события

    1. Passaddhi
      Passaddhi не участвует.
      15 май 2024
    2. Чертополох
      Чертополох не участвует.
      30 ноя 2023
    3. skladchik.com
      В складчине участвует 10 человек(а).
      29 окт 2023
    4. VoronSmerti
      VoronSmerti участвует.
      19 июн 2023
  3. Обсуждение
  4. 6 июл 2020
    #2
    Марина С
    Марина С ЧКЧлен клуба
    Кто-нибудь! объясните пожалуйста простыми словами что в этой складчине предлагается.
    4 списка (словарей разной частотности) в электронном виде или какая-то программа для изучения слов с указанием их частотности?
    Ничего не поняла.
     
  5. 6 июл 2020
    #3
    москитик
    москитик ЧКЧлен клуба
    @Марина С , четыре списка в формате .txt и .xlsx. Примеры по ссылке Скрытая ссылка
     
  6. 8 сен 2021
    #4
    Anyaax
    Anyaax ЧКЧлен клуба
    эх, крутая штука. собраться бы (
     
    1 человеку нравится это.
  7. 8 сен 2021
    #5
    disfated
    disfated ЧКЧлен клуба
    Собраться - это ещё полбеды, кто организует этот банкет? У издателя нехилая паранойя, особенно насчёт РФ.
    Ну, и хоть в подпись добавьте, что ли, кто записался - может побыстрее поедем.