Najczęstsze czasowniki w polskim i angielskim

W ramach ciekawostki, oto 25 czasowników występujących najczęściej w anotowanym podkorpusie Narodowego Korpusu Języka Polskiego (wraz z liczbą wystąpień – cały podkorpus liczy ok. miliona słów). Poszczególne formy tego samego czasownika liczone są razem.

  1. być              17869
  2. mieć              6584
  3. móc               3415
  4. wiedzieć          1983
  5. mówić             1835
  6. chcieć            1739
  7. zostać            1630
  8. powiedzieć        1377
  9. musieć            1288
  10. stać               774
  11. widzieć            692
  12. zrobić             667
  13. prosić             662
  14. chodzić            656
  15. robić              639
  16. znaleźć            628
  17. zacząć             572
  18. dać                557
  19. myśleć             549
  20. należeć            544
  21. iść                459
  22. uważać             426
  23. pisać              405
  24. wziąć              400
  25. znać               377

Jak widać, język zawiera w sobie wiele spontanicznej mądrości: sugeruje, żeby być, a potem mieć, albo żeby raczej móc niż tylko chcieć. Co więcej, “móc” miażdży “musieć”, co może być świadectwem wolnościowych skłonności naszego narodu. Trochę rozczarowuje brak “czytać”…

Oczywiście, tego typu obserwacje traktujemy z przymrużeniem oka.

Jeżeli chcielibyście zobaczyć dane o częstości ok. 6500 czasowników na wykresie, to cóż, wygląda to tak:

czasown-wykres

Nie musicie czyścić monitorów. Najważniejsze słowa w systemie języka stosowane są naprawdę dużo częściej niż te rzadsze i mniej ważne. Jest to akurat znany fakt, który opisuje prawo Zipfa. W przypadku czasowników owa nierówność odznacza się znacznie, znacznie wyraźniej niż na pełnym korpusie. Intuicyjnie można to tłumaczyć tak, że czasowniki wyrażają pewną niewielką ilość abstrakcji, które przykładamy do większości rzeczy w świecie (zaś “być” można przyłożyć dosłownie do wszystkiego). Z kolei na przykład rzeczowniki opisują zwykle coś bardziej szczegółowego, i takich konkretów o podobnej “ważności” jest wokół nas bardzo dużo.

Dla porównania, podobna lista dla angielskiego, według Wikipedii, a na podstawie Oxford English Corpus:

 

  1. be
  2. have
  3. do
  4. say
  5. get
  6. make
  7. go
  8. know
  9. take
  10. see
  11. come
  12. think
  13. look
  14. want
  15. give
  16. use
  17. find
  18. tell
  19. ask
  20. work
  21. seem
  22. feel
  23. try
  24. leave
  25. call

W porównaniu pojawia się wiele rzeczy ciekawych. Nie dziwi pozycja “do”, które jest często używane jako czasownik posiłkowy. Jeżeli chodzi o “get” czy “go”, są to słowa, których znaczenie w polszczyźnie rozpada się na wiele szczegółowych jednostek. Jednak dziwi fakt, że mimo wszystko słowo “wiedzieć” (obejmujące w dodatku tylko jeden aspekt “know” – polskie “znać” jest znacznie niżej) znajduje się względnie tak wysoko.

Z porównaniami międzyjęzykowymi wiąże się jeszcze więcej zastrzeżeń, poza tym, że mamy korpus milionowy obok dwumiliardowego, a każdy z nich ma swoją własną strukturę. Tak jak już zaznaczyłem powyżej, podobne idee mogą być wyrażane w różnych językach za pomocą niepokrywającego się zestawu słów (w tym wypadku czasowników). Przykłady kolejnych zjawisk, które mogą wpływać na dystrybucję, to obecność w polszczyźnie oddzielnych jednostek “zdawać się” i “wydawać się” w miejsce jednego “seem” (swoją drogą ciekawa kwestia: czym się one różnią), zbieganie się znaczeń odpowiadających “stay” i “become” w “zostawać”, marginesowość w polskim konstrukcji “znajdować coś jakimś” (mającej zapewne wpływ na częstość “find”) i tak dalej.

Dlatego głównym wnioskiem z listy najczęstszych słów jest to, że są to najczęstsze słowa w danym korpusie. Chociaż różne rozważania na marginesie wydają mi się całkiem zabawne.

Po co w ogóle zaczepiam o ten problem? To póki co pozostanie mroczną tajemnicą. Ale mam nadzieję w najbliższym czasie dokończyć serię o chatbotach.

 

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *