Urok zakurzonych teorii (Jak coś zrozumieć po polsku cz. 1)

Aby zupełnie wdrożyć znajdowanie powtórzeń ― co na razie jest główną funkcją Przenicy ― potrzeba jednej, oczywistej zmiany. Na przykład zamiast zliczać oddzielnie wystąpienia wyrazów takich jak zabawka, zabawny, zabawiać kogoś, program powinien rozpoznawać w nich słowa wywiedzione od jednego rdzenia, mianowicie zabaw―.

Dzięki temu mamy szansę uniknąć nadużywania tych wyrazów. Odbiorca, w przeciwieństwie do autora, zwykle nie ma oczu zmęczonych wielogodzinną pracą nad jednym tekstem. Kiedy taki świeży czytelnik napotyka co rusz to samo odmieniane przez przypadki, pewnie najpierw wydaje mu się to nawet zabawne, potem nudne, a w końcu… jego myśli są już gdzie indziej.

Chłonnik powinien zauważać takie rzeczy przed publikacją. W polszczyźnie jednak tworzenie (i rozpoznawanie) form wyrazów nie jest wcale proste, jeżeli się nie jest rodzimym użytkownikiem języka ― a co dopiero, jeżeli przypadkiem jest się programem komputerowym. Weźmy ciąg słów: pradziad, pralka, piorę, prać, walka, w walce, walec. Życzę powodzenia w odgadnięciu stałego tematu wyrazowego, który pozwoliłby odróżnić, gdzie chodzi o pranie, a gdzie o pradziadka. Albo gdzie o walkę z najeźdźcą, a gdzie o jeżdżenie walcem.

Łatwo, jak widać, nie będzie. A jednak myślę, że nie bardzo daleka jest chwila, kiedy zobaczycie u Chłonnika głębsze zrozumienie słów użytych w waszym tekście. W niniejszym cyklu opiszę część własnych przygód przy pracy nad tym problemem. Ruszymy na poszukiwania odpowiednio subtelnej teorii, która pozwoli nam nieco lepiej pojąć pewien ład, jaki kryje się w surowym materiale językowym.

Pozwólmy sobie najpierw na skok dwustuletni ― w okolice 1815 roku, kiedy opada bitewny kurz po wojnach napoleońskich. Do zajętej przez Rosjan Warszawy wraca Józef Mroziński, weteran wieloletnich kampanii Bonapartego. W nowej armii dostaje stopień podpułkownika; kiedyś będzie generałem i szefem sztabu wojsk polskich w czasie powstania listopadowego.

jmro

Podobizna J. Mrozińskiego z „Tygodnika Ilustrowanego” (1860)

Nim do tego dojdzie, pojawią się problemy z kiepską polszczyzną. Mroziński pochodził z polskiego wówczas Podola, do szkoły chodził niemieckiej, pod Napoleonem mówił oczywiście po francusku. Gdy wziął się za pisanie wspomnień, odrzucano mu teksty w gazetach z racji zanieczyszczenia obcojęzycznymi wpływami (gdybyż dzisiaj obowiązywała taka czujność). Mickiewicz, jak wiadomo, stworzył wobec takich trudności nowy prąd w literaturze, a Mroziński?

Był to człowiek, który chcąc dobrze opanować własny język zastał w rodzimej lingwistyce taki bałagan, że zaczął ją budować od nowa. Ogrom wyjątków i podziałów przy każdej regule, pisze nasz badacz w pierwszym zdaniu dziełka z 1822 r. Pierwsze zasady grammatyki języka polskiego, przeraża samych Polaków i sprawia, że cudzoziemcowi opanowanie tego wszystkiego wydaje się zadaniem ponad siły ludzkie.

Te uwagi chyba się nie zestarzały. W książce z roku 2009 możemy wyczytać podobną myśl, wyrażoną w specjalistycznym żargonie:

Przykłady handel : handlu, burdel : burdelu, parter : parteru, cukier : cukru pokazują, że alternacja tematu może mieć charakter przypadkowy, co powoduje, że opis alternacji tematu fleksyjnego wymaga budowy skomplikowanego systemu reguł i ograniczeń kontekstowych. [1.]

Mroziński wychodzi w swoim projekcie nowej nauki o języku od podzielenia polskich głosek na twarde i miękkie. (Rozróżnienie głoski, dźwięku i tzw. fonemu będzie tu dla nas nieistotne). Łatwo zauważyć, że dźwiękowo ń jest miękkim n, a ć to miękkie c. Każdej głosce twardej przyporządkowujemy miękką; trochę tak, jak gdyby rozbieganym przedszkolakom kazać się ustawić w pary.

Trzeba zaznaczyć (co powinniśmy pamiętać ze szkoły), że zapis wypowiedzi nie odpowiada wprost wymowie. W pewnych miejscach ć zapisujemy jako ci: bracia wymawiamy jako braća, a nie bracija. Rozciąga się to na mniej intuicyjne przypadki. Kiedy odmieniamy ta ryba ― tej rybie, w tym drugim słowie bi oznacza właściwie jeden dźwięk, mianowicie zmiękczone b'. Jeżeli spróbujecie powiedzieć rybie, biel, kielnia z „ameRykaNskim” akcentem, macie szansę uzyskać twarde b, k i n w tych wyrazach. W zwyczajnej polskiej wymowie ― raczej nie.

To, że w odmianie głoska twarda zmienia się czasem na odpowiadającą sobie miękką, nie przeszkadza w rozumieniu słowa. Z łatwością rozpoznajemy formy rósł i rośniesz czy wiosną i wiośnie jako odsyłające do z grubsza tego samego znaczenia. Możemy założyć, że w rdzeniu tych wyrazów nie istnieje rozróżnienie twardego i miękkiego s, a o wystąpieniu którejś z tych głosek decyduje wyłącznie konkretna forma gramatyczna.

Wówczas, po mechanicznym obcięciu końcówek, tematy wiosn : wiośń : wiośn : wiosń byłyby równoważne (zauważmy, że te dwa ostatnie w języku nie występują, bo twardy dźwięk niełatwo wymówić razem z miękkim). Przypadek rósł i rośniesz jest bardziej złożony. W pewnych postaciach słowa rosnąć o wymienia się regularnie na ó. Musielibyśmy więc powiedzieć, że ros = rós = roś = róś (rosną, rósł, rośniesz, róść). Nie wystarcza to jako wskaźnik ― np. porównaj rzeczownik rosa [2.] ― ale usuwa większość trudności.

Czyżbyśmy zatem mieli względnie porządny język? Okazuje się, że jest cały szereg głosek miękkich, które nie mają miękkiego brzmienia. Lepiej byłoby pewnie powiedzieć, że mają one cechy „miękkich” w swojej funkcji, lecz nie w wymowie. I tak na przykład rz odgrywa w polskim rolę miękkiego r: upiór― o upiorze, tak jak kolano ― w kolanie. (Co ciekawe, języki wschodniosłowiańskie mają często właśnie miękkie r w miejsce naszego rz, jak w imieniu Andriej). Z kolei c zajmuje miejsce miękkiego k: powłoka ― w powłoce, zaś na ć miękczy się t: jednopłat ― w jednopłacie. Tu również analogii dostarcza słowiańska rodzina: porównaj rosyjski bezokolicznik na miękkie –t' typu ljubit'.

Dokonując owych rozstrzygnięć Mroziński zdawał sobie sprawę, że nazywanie zbiorów głosek twardymi czy miękkimi staje się dość dowolne. Rzecz w tym, że taki system dwóch klas obejmuje całą fonologię języka polskiego i obecny jest w jego głębokiej strukturze. Uporządkowanie fonemów służy redukcji i uściśleniu reguł gramatycznych. Oto, jak w 1780 roku Onufry Kopczyński tłumaczy sposób tworzenia celownika rodzaju żeńskiego (typu klasa ― tej klasie, puszcza ― tej puszczy):

Mają ten przypadek na e imiona [tj. rzeczowniki] zakończone w pierwszym przypadku [mianowniku] na ba, da, fa, ga, cha, ka, ła, ma, na, pa, ra, sa, ta, xa, za z poprzedzającą samogłoską (…). Dodaje się i przed e po spółgłoskach b, f, m, n, p, s, w, x, z; zamieniają się dz na dzi, g na dz, ch na sz, k na c, ł na l, r na rz, t na ci. Mają ten przypadek na i te imiona które drugi przypadek miały także na i, to jest, imiona zakończone w pierwszym przypadku na ga, ia (wiśnia), ka, la, ya, i, l, ay, ey, także na wszelką miękką spółgłoskę. Mają ten przypadek na y te imiona, które w pierwszym przypadku kończą się na ca, dza, rza, sza, ża, tudzież na z z poprzedzającą samogłoską, i na ź.

Czemu pułkownik Mroziński przeciwstawia następującą zasadę:

Twarde spółgłoski zamieniają się na odpowiadające miękkie, i przybierają zakończenie e; miękkie nie zmieniają swego brzmienia, i przybierają zakończenie i. [3.]

Przejdźmy do zastosowań praktycznych. Skrajnie naiwne, ale za to trywialne w implementacji byłoby takie zastosowanie „tablicy miękkości” Mrozińskiego, że wszystkie spółgłoski twarde redukujemy do miękkich odpowiedników. To powinno zatrzeć różnice między poszczególnymi formami słów, dzięki czemu program taki jak Chłonnik rozpozna ich tożsamości (o ile dysponuje zbiorem wszystkich końcówek gramatycznych).

klassy

Fragment „Pierwszych zasad grammatyki języka polskiego” (1822)

I tak zdanie poety:

Uprzejmie kruki, gęstymi gromady krążąc wokoło, wabią do biesiady.

przyjęłoby (po zmiękczeniu wszystkich głosek i oddzieleniu końcówek) abstrakcyjną postać:

Up’rzejm’|e crzuc|i, żęść|im’i żrzom’adź|i crząż|ąć w’ocolo, w’ab’|ą dźo b’eśadź|i.

Przy tym zapisie łatwo dostrzegalne stają się pokrewieństwa różnego rodzaju:

  • uprzejmie (up’rzejm’|e) z uprzejma (up’rzejm’|a),
  • gęstymi (żęść|im’i) z gęściej (żęść|ej),
  • gromady (żrzom’adź|i) z gromadzie (żrzom’adź|e),
  • krążąc (crząż|ąć) z krąg (crząż).

Zwróćmy przy tym uwagę, że metodę można opisać ściśle: 1) dokonaj redukcji według tablicy Mrozińskiego, 2) usuń wszystkie końcówki z listy (zakładamy, że mamy takową) i 3) porównuj rdzenie, jakie pozostaną.

Czy procedura tego rodzaju po kilku usprawnieniach wystarczyłaby do prawidłowej interpretacji słów ― w części przypadków rozsądnie bliskiej stu procentom? Niestety, znowu, nie jest to tak proste.

Spośród licznych trudności wybierzmy kwestię słów takich jak księga (= cśęż|a według naszego algorytmu), gdzie g przechodzi w dz (tej księdze = cśędz|e). Jak widać, rdzenie nie przyjmują tutaj identycznej postaci. Jeżeli zaś ułożylibyśmy zasady podmieniania tak, by zatrzeć różnicę między dz i ż, nie moglibyśmy odróżnić słów wieża (w’eż|a) i wiedza (w’eż|a). K, g oraz ich podwójne zmiękczenia wprowadzają najwięcej zamętu w polskiej odmianie i słowotwórstwie. Nie da się tych problemów rozwiązać na gruncie takiego naiwnego algorytmu redukcyjnego, jaki zobaczyliśmy przed chwilą.

Nie ma jednak wątpliwości, że jesteśmy na tropie czegoś poważnego. Tam, gdzie pozornie panuje chaos, kryje się na wyższym poziomie abstrakcji ― system. Tym bardziej fascynujące, że za koniec nici złapał już dwieście lat temu pewien oficer armii Królestwa Polskiego. Przenikliwość naszego bohatera doceniały zresztą wielkie nazwiska lingwistyki; Mrozińskiego czytał Jan Baudouin de Courtenay, chwalił zaś Roman Jakobson.

W następnej części możemy być zmuszeni zapuścić się na techniczne głębiny. Najpewniej dotknę teorii polskiej morfonologii ostatniego czterdziestolecia. Zobaczymy, jak słowa grają ze sobą w komórki do wynajęcia, i trudno właściwie powiedzieć, gdzie się (słowa) zaczynają i kończą.

[1.] Słowniki komputerowe i automatyczna ekstrakcja informacja z tekstu, red. W. Lubaszewski, Kraków 2009, s. 18.

[2.] Zresztą, jak podaje Aleksander Brückner, pierwotnym tematem słowa rosnąć było rost―: rostę, rościesz, rostą, rósł. Stąd rościć (pretensje), a także wzrost, porost itd.

[3.] Oddzielna zasada stanowi o interpretacji i w poszczególnych przypadkach jako i albo y, co zależy zawsze od poprzedniej spółgłoski. W polskich wyrazach nie powinny się zdarzać zbitki takie jak ti, łi, ly, fy, gy itd., ponieważ każda z tych głosek ma przypisane do siebie któregoś „towarzysza” z pary i, y na stałe.­

Dziękuję Jakubowi za konsultacje ws. języka rosyjskiego i Ilonie za ważne uwagi do tekstu.

Dodaj komentarz