Category Archives: Język polski

Mundruś: (mój) rozmowny robot online

Zmuszony jestem zamieścić ostrzeżenie (?). Mundruś czerpie swoją wiedzę o języku z niewielkiego, losowego fragmentu Narodowego Korpusu Języka Polskiego, obejmującego ok. 150 tys. słów. Trudno byłoby konstruować specjalny filtr, więc maszyna (rzadko) potrafi sobie rzucić wulgaryzm, natomiast częściej zdarza jej się zmontować wypowiedzi chamskie czy nie na miejscu. Ponieważ całość… Read more »

Najczęstsze czasowniki w polskim i angielskim

W ramach ciekawostki, oto 25 czasowników występujących najczęściej w anotowanym podkorpusie Narodowego Korpusu Języka Polskiego (wraz z liczbą wystąpień – cały podkorpus liczy ok. miliona słów). Poszczególne formy tego samego czasownika liczone są razem. być              17869 mieć              6584 móc               3415 wiedzieć          1983 mówić             1835 chcieć            1739 zostać            1630 powiedzieć        1377… Read more »

Pogodzeni w znaczeniu (Jak coś zrozumieć po polsku cz. 2)

Dawno temu, w poprzednim odcinku, napoczęliśmy problem nauczenia komputera rozpoznawania polskich wyrazów w ich poszczególnych odmianach. Wyciągając dzieła napoleońskiego oficera opracowaliśmy „algorytm”, który czasami ma szansę spróbować ugryźć to zadanie. Czasami. Ma szansę. To za mało. Musimy poszerzyć nasze teoretyczne zaplecze: zrozumieć, czemu rdzenie zmieniają swoje formy zewnętrzne i jak… Read more »

Urok zakurzonych teorii (Jak coś zrozumieć po polsku cz. 1)

Aby zupełnie wdrożyć znajdowanie powtórzeń ― co na razie jest główną funkcją Przenicy ― potrzeba jednej, oczywistej zmiany. Na przykład zamiast zliczać oddzielnie wystąpienia wyrazów takich jak zabawka, zabawny, zabawiać kogoś, program powinien rozpoznawać w nich słowa wywiedzione od jednego rdzenia, mianowicie zabaw―. Dzięki temu mamy szansę uniknąć nadużywania tych… Read more »