Mundruś: (mój) rozmowny robot online

Zmuszony jestem zamieścić ostrzeżenie (?). Mundruś czerpie swoją wiedzę o języku z niewielkiego, losowego fragmentu Narodowego Korpusu Języka Polskiego, obejmującego ok. 150 tys. słów. Trudno byłoby konstruować specjalny filtr, więc maszyna (rzadko) potrafi sobie rzucić wulgaryzm, natomiast częściej zdarza jej się zmontować wypowiedzi chamskie czy nie na miejscu. Ponieważ całość… Read more »

Prawie własnymi słowami, czyli generowanie wypowiedzi (Programy konwersacyjne cz. 3)

W poprzednich tekstach zajęliśmy się ELIZĄ i programami konwersacyjnymi, które rozbudowują koncepcje rozmowy z użytkownikiem według ustalonego scenariusza. Przy użyciu takiego rozwiązania przewidujemy po prostu, co użytkownik może powiedzieć, i mamy dla niego z góry przygotowane odpowiedzi. Ewentualnie możemy w nich dostosowywać proste zmienne, takie jak imiona, miejsca, daty (jeżeli… Read more »

Ściśle według scenariusza (Programy konwersacyjne cz. 2)

Na początek drobne ogłoszenie: jeżeli udaje wam się czytać ten tekst, to wiecie, że podczepiłem blog i Przenicę (http://szymonrutkowski.pl/przenica) pod domenę szymonrutkowski.pl. Pozwala mi to prywatnie zaoszczędzić parę groszy. Obecnie pracuję nad nowym projektem (zupełnie oderwanym od Przenicy), co zajmuje mi większość czasu na… rozwój & badania, jeżeli to tak… Read more »

Najczęstsze czasowniki w polskim i angielskim

W ramach ciekawostki, oto 25 czasowników występujących najczęściej w anotowanym podkorpusie Narodowego Korpusu Języka Polskiego (wraz z liczbą wystąpień – cały podkorpus liczy ok. miliona słów). Poszczególne formy tego samego czasownika liczone są razem. być              17869 mieć              6584 móc               3415 wiedzieć          1983 mówić             1835 chcieć            1739 zostać            1630 powiedzieć        1377… Read more »

ELIZA, czyli odbijanie piłeczki (Programy konwersacyjne cz. 1)

Pewnie najbardziej znanym problemem sztucznej inteligencji jest test Turinga, zakładający nieodróżnialność w rozmowie maszyny od człowieka. Wydaje się, że imitacja naszego zachowania to względnie trudne zadanie i nie da się tego zrobić bez zrozumienia złożoności naszego umysłu. Z drugiej strony ludzie łatwo ulegają (auto)sugestiom. Mówiąc prościej, stosunkowo nieskomplikowany program “konwersujący”… Read more »

Word embeddings (i kłopoty sztucznej inteligencji)

Ostatni mój referat na seminarium na studiach dotyczył techniki word embeddings. Jak zwykle, przygotowawcze studia pozwoliły mi spojrzeć na wiele tematów z nowej strony; myślę, że zamiast surowej prezentacji komentarz w formie artykułu lepiej przybliży tematy, o których ostatnio myślałem. Sama prezentacja jest dostępna tutaj. Przetwarzanie języka dotyczy szeregu trudnych… Read more »

Zakątki lingwistyki: semantyka R. Montague

Prezentacja poświęcona jednej z najbardziej wpływowych współcześnie teorii semantycznych. Okazja do zaserwowania paru logicznych formalizmów i pudelkowych sensacji, ale jedno i drugie z rozsądnym umiarem. Materiał do referatu wygłoszonego 1 grudnia na seminarium o przetwarzaniu języka naturalnego na Wydziale Matematyki, Informatyki i Mechaniki UW, gdzie udzielam się nieco gościnnie. Semantyka… Read more »

Niech się Przenica mieli i mle [przewodnik]

Tak naprawdę nikt nie mówi “mle” zamiast “mieli”*, ale inteligenci starej daty mówią w czasie przeszłym owszem “mełł” i “mełła”, a także “mleć”. Taki polski inside joke. Nie mówi się też już “Chłonnik”, tylko Przenica. Zmieniła się nazwa i domena mojej aplikacji do pracy nad szatą stylistyczną tekstów. Zadaniem Przenicy… Read more »

Pogodzeni w znaczeniu (Jak coś zrozumieć po polsku cz. 2)

Dawno temu, w poprzednim odcinku, napoczęliśmy problem nauczenia komputera rozpoznawania polskich wyrazów w ich poszczególnych odmianach. Wyciągając dzieła napoleońskiego oficera opracowaliśmy „algorytm”, który czasami ma szansę spróbować ugryźć to zadanie. Czasami. Ma szansę. To za mało. Musimy poszerzyć nasze teoretyczne zaplecze: zrozumieć, czemu rdzenie zmieniają swoje formy zewnętrzne i jak… Read more »

Urok zakurzonych teorii (Jak coś zrozumieć po polsku cz. 1)

Aby zupełnie wdrożyć znajdowanie powtórzeń ― co na razie jest główną funkcją Przenicy ― potrzeba jednej, oczywistej zmiany. Na przykład zamiast zliczać oddzielnie wystąpienia wyrazów takich jak zabawka, zabawny, zabawiać kogoś, program powinien rozpoznawać w nich słowa wywiedzione od jednego rdzenia, mianowicie zabaw―. Dzięki temu mamy szansę uniknąć nadużywania tych… Read more »