English version of the post

V tomto příspěvku se pokusím zaujatě a angažovaně shrnout, co je to počítačová (chcete-li komputační nebo matematická) lingvistika, jaké jsou její současné problémy a proč je i přesto fascinujícím oborem, kterým má smysl se zabývat.

Počítačová lingvistika je cosi mezi vědním a technickým oborem, který si klade za cíl používat matematické modely k popisu přirozeného jazyka (jako je třeba čeština nebo angličtina, nikoli třeba programovacích jazyků) a vytvářet technologické aplikace těchto modelů. Ze své podstaty je to multidisciplinární obor, který zahrnuje něco málo z klasické jazykovědy, umělé inteligence, matematiky a informatiky jako řemesla.

Snaha o počítačové zpracování jazyka je zde od počátku umělé inteligence jako vědního oboru. Ostatně i slavný Turingův test, který je někdy považován za kritérium přiznání statutu inteligence nějakému stroji, počítá s tím, že stroj bude schopen s člověk komunikovat v přirozeném jazyce. Umělá inteligence se v posledním půlstoletí ubírala poněkud jiným směrem – především ke snaze modelovat nějaké základnější lidské kognitivní schopnosti a modelování agentů, kteří se snaží nějak interagovat se svým prostředím. Počítačová lingvistika se snahou modelovat jazyk, aniž za tím musela být umělá inteligence v obecném slova smyslu, se konstituovala jako samostatný vědní obor.

V posledních třiceti letech prošla počítačová lingvistika pozoruhodným vývojem, kdy se dostala od základního výzkumu k inženýrské praxi. Zároveň při tom vykonala poměrně dlouhou cestu od svého v jistém smyslu mateřského oboru, o formální lingvistiky, která se snaží formální (matematický, algebraický) popis jazykových struktur – tak dlouhou cestu, že už si dnes tyto dva obory prakticky nerozumí.

Lingvistika jako skoro přírodní věda

Současná lingvistika je svým důrazem na deskriptivní (popisuje jevy tak jsou, nepředepisuje, jak by měl vypadat) a synchronní (popisuje jazyk v jeho současném stavu, ne z hlediska jeho vývoje) pohled na jazyk metodologicky se v mnohém podobá přírodním vědám. Takový pohled ostatně vyhovuje i vývoji technologických aplikací – když vyrábím strojový překladač, nezajímá mě ani tolik, jak by se věci měly psát nebo říkat, ale jak je ve skutečnosti píší nebo říkají uživatelé strojového překladače.

Lingvisté dnes při teoretické práci využívají tzv. jazykové korpusy. To jsou databáze textů sebraných z nejrůznějších různých zdrojů. Často jsou to publicistické texty (žurnalisté jsou co se týče množství textů nesmírně plodní) nebo beletrie, ale sbírají se korpusy běžné mluvené řeči, stahuje se jak se lidé baví na sociálních sítích atd. V korpusech se automaticky nebo ručně anotují různé jevy, které lingvisté kvalitativně a kvantitativně zkoumají. Lingvistické teorie už dnes nezískávají uznání tím, že by jeden lingvista svými argumenty přesvědčil ostatní lingvisty. Důležité je, zda pro svá tvrzení naleznou oporu v korpusech.

Přírodní vědy se často metodologicky navazují na kritický racionalizmus Karla Poppera. Pro vědecké hypotézy je podstatná jejich falzifikovatelnost. Za platné vědecké teorie považujeme ty, které nebyly empiricky (typicky experimentálně) vyvráceny. Teorie platí, dokud neučíme pozorování, která by ji vyvrátila. V jistém smyslu platí ale i potom. Objev speciální teorie relativity nezpůsobil, že by ihned spadly všechny mosty, jejichž statika byla vypočítána pomocí Newtonovské mechaniky. Dokonce se nic ani nezměnilo na tom, jakým způsobem se statika mostů dodnes počítá (pokud odhlédneme od toho, že logaritmické pravítko nahradily počítače). Je-li vědecká teorie v rozporu s pozorováními, je potřeba hledat nějakou novou teorii, která pozorování vysvětlí lepším způsobem – přesněji, bezesporně, elegantněji – sílu a prediktivní schopnosti předchozí teorie to ale nijak nemění.

Lingvistika v tomto ohledu pracuje obdobně jako přírodní vědy. Snaží se budovat takové teorie, které statisticky testuje pomocí nasbíraných pozorování – jazykových korpusech. Zároveň ale nelení a činí další a další pozorování, sbírá nová data (zvětšuje korpusy, zahrnuje nové jazyky), která potenciálně mohou některé teorie vyvrátit.

Teorie a status skutečnosti

Vědecké teorie často přichází s teoretickými entitami, o kterých, jakkoli se mohly jevit bizarní v době jejich objevu, věříme, že jsou skutečné – a to nejen vědecká komunita, která s těmito pojmy pracuje, ale i široká veřejnost.

Pro přijetí nově postulované teoretické entity vědeckou veřejností je důležité to, že elegantně řeší problémy, které měli insideři oboru v předchozím teoretickém rámci svého oboru. Předpoklad nové entity jim dává možnost vysvětlit předtím nevysvětlená pozorování nebo je vysvětlit přesněji nebo elegantněji.

Proto, aby byla teoretická entita přijata jako existují u široké veřejnosti, je potřeba ještě něco dalšího. Například teorie strun vysvětluje pro insidery z teoretické fyziky elegantně mnoho pozorování. Přesto představa, že žijeme v jedenácti rozměrech, z nichž sedm se kamsi zašmodrchalo, není obecně přijímanou představou o světě. Naopak málokdo se pozastaví nad takovou samozřejmostí, že hmotný svět kolem nás „ve skutečnosti“ paradoxně hlavně volné místo, v němž se čas od času mihne nějaká elementární částice. A to přesto, že tato „skutečnost“ je v rozporu s přirozenou zkušeností úplně stejně jako sedm zašmodrchaných rozměrů.

Dovolím si zde tvrdit, že o tom, zda jsou teoretické entity vědy obecně považovány za existující, rozhodují technologické aplikace, které jsou na těchto teoretických poznatcích založeny. Technologické artefakty jsou na rozdíl od teorií součástí zkušenosti každého z nás. Hardware počítače, na kterém píšu tento text, stojí na technologiích, které s existencí elementárních částic pracují jako se samozřejmostí. Znalost teorie relativity nám umožňuje provozovat satelitní navigaci. I díky tomu snáze uvěřím, že pokud budu cestovat rychlostí blížící se rychlosti světla, poběží pro mě čas jinou rychlostí, než těm, kteří zůstanou doma a nikam nepoletí, jakkoli se to může zdát paradoxní.

Technologie jsou viditelnou a hmatatelnou součástí naší běžné zkušenosti – proto nemůžeme teoretické koncepty, které za nimi stojí jen tak ignorovat. Pokud se pustím do nějaké spekulativní sociologie, mohu tvrdit, že i proto může být tak snadné popírat existenci globálního oteplování nebo darwinistickou evoluci, které žádné technologické aplikace nemají. No a sedm zašmodrchaných rozměrů teorie super strun, no to už je přece úplný blábol.

Lingvistika a technologie

Ještě před dvaceti lety se zdálo, že počítačové zpracování jazyka může poskytnout stejné ujištění o skutečnosti lingvistických teorií jako inženýrské obory fyzikálním teoriím. Metody počítačového zpracování jazyka dlouhou dobu lingvistické teorie využívaly a ve zdrojovém kódu bylo explicitně naprogramováno velké množství jazykovědných pravidel. Po začátku jednadvacátého století se začalo ukazovat, že lépe než systémy, do kterých je jazykovědná znalost explicitně zanášena programátorem, fungují ty systémy, které se učí z dat pomocí strojového učení. S postupem času (a také rostoucím výkonem hardwaru) klesalo množství expertní znalosti o jazyce, které bylo nutné naprogramovat, a rostla míra, do které se systémy učily z dat. Složité systémy jako rozpoznávání řeči, strojový překlad nebo automatická sumarizace textu se učí od začátku do konce pomocí neuronových sítí, aniž by tyto modely v sobě měly jakoukoli stopu lingvistiky. Technologie si tak našly svou vlastní cestu a dnes fungují prakticky nezávisle na pochopení jazyka, které nám lingvistika může poskytnout.

Díky tomu se dnes nacházíme v jedinečné situaci, kdy nejnovější jazykové technologie existují zcela mimo rámec jazykovědných teorií. Výsledky experimentů ve fyzice se dají předpovědět podle teorie. Když se dělají experimenty s hlubokým učením pro zpracování přirozeného jazyka, žádná taková teorie, které by dovedla předpovědět výsledek experimentu, neexistuje. Je tu jen výzkumníkova či vývojářova (dobře matematicky podložená) intuice, která se buď empiricky potvrdí nebo nepotvrdí. Často to může vypadat, že má výzkumník předem připravené vysvětlení pro pozitivní i negativní výsledek a čeká, jak dopadnou jeho výpočty.

Skoro až zázračný úspěch hlubokého učení a neuronových sítí pro zpracování přirozeného jazyka považuji za natolik zásadní, že když se mě někdo zeptá, jaký si myslím, že je jazyk, ani mě nenapadne přemýšlet o tom, co jsem se naučil z jazykovědy, ale odpovím, že nevím, ale že jeho nejzajímavější vlastností je, že je možné ho efektivně zpracovávat umělými neuronovými sítěmi. Co to přesně pro jazyk znamená, nevím, ale považuji za důležité to zjistit a lingvistika to zatím vysvětlit neumí.

Tím netvrdím, že dnešní jazykovědné teorie jsou nesmyslné a od začátku k ničemu. Naopak, poskytují konceptuální rámec, bez kterého bychom se o jazyce nedokázali nijak smysluplně bavit. Lingvistické teorie dokazují svou velikou užitečnost tím, že umožňují popsat jinak nepopsatelné jevy napříč jazyky a kulturami, umožňují nám efektivně se učit svůj mateřský jazyk i cizí jazyky. Jejich užitečnost se ale začíná vytrácet tehdy, když se snažíme naprogramovat nějaký systém pro práci s přirozeným jazykem. Stejně tak je Newtonovská mechanika výborným nástrojem pro většinu inženýrských oborů jako je stavebnictví nebo strojírenství. Za okolností, kdy se objekty pohybují velmi vysokými rychlostmi, se její užitečnost začíná vytrácet. Tak jako je skvělé mít teorii relativity, která dokáže sjednotit mechaniku malých i velký rychlostí, bylo by skvělé najít takové jazykovědné teorie, které poslouží stejně jako stávající teorie a zároveň vysvětlí, proč funguje strojové učení na zpracování přirozeného jazyka tak dobře.

Kam s počítačovou lingvistikou

V kontextu fungování nejnovějších systémů, je také potřeba si dát pozor na to, z čeho stává inženýrství, které stejně dělají efektivněji soukromé firmy než veřejné instituce, a upřít veřejnou podporu na otázky, které by bez veřejné podpory zůstaly bez odpovědi. Počítačové lingvistice se v jistém směru stala podobná věc jako kosmonautice – z exkluzivního vědecko-technického oboru financovaného vládami se stal technologický byznys jako každý jiný. Kolem Země obíhají soukromé satelity vynášené na oběžnou dráhu soukromými raketami, přestože ještě před půlstoletím bylo dobývání kosmu vědeckou záležitostí, která se neobešla bez štědré podpory z veřejných zdrojů.

Nehodlám vznášet teze o tom, že nové technologie vytváří výhradně trh a žádná veřejná podpora ničeho, co jednou zavání čímkoli praktickým jen trh deformuje. Naopak, veřejné finance jsou pro vznik náročných komplexních technologií, které mění svět, zásadní. Moderní technologický svět stojí na objevech, které umožnila štědrá finanční podpora z veřejného sektoru. Internet vznikl jako americký armádní projekt. Za dnešními úspěchy hlubokého učení stojí vytrvalá finanční podpora Kanadské vlády. Je ale třeba vystihnout moment, kdy už veřejná podpora není pro obor nezbytná jako třeba už ve zmíněném případě satelitní komunikace.

Dnes už není pravda, že by strojový překlad byl základním výzkumem, do kterého by bylo nutné investovat veřejné prostředky. Není to ani syntaktická analýza textů nebo rozpoznávání mluvené řeči – to vše jsou dnes dobře aplikačně zvládnuté úlohy, na kterých technologické firmy dosahují srovnatelných nebo lepších výsledků než akademické instituce. Není tedy důvod, aby hlavní motivací počítačové lingvistiky bylo vylepšování technologií pro zpracování přirozeného jazyka, stejně jako není úkolem veřejného výzkumu vylepšovat motory automobilů. (Tím samozřejmě nechci tvrdit, že by vývoj byl v porovnání s výzkumem něco podřadného – může to být úžasné intelektuální dobrodružství s praktickými výsledky nakonec.) Práce na aplikacích má samozřejmě tu výhodu, že se na ní dobře ukazuje nějaký pokrok. Snížení chybovosti nějakého složitého systému je nezpochybnitelný výsledek, který se snadno vykáže grantové agentuře – dokud si grantové agentury nevšimnou, že zpracování jazyka dávno není základní výzkum. Velkým technologickým firmám také zcela jistě vyhovuje, že veřejné rozpočty financují výzkum inovací, které mohou velmi rychle uplatnit ve svých komerčních aktivitách.

Neznamená to ovšem, že by počítačová lingvistika měla v akademickém světě zaniknout. Experti v akademické sféře musí být stejně zdatní jako experti v technologických společnost nejen proto, aby mohli smysluplně působit jako pedagogové, ale především proto, aby mohli nově vznikající technologie mohly být efektivně pod veřejnou kontrolou a nezůstaly utajené v laboratořích velkých korporací.

Počítačová lingvistika na akademické půdě by se měla radovat, že z ní pokrok sňal břímě generování technologických inovací. Akademický výzkum počítačové lingvistiky má teď jedinečnou možnost využívat a rozvíjet současné technologie takovým způsobem, abychom systematicky sbírali pozorování o jazyce. Pevně doufám, že právě taková pozorování budou moct konečně vést k takovým jazykovědným teoriím, které překonají pole působnosti těch současných a zahrnou v sobě i znalost o jazyce, kterou nám dává zkušenost s jeho automatickým zpracováním.

Text prošel stylistickými úpravami 29.3. 2017