English version of the post

Odmala jsem si myslel, že biatlon je divný sport. Vrtalo mi hlavou, jak někoho napadlo soutěžit v tak odlišných věcech jako je ježdění na lyžích a střelba. O trochu větší překvapení přišlo, když jsem se dozvěděl o existenci moderního pětiboje. Díky této sportovně-teoretické průpravě mě nemohlo překvapit, když jsem se dozvěděl o tom, že se soutěží i ve strojovém překladu nebo automatickém větném rozboru a dalších informatických úkolech.

Soutěže umělých inteligencí

Informatických soutěží je v oborech, které by se daly nazvat umělou inteligencí, hodně a každoročně ročně přibývají nové soutěže a nové disciplíny. Vědců na světě přibývá a je potřeba ukojit jejich soutěživost. Čím více soutěží, tím je také větší šance v nějaké vyhrát.

Samozřejmě ne každá soutěž vypadá jako když se Deep Blue nebo AlphaGo snaží porazit velmistry nejtěžších deskových her, kdy je velké vědecko-technické snažení zakončené bujarým jásotem desítek inženýrů v místnosti, která nápadně připomíná řídící středisko NASA. Soutěže mají mnohem méně okázalý a dramatický průběh. Organizátoři obvykle dají soutěžícím týmům k dispozici trénovací data, na kterých mohou své systémy připravit, nějaká testovací data, na kterých si mohou ověřit úspěšnost svých systémů a jasně zadaný způsob (třeba software, který mohou použít), jak úspěšnost změřit. Data, na kterých se soutěž vyhodnocuje, organizátoři ponechají v tajnosti, aby soutěžící týmy nemohly podvádět a neušily systém na míru známým testovacím datům.

V případě už zmíněného strojového překladu jsou tedy trénovací data veřejně dostupné tzv. paralelní korpusy – milióny nebo dokonce miliardy vět, které jsou navzájem svým překladem, které se buď podařilo sesbírat automaticky na Internetu nebo jsou to například vícejazyčné texty, které ve velkém produkují nejrůznější evropské a mezinárodní instituce. Jako testovací data se používají novinové články, které se nechávají přeložit speciálně kvůli soutěži, aby nebylo možné jejich překlady vyhledat někde na Internetu.

Strojový překlad není jedinou úlohou, ve které se soutěží. Soutěží se v lecčems, často i ve velmi specializovaných úkolech, u kterých by většinu lidí ani nenapadlo, že mohou existovat. Jiné úlohy jsou naopak velmi prakticky zaměřené a některé soutěže díky své srozumitelnosti pro širokou veřejnost dokázaly získat i poměrně hodně mediální pozornosti. Netflix vypsal v roce 2009 cenu milion dolarů pro toho, kdo vytvoří nejlepší systém na doporučování filmů pro uživatele na základě toho, jak uživatelé hodnotili filmy a seriály v minulosti a jaké filmy se líbí jiným uživatelů. Mediálně vděčné jsou také soutěže, které se se nakonec odehrávají mimo počítače, jako soutěže v robotickém fotbalu nebo DARPA Grand Challenge, kde soutěží autonomní vozidla. Jen tak pro zajímavost, v prvním ročníku v roce 2004 žádné soutěžících aut nezvládlo překonat 240 km dlouhou trasu v Mohavské poušti. Dnešní autonomní vozidla se už testují v městském provozu.

Překládáme o závod

Soutěž ve strojovém překladu pořádá Asociace počítačové lingvistiky při svých konferencích od roku

  1. V prvním roce se soutěžilo pouze na jazykovém páru němčina-angličtina, od roku 2007 se soutěží ve více jazykových párech, mezi kterými díky aktivitě Karlovy Univerzity nikdy nechyběla čeština, přestože ostatní se jazyky se v průběhu let mění. Kromě automatických metrik, hodnotí překlad i lidé.

Díky každoroční soutěži můžeme sledovat, jak se kvalita automatického překladu vyvíjí. Na následujících ukázkách, je vidět, jak se zlepšila kvalita překladu za posledních devět let. Ukázky jsou z vítězných systémů v daném roce.

2008

Angličtina Čeština
The skyward zoom in food prices is the dominant force behind the speed up in eurozone inflation. Na skyward přiblížit ceny potravin je rozhodující za urychlit v eurozóně inflace.
November price hikes were higher than expected in the 13 eurozone countries, with October’s 2.6 percent yr/yr inflation rate followed by 3.1 percent in November, the EU’s Luxembourg-based statistical office reported. V listopadu cenové zvýšení vyšší, než se čekalo na 13 země eurozóny, s. října’s 2,6 procenta Yr / Yr míru inflace a 3.1 procent v listopadu, EU’s luxembourg-based Statistickému úřadu.
Official forecasts predicted just 3 percent, Bloomberg said. Oficiální předpovědi předpověděl, jen 3 procenta, Bloomberg řekl.
As opposed to the US, UK, and Canadian central banks, the European Central Bank (ECB) did not cut interest rates, arguing that a rate drop combined with rising raw material prices and declining unemployment would trigger an inflationary spiral. Na rozdíl od USA, Británie, a kanadskou centrální banky, Evropská centrální banka (ECB) snížit úrokové sazby, tvrdí, že je všechno v kombinaci s rostoucí ceny surovin a klesající nezaměstnanosti způsobilo inflační spirále.

2012

Angličtina Čeština
Today, the Ukraine parliament dismissed, within the Code of Criminal Procedure amendment, the motion to revoke an article based on which the opposition leader, Yulia Tymoshenko, was sentenced. Dnes, Ukrajina parlament odvolal, v rámci trestního řádu změně návrhu na zrušení článek na jehož základě byl odsouzen opoziční vůdce, Julia Tymošenková.
The amendment that would lead to freeing the imprisoned former Prime Minister was revoked during second reading of the proposal for mitigation of sentences for economic offences. Pozměňovací návrh, který by vedl k osvobození uvězněného bývalého předsedy vlády byla zrušena při druhém čtení návrhu na zmírnění trestů za trestné činy hospodářské.
In October, Tymoshenko was sentenced to seven years in prison for entering into what was reported to be a disadvantageous gas deal with Russia. V říjnu byl Tymošenková odsouzen k sedmi rokům ve vězení pro vstup do toho, co bylo hlášeno, že nevýhodné smlouvy o dodávkách plynu s Ruskem.
The verdict is not yet final; the court will hear Tymoshenko’s appeal in December. Verdikt ještě není konečné, soud vyslechnout odvolání Tymošenkové v prosinci.

2016

Angličtina Čeština
Last but not least, the Karlovy Vary Region lacks social care wards focusing on the treatment of Alzheimer’s disease. V neposlední řadě Karlovarský kraj postrádá sociální péči se zaměřením na léčbu Alzheimerovy choroby.
As there is a lack of such wards across the whole country, it could also serve other regions as an ‘Alzheimer centre’. Vzhledem k tomu, že v celé zemi chybí takové oddělení, mohly by posloužit i jiné regiony jako “Alzheimer centrum”.
According to the recommendations, hospitals should prepare for the introduction of so-called follow-up wards that would be funded through European subsidies. Podle doporučení by se nemocnice měly připravit na zavedení takzvaných následných oddělení, které by byly financovány z evropských dotací.
“These are beds that would follow on from super-specialised medical care fields and create space for the transfer of patients following, for example, a cardiological, neurological, transplantation or other procedure,” states the regional concept for care wards. “Jedná se o lůžka, která by navazovala na superspecializované lékařské obory a vytvořila prostor pro přesun pacientů v návaznosti například na kardiologické, neurologické, transplantační či jiné procedury,” uvádí krajský koncept pro péči.
New services could also be offered in psychiatric care. Nové služby by se mohly nabízet i v psychiatrické péči.

Jak je na příkladech vidět, kvalita strojového překladu se za 8 let výrazně posunula. Otázkou zůstává, jak moc velkou roli v tom hrálo právě každoroční pořádání soutěže. Na druhou stranu archiv soutěže nám může dobře posloužit k analýze vývoje strojového překladu.

Soutěžit či nesoutěžit?

Pořádání soutěží má několik zjevných výhod. Většina vědeckých publikací se obvykle soustředí na nějaké relativně drobné aspekty úloh a příliš se nevěnuje celku. Typický závěr experimentálního vědeckého článku o strojovém učení je: vymysleli jsem chytrý model, který o něco málo vylepšuje nějaký základní model v nějakém ohledu. Jak se jednotlivá zlepšení navzájem ovlivňují ale už typicky není považováno za vědecky zajímavé – někdo už to přece všechno vymyslel a zbývá je jenom vyzkoušet za různých okolností. Jsou také věci, které „každý ví”, a zdánlivě tak není potřeba je zkoušet. Například to, že když budu kombinovat více podobných modelů, bude každý dělat trochu jiné chybu a jejich zprůměrování pravděpodobně dosáhnu lepších výsledků – lze to očekávat a není nijak vědecky zajímavé.

Pokud se ale jedná o soutěž, každý trik, který zlepší výsledek, se hodí. Nejde tu o vědecký přínos nápadu a jeho inovativnost – jde o to využít know-how ze čtení a psaní vědeckých publikací a odvést co nejlepší inženýrský výkon. Pokud se navíc soutěží na předem neznámých datech, nabízí soutěže celkem férové srovnání metod.

Pořádání soutěží může mít i jisté nevýhody. Pokud by se stalo, že by výzkumníci začali považovat úspěch v soutěži za hlavní měřítko svého vědeckého úspěchu, mohlo by se časem stát, že výzkum se na jejich instituci pomalu promění na vývoj. Budou sice v soutěži vítězit, přestože jejich skutečný vědecký přínos bude relativně malý.

Dalším problémem je, že žádná vyhodnocovací metrika není dokonalá. Pro mnoho úloh (analýza emocí v textu, významová podobnost slov, strojový překlad) ani v principu není možné nějakou skutečně výstižnou metriku vymyslet, přesto je potřeba úspěšnost systémů nějak měřit. K vítězství v soutěži pak může pomoct to, že soutěžící optimalizují vzhledem k nějakým slabým stránkám používaných metrik. To vedlo v oblasti strojového překladu k tomu, že se kromě samotného překladu soutěží i v tom, jak automaticky měřit kvalitu strojového překladu tak, aby co nejvíce odpovídala lidskému hodnocení. Kvalitu těchto metrik je ale potřeba také nějak měřit a není moc jasné jak. Soutěž v tom, jak měřit kvalitu měření kvality strojového překladu se ovšem zatím nekoná.

Ten, kdo najde slabinu hodnocení, může uspět, přestože se mu ve skutečnosti vůbec nepodaří vyřešit úlohu, o kterou v soutěži primárně jde. Příkladem toho může být soutěž v tzv. Turingově testu. Turingovým testem, který byl poměrně dlouho považován za kritérium toho, zda je umělá inteligence doopravdy inteligentní, projde takový systém, se kterým se dá chatovat takovým způsobem, že člověk nerozezná, zda na druhé straně sedí jiný člověk nebo počítačový program. To se skutečně v roce 2014 podařilo, když porotce dokázal zmást program, který předstíral, že je třináctiletý chlapec z Ukrajiny, který není rodilý mluvčí angličtiny. Způsob, jakým toho program dosáhl ale nevypovídá ani tolik o inteligenci programu samotného jako o vychytralosti jeho autorů.

Když se soutěž ve vědecké komunitě etabluje, může se stát se na jejich standardních datech se standardními metrikami soutěží nadále, přestože samotný soutěžní úkol není zdaleka tak relevantní jako v době vzniku soutěže. To je podle mě případ soutěže ve sledování stavu mluveného dialogu. V soutěži se měří to, jak dobrou má systém představu o tom, jaký je cíl uživatele, který telefonuje s nějakým dialogovým systémem (člověk si chce třeba koupit lístek do kina, nebo zjistit kdy mu jede příští tramvaj z Náměstí bratří Synků). Podoba soutěžního úkolu vychází z toho, jak bylo před deseti lety zvykem dekomponovat architekturu dialogového systému. Hluboké učení umožňuje úplně jinou dekompozici (některé kroky se mohou dělat najednou), navíc dnes populární tzv. chytří asistenti jako Google Home nebo Amazon Echo fungují jinak, než prostá jednoduchá infolinka.

Kaggle

Této možná maličko překvapivé soutěživosti lidí, co se zabývají umělou inteligencí, se rozhodl komerčně využít server Kaggle s velmi zajímavým obchodním modelem. Provozuje server, kde se pravidelně vypisují soutěže ve strojovém učení na různé problémy. Zákazníci Kagglu jsou firmy, které mohou přijít se soutěžním problémem a vypsat odměnu pro nějaký počet nejlepších řešitelů. Na serveru se tak objevují problémy jako automatické označování youtubových videí, vyhledávání míst, kde dochází k ničení amazonského deštného pralesa nebo vyhledávání duplicitních otázek na serveru Quora. Kromě komerčně motivovaných problémů jsou na serveru i soutěže, které mají pomoct programátorům naučit se pracovat se strojovým učením, a problémy motivované spíše akademicky.

Kaggle byl založen v roce 2010 a za tu dobu se serveru podařilo vytvořit komunitu 536 tisíc registrovaných uživatelů. Od svého vzniku údajně vydělal 12,5 milionu dolarů. Společnost nedávno koupil Google a stala se tak součástí holdingu Alphabet.

Nekonečný seznam soutěží

Zkusil jsem cvičně věnovat 30 minut googlení, abych získal představu, kolik je soutěží určených pro vědeckou komunitu v informatice v letech 2016 a 2017. Většina toho, co jsem našel je z počítačové lingvistiky, ale věřím, že je to protože se v jiných oborech tolik neorientuji a nepoužívají hezké označení shared task, které vyhledávání dost usnadňuje. Pro srovnání olympijských sportů je 28 s celkově asi 300 disciplínami.

A šach-box je taky fajn sport.