V dnešním rozhovoru se podíváme do světa umělé inteligence s Jaroslavem Trnkou, naším odborníkem na datovou vědu a AI, který se zabývá vývojem pokročilých AI modelů a jejich aplikacemi ve společnosti. Jaroslav nám přiblíží svou profesní cestu, podělí se o své zkušenosti s nejnovějšími technologiemi a odhalí svůj pohled na to, jak AI mění způsob, jakým pracujeme a žijeme.
Jaký byl tvůj první kontakt s oblastí datové vědy a umělé inteligence?
První setkání proběhlo asi už na střední škole. Tehdy mě začala zajímat matematika a biologie. Také mě fascinovaly přesahy přírodních věd směrem ke společenským tématům. Proto jsem se v rámci studia biologie dál věnoval i těmto oblastem a celou dobu jsem pokukoval po umělé inteligenci a komplexních systémech – ale byl to spíš takový poloamatérský zájem. Naplno jsem se umělé inteligenci začal věnovat asi před pěti lety.
Kdy jsi se po prvé setkal s koncepty jako jsou LLM (Large Language Model), NLP (Natural Language Processing) a generativní AI?
Na to mám úplně jasnou vzpomínku a přesně vím, jak se to stalo. Tehdy se mi do ruky dostal významný článek Attention is all you need, popisující strukturu transformeru, což je základní architektura, na které jsou dnešní modely AI většinou založené. Když jsem si ho přečetl (a postupně pochopil) ohromilo mě, jakým způsobem rezonuje s mými dosavadními znalostmi a zkušenostmi, třeba z filozofie. Tehdy jsem se rozhodl, že chci do AI jít naplno.
Řekni nám, jaké zdroje (kurzy, knihy, mentorování) byly pro tvé vzdělávání v AI nejvíce přínosné a kde ty sám nejvíce čerpáš informace?
Absolvoval jsem několik kurzů na internetu, zejména od deeplearning.ai, které jsou výborné. Dneska je těch příležitostí a kurzů hrozně moc. Kromě toho jsem sledoval různá videa na YouTube. Pro mě osobně je ale nejdůležitější četba původních vědeckých článků. I když je to časově náročné, snažím se, když to jde, dohledat původní článek a přečíst si, jak nový model funguje a jaké jsou důvody, proč je navržený tak, jak je. Ne vždy na to mám čas, ale myslím, že se to skoro vždy vyplatí, člověk díky tomu získá hlubší intuici, jak daný model funguje a kde lze čekat jeho limity.
Jaké konkrétní projekty AI si vedl nebo na nich pracoval?
Než jsem začal pracovat v MULTIMA a.s., věnoval jsem se hlavně osobním projektům. Kromě nich byl asi nejzajímavější projekt FaceLandmarks, který spadal do jednoho výzkumného projektu na Karlově univerzitě. Moje část spočívala ve vytvoření modelu, který by co nejpřesněji identifikoval významné body na obličeji (tzv. landmarky). Tyto body jsou následně používány ke studiu proměnlivosti obličejů mezi muži a ženami, mezi různými etniky a podobně. Moje práce spočívala čistě ve vytvoření modelu, který dokáže identifikovat například koutek úst, obrys nosu nebo obrys tváře na fotografii člověka, aby tyto úkoly nemusel provádět lidský zpracovatel.
V MULTIMA spolupracuji na projektu NATHAN AI, který se zaměřuje na elektronické zpracování dokumentů. Jde o automatizované čtení údajů z faktur, účtenek a podobných dokumentů, což výrazně usnadňuje práci účetních a eliminuje potřebu ručního přepisování těchto údajů do počítače.
Jaké technologie a nástroje v AI jsou pro tvoji práci nejdůležitější a proč?
Pokud mám mluvit o nástrojích, které mi ulehčují práci, a ne o těch, které přímo vytvářím, tak nejvýznamnějším nástrojem je určitě ChatGPT. Ulehčuje práci zejména při psaní kódu. Díky němu nemusím trávit čas řešením drobných syntaktických problémů nebo psaním předvídatelného kódu. Místo toho se soustředím na vymýšlení logických bloků kódu, které za mě píše ChatGPT. Já se pak starám o to, aby byly racionálně napsané, aby spolu dobře komunikovaly a fungovaly jako celek. Pro mě osobně je důležitý i jako konzultant, protože přicházím z jiného prostředí než IT, takže se občas potřebuji zorientovat i v základních tématech – tohle je myslím i do budoucna zásadní věc, která může například výrazně usnadňovat kariérní změnu.
Můžeš popsat, jak AI zlepšila efektivitu nebo produktivitu ve společnosti obecně?
Předchozí příklad s ChatGPT je dobrým příkladem toho, jak AI může a asi do značné míry i bude fungovat v celé společnosti. Je mnoho práce, kterou dnes vykonávají lidé, přestože není specificky vázaná na lidské schopnosti, není moc zajímavá a ani zvlášť složitá. Takovou práci může velký jazykový model nebo jiná AI dobře zvládnout, což lidem může uvolnit více času na složitější a zajímavější úkoly. Například tento rozhovor nepíšu ručně, ale diktuji ho záznamníku, který převádí mou řeč na text. Následně tento text nechávám opravit ChatGPT a až výsledek ručně doplňuji. Zatímco normálně by mi každá otázka zabrala několik minut, teď mi trvá jen chvilku.
Zároveň je s AI a lidskou prací spojeno i hodně rizik, která bude potřeba řešit – ne každý je programátor, a ne v každé práci to bude takto jednoduše pozitivní.
Mohl bys popsat, jak ve vaší práci využíváte LLM a NLP a jaké konkrétní problémy řešíte pomocí generativní AI?
NLP neboli zpracování přirozeného jazyka, zahrnuje obrovské množství různých modelů. Já pracuji hlavně na projektu NATHAN AI a zpracování přirozeného jazyka je klíčové třeba právě při vyčítání údajů z faktur. Model, který používáme, pracuje se dvěma druhy informací: prostorovou a textovou. Prostorová informace zahrnuje rozmístění různých údajů na faktuře, například datum obvykle bývá nahoře, stejně jako adresa dodavatele. Textová informace nám pomáhá rozpoznat, zda se jedná o korunovou částku, datum nebo jméno osoby. Zpracování přirozeného jazyka je tedy podstatnou součástí našeho modelu pro zpracování údajů z faktur.
Pokud jde o velké jazykové modely (LLM) a generativní umělou inteligenci, více by k tomu řekli moji kolegové, kteří se věnují tvorbě chatbotů. Já se jejich práce účastním jen okrajově. Generativní velký jazykový model je klíčovou součástí chatbota, ať už odpovídá na obecné otázky, nebo vyhledává informace v dostupných textech či na webových stránkách. Nejzajímavější součástí této práce je podle mého názoru zajistit, aby se velký jazykový model dostal k relevantním informacím nutným k formulaci správné odpovědi.
Jaké datové sady jsou pro vaše AI modely klíčové a jak zajišťujete jejich kvalitu a bezpečnost?
Výkon každé neuronové sítě stojí na dvou základech: samotné neuronové síti a datech, na kterých je trénována. Datové sady jsou pro nás tedy klíčové, zejména u modelu NATHAN AI na zpracování dokumentů. Vytváříme si je sami, což znamená, že shromažďujeme vhodné dokumenty k trénování a zajišťujeme jejich anotaci. Kvalita zpracovaných dat je pro nás úplně klíčová, a proto je potřeba vytvářet infrastrukturu, která bude zajišťovat kontrolu těchto dat a jejich anotaci. Součástí této infrastruktury je i systém pro případnou opravu dat tam, kde došlo k chybám během anotace. Částečně je tato infrastruktura již vybudovaná, ale stále pracujeme na jejím zlepšování, aby byl tok dat co nejplynulejší a co nejvíce automatizovaný.
Jakým způsobem validujete a testujete výkon vašich AI modelů před nasazením?
Pokud jde o testování diskriminačních modelů, u kterých je zřejmé, jak má vypadat správná odpověď, například jaké datum je uvedené na účtence, tak tam je to testování celkem jednoduché a přímočaré; máme testovací sadu, na které se daný model neučí, ale slouží pouze k ověřování výkonu každého modelu, takže snadno změříme, jestli se na této testovací sadě danému modelu daří, nebo ne.
Mnohem zajímavější a složitější je měření výkonu generativních modelů, třeba hodnocení, do jaké míry například nějaký chatbot odpovídá správně a věcně, do jaké míry skutečně pracuje se zdroji, které má k dispozici, do jaké míry je schopný najít relevantní informaci a podobně. Evaluace výkonu velkých jazykových modelů je zatím dost otevřený problém. A bude to jedna z důležitých věcí, na které se do v nejbližší budoucnosti pravděpodobně zaměří pozornost komunity lidí, kteří se zabývají umělou inteligencí.
Jaký přístup používáte ke kontinuálnímu učení a aktualizaci vašich AI modelů v reakci na měnící se podmínky nebo nová data?
Už jsem o tom trochu mluvil. Jde o to, jak zajistit plynulý přechod dokumentů, na kterých model dělá chyby nebo je neumí správně zpracovat, do anotace a následného trénování, aby příští model dokázal s těmito dokumenty pracovat lépe. Důležitá je průběžná aktualizace datového setu a jeho optimalizace směrem k lepšímu výkonu. Aby to fungovalo opravdu dobře, je potřeba, aby tento proces byl automatizovaný a plynulý, nezávislý na momentálních časových kapacitách jednotlivých účastníků.
Jak vidíš budoucí vývoj v oblasti AI a jaké nové trendy Ti přijdou nejzajímavější?
Tohle je hrozně zajímavá a zároveň hrozně složitá otázka, na kterou nelze odpovědět stručně. Z toho, co se stalo v posledních dvou letech, a jak rychle se velké jazykové modely přesunuly z experimentálních fází do produkčních, by se dalo čekat, že další vývoj bude stejně překotný. Když si představíme, že by pokračoval stejným tempem, mohli bychom za dva roky očekávat modely, které by se inteligencí vyrovnaly člověku. Osobně bych si ale vsadil, že to tak spíš nebude, protože současné velké jazykové modely dost možná naráží na své hranice. Hlavní pokrok, který se udál během posledních pěti let, byl založen na škálování těchto modelů – zvětšování kapacit a zvyšování množství dat, na kterých byly trénovány. Tento škálovací přístup ale kvůli struktuře modelů možná naráží na své limity a další škálování nám se stávajícími modely už příliš nepomůže, respektive bude neúnosně drahé. V současné době se v komunitě lidí kolem AI trochu čeká na to, co se objeví dál a kam se posuneme. Další posun asi nebude možný bez hlubší změny základní architektury modelů používaných pro umělou inteligenci. V posledních měsících se objevily třeba dva nové koncepty, které bude asi zajímavé sledovat: lineárně škálující modely Mamba, které by mohly nahradit transformery, a takzvané Kolmogorov-Arnoldovy sítě. Třeba bude za rok všechno jinak.
Jaroslave, děkujeme za Tvůj čas a za to, že jsi nám poskytl tak otevřený vhled do světa umělé inteligence.
Pokud vás tento rozhovor zaujal a chtěli byste se dozvědět více o tom, jak umělá inteligence mění svět kolem nás, sledujte nás na LinkedInu a připojte se k naší komunitě, kde pravidelně sdílíme novinky a inspirativní příběhy z oblasti AI a datové vědy a mnoho dalšího.
Jsme MULTIMA