Analýza textov

V súčasnosti platí viac ako kedykoľvek predtým, že víťazí ten, kto dokáže lepšie pracovať s informáciami. A je celkom jedno, či je to firma, politická strana alebo celá krajina. Úspešné firmy zaujímajú názory zákazníkov, hodnotenie vlastností výrobkov či celkové vnímanie značky; politikov zasa citlivosť danej cieľovej skupiny na konkrétnu tému. Problém rieši množstvo aplikácií, ktoré sa zameriavajú na rôzne oblasti, jazyky alebo cieľové skupiny a poskytujú riešenia na mieru alebo do určitej miery všeobecne. Ak k nim patríte a chcete sa so svojou aplikáciou rozšíriť do ďalších štátov alebo pridať ďalšie možnosti, nasledujúce komponenty to môžu uľahčiť.

Slovné druhy

Táto funkcia dokáže ku každému slovu priradiť jeho slovný druh. Označí podstatné a prídavné mená, číslovky a slovesá alebo umožní vylúčenie predložiek, spojok a častíc z ďalšieho spracovania. Okrem toho určí typy zámen, čísloviek, prísloviek aj spojok, v prípade nejednoznačností ponúkne všetky možnosti. Funguje spoľahlivo pre všetkých 30 podporovaných jazykov.

Lemmatizácia

Táto funkcia určuje základný tvar ľubovoľného slova. Dá sa zvoliť niektorý z viacerých módov, a tak možno napr. k deverbálnym podstatným či prídavným menám priradiť základové sloveso alebo k rôznym druhom čísloviek priradiť zodpovedajúcu základnú číslovku vrátane jej číselnej reprezentácie. Morfologické slovníky väčšiny jazykov obsahujú viac ako 100 000 rôznych kmeňov, ďalšie priebežne dopĺňame z našich prekladových slovníkov a aktuálnych korpusov. O zvláštnostiach lemmatizácie pre rôzne jazyky sa môžete dočítať v článku Formálna Morfológia.

Morfológia

Lemmatizáciou a určením slovného druhu to zďaleka nekončí. Ku každému slovu môže volajúca aplikácia získať všetky gramatické kategórie, teda rod, číslo a pád pri menách; čas, spôsob a vid slovies; a tiež všetky ďalšie informácie, ktoré sa v tom ktorom jazyku pre dané slovo určujú. Základnou výhodou nástrojov Lingea je jednotné označenie medzi rôznymi jazykmi, napr. rovnaké označenie pádov (napr. vo fínčine a estónčine 14 pádov), typov zámen či rôznych slovesných spôsobov v románskych jazykoch.

Segmentácia

Zdrojový text je pre ďalšie spracovanie (napr. automatický preklad, analýza vety, data mining) zvyčajne potrebné rozdeliť na jednotlivé vety. Väčšina prípadov sa dá riešiť pomocou interpunkcie a veľkých písmen, ale situáciu komplikujú vlastné mená a skratky, napr. M. R. Štefánik. V niektorých jazykoch (napríklad čínština a japončina) je navyše potrebné rozdeliť vetu na jednotlivé slová, pretože na rozdiel od európskych jazykov nepoužívajú medzery medzi slovami. Na vyriešenie týchto úloh využívame rozsiahle slovníky v kombinácii s algoritmami a rôznymi heuristikami.