Automatické dopĺňanie diakritiky
Je možné, že potrebujete v softvérovom riešení spracovávať dopyty bez diakritiky. Možno Vám bez diakritiky posielajú kolegovia svoje pripomienky alebo poznámky. V každom prípade je niekedy potrebné spracovať text tak, aby už diakritiku obsahoval.
Tento problém riešia jazykové technológie Lingea na dvoch úrovniach:
- Modul, ktorý k ľubovoľnému slovu bez diakritiky nájde všetky správne slovenské slová s diakritickými znamienkami. Vhodné napríklad na predspracovanie otázky vo vyhľadávači.
- Plne automatické riešenie, ktoré pomocou štatistického jazykového modelu dokáže previesť celý text bez mäkčeňov a dĺžňov na správny text s diakritikou.
Jazyková časť
Základom riešenia je formálny opis morfológie, vďaka ktorému dokážeme k ľubovoľnému slovu bez diakritiky nájsť všetky správne slová. Tých slov môže byť aj viac, napr. ku slovu sat je to slovo sať, šať alebo aj pôvodný variant. Ak teda chceme, aby riešenia boli úplne automatické, musíme zapojiť ešte štatistické metódy založené na rozsiahlom korpuse správne napísaných slovenských textov. Vďaka nim dokážeme nájsť v danom kontexte tú najpravdepodobnejšiu možnosť.
Na tomto mieste je však potrebné upozorniť na to, že s niektorými prípadmi si neporadia ani veľmi pokročilé riešenia. Napríklad vo vete:
Neustále vyvádza a ja som z toho úplne zúfalá.
Tu naozaj neviete, či daná osoba hovorí o neposlušnom dieťati alebo hravom mačiatku.
Programové riešenie
Prvá úroveň je funkcia, ktorá k ľubovoľnému slovu vráti všetky varianty slov s diakritickými znamienkami. Používa len morfologický slovník daného jazyka, ktorého veľkosť býva približne 1 MB.
Druhá úroveň je pamäťovo náročnejšia. Pracuje s jazykovým modelom, ktorého veľkosť sa pohybuje v radoch gigabytov. Vstup môže byť aj text v HTML, modul ponechá všetky HTML ZNAČKY bez zmeny, iba doplní svoje značky, ktoré označujú slová, ktoré boli zmenené. Funkčnosť tohto nástroja si môžete vyskúšať na www.nechybujte.cz.