ROMTWOL

ROMTWOL on Suomen romanikielen automaattinen morfologinen analysaattori, joka hyödyntää Kimmo Koskenniemen 1980-luvulla kehittämää kaksitasomallia (Koskenniemi 1983). Se on sääntöpohjaisen kieliteknologian malli, joka perustuu äärellisiin transduktoreihin eli äärellistilaisiin automaatteihin (Finite-State Transducers, FST), jotka muuntavat merkkijonoja toisiksi merkkijonoiksi. Kaksitasomallin pääkomponentit ovat leksikko ja säännöstö.

Nykyistä Suomen romanikielen automaattista morfologista analysaattoria edelsi vuosina 2001–2002 kehitetty kokeellisluonteinen, kaksitasomallia hyödyntävä Suomen romanikielen kielioppimalli ROMTWOL (Granqvist 2005). Se toimi PC-KIMMO-ohjelmistolla MS-DOS:ssa. Sen leksikko käsitti vain suuret sanaluokat (substantiivit, adjektiivit, verbit, yhteensä 1721 ”sana-artikkelia”), mutta siinä oli kattava säännöstö. Vanha ROMTWOL ei kuitenkaan enää ole yhteensopiva nykyisten käyttöjärjestelmien eikä modernien luonnollisen kielen käsittelyyn tarkoitettujen ohjelmistojen kanssa. Se ei myöskään tukenut Suomen romanikielen standardiortografiaa.

Vanhan ROMTWOLin leksikkoa.

ROMTWOLin uusi versio 2 on rakennettu ja kirjoitettu kokonaan uudelleen nykyisten ohjelmistojen (HFST-LEXC ja HFST-TWOLC) formalismien mukaiseksi, ja sen kielimalli on uudistettu kattamaan Suomen romanikielen koko tunnetun perussanaston ja koko sääntöperäisen kieliopin (Granqvist 2007, 2011) kuvausten ja romanikielen lautakunnan suositusten mukaiseksi. ROMTWOL 2 toimii komentorivipohjaisena sovelluksena. Sen kehitysympäristönä on Red Hat Enterprise Linux (RHEL), tämänhetkinen versio 9.3, mutta TWOL toimii myös Windowsissa ja Applen järjestelmissä.

ROMTWOL 2 on julkaistu avoimen lähdekoodin GNU GPL-lisenssin (General Public Lisence) alaisuudessa. GPL:n alla lisensoidusta ohjelmasta pitää aina olla saatavilla lähdekoodi, ja ohjelmaa voi vapaasti käyttää mihin tahansa tarkoitukseen, muokata ja levittää edelleen (myös kaupallisesti). GPL kuitenkin vaatii, että ohjelmaa ja siihen perustuvia muita ohjelmia levitetään GPL:n alaisuudessa.
Nykyisen ROMTWOLin ortografia noudattaa romanikielen ortografiakomitean suositusta (1971). TWOLissa leksikon tehtävänä kuvata kielen morfotaksi – se, miten ja missä järjestyksessä päätteet voivat liittyä sanavartaloihin ja toisiinsa. Lisäksi leksikossa luetellaan kielen sanavartalot, johtimet ja päätteet

ROMTWOLin version 2 leksikko perustuu vanhan ROMTWOLin sanastoon, johon on lisätty pronominit, determinoijat, numeraalit, johtamattomat adverbit, adpositiot, rinnastus- ja alistuskonjunktiot, partikkelit ja prefiksejä. Substantiivien taivutustyyppejä kuvataan leksikossa yhteensä 15 ja adjektiivien 4. Verbien taivutustyypit perustuvat konsonantti- vs. vokaalivartaloisuuteen sekä preteritin muodostustapoihin, joita on Suomen romanikielen sääntöperäisessä verbimorfologiassa kaikkiaan 5. Leksikkoon on lisätty runsaasti epäproduktiivisia johdoksia, mikä on tarpeen, koska kieliopissa kuvataan vain sääntöperäisinä pidettävinä muotoja (vrt. Granqvist 2007). Tällä hetkellä leksikon koko on 3996 entryä, eli leksikko on yli kaksinkertaistunut verrattuna vanhaan ROMTWOLiin. Leksikon laajentaminen julkaistuista sanastolähteistä on käynnissä. TWOLin sääntökomponentissa kuvataan aakkosto ja kielen morfofonologiset säännöt. ROMTWOLin sääntökomponentti on kirjoitettu kokonaan uudelleen TWOLC-formalismin mukaiseksi.

ROMTWOLin kokeilua.

ROMTWOL kykenee tällä hetkellä tunnistamaan keskimäärin yli 90 % juoksevien tekstien sanoista. ROMTWOLia on testattu yliopistoon tarkoitetun Suomen romanikielen oppikirjan Vaaguno! (Granqvist 2011) lukukappaleiden 1–7 teksteillä, jotka on kirjoitettu melko kurinalaisesti. ROMTWOL kykenee taivuttamaan kaikissa muodoissa periaatteessa oppi- ja sanakirjoissa dokumentoidut romanikielen sanat. Vaagunon! tekstejä käytettiin kokeilussa, koska ne ovat lähellä romanikielen kodifioitua kirjakieltä. Tulokset vertautuvat hyvin muidenkin pohjoismaisten ”pienten” kielten automaattisten muoto-opin jäsentimien saavuttamiin (Nordic ad hoc workgroup on the status of smaller languages in the Nordic countries, tulossa).

ROMTWOL-työskentelyä ovat rahoittaneet vuonna 2023 Suomen Kulttuurirahasto ja Fuugin säätiö.