Digitalni jezički resursi za crnogorski jezik na naprednim svjetskim jezičkim platformama




Digitalni jezički resursi za crnogorski jezik na naprednim svjetskim jezičkim platformama

Brz razvoj digitalnih tehnologija i korpusne lingvistike doveo je do kreiranja velikog broja elektronskih jezičkih resursa čije korišćenje, u posljednje vrijeme, predstavlja naučni standard u mnogim empirijskim lingvističkim studijama. Nedavno su na jednoj od najnaprednijih platformi za jezička mjerenja i analize objavljeni prvi javno dostupni elektronski resursi za crnogorski jezik. Naime, preko platforme clarin.si dostupan je Korpus tekstova internet stranica iz Crne Gore (MeWac), koji sadrži preko 90 miliona tokena, odnosno preko 77 miliona riječi. Korpus je dostupan na dva konkordansera, a sačinili su ga istraživači sa Instituta Jožef Stefan iz Slovenije. Morfosintaksički je anotiran, parsiran i lematizovan posljednjim neuralnim pajplajnom CLASSLA, što ga čini jednim od najtačnije anotiranih korpusa na pomenutoj platformi. Korpus se može besplatno koristiti putem ovog linka.

Preko platforme clarin.si dostupan je i paralelni specijalizovani englesko-crnogorski korpus Opus-MontenegrinSubs. Korpus je dostupan preko dva konkordansera, morfosintaksički je anotiran, tagiran i lematizovan (besplatno je dostupan putem ovog linka). Pored clarin.si platforme, za sada je jedini korpus crnogorskog jezika koji je dostupan i na platformi SketchEngine, koja je među najnaprednijim platformama za jezička mjerenja i analize  koju koriste izdavači poput Cambridge University Press-a, Oxford University Press-a, leRobert i dr., za izradu jezičkih priručnika, udžbenika i rječnika. Korpus su izradili istraživači sa Univerziteta Crne Gore, Univerziteta u Ljubljani i Upsala Univerziteta iz Švedske (opis je dostupan putem ovog linka).

Jezički korpusi ove vrste nezaobilazni su resursi za lingvistička i translatološka istraživanja, prevodilačku praksu, izradu rječnika, leksikona, gramatika, jezičkih priručnika i udžbenika koji se temelje na reprezentativnom uzorku autentične jezičke upotrebe. Koriste se i u istoriografskim istraživanjima, kao i u digitalnoj humanistici.



Ne propustite nijednu važnu vijest, pretplatite se na vijesti Akademski forum.