Ogranak Univerziteta u Beogradu razvija alate veštačke inteligencije za obradu teksta na srpskom jeziku koji treba da omoguće brže i efikasnije poslovanje

Alati veštačke inteligencije, kao što je ChatGPT, brzo menjaju način na koji komuniciramo i radimo, ali i dalje smo daleko od shvatanja svih njenih prednosti.

„Da bismo korisnicima omogućili da koriste prednosti AI, moramo je prilagoditi za određene zadatke, primenom posebnih skupova podataka”, kaže Vuk Batanović, šef laboratorije za obradu prirodnih jezika u Inovacionom centru Elektrotehničkog fakulteta u Beogradu.

Naučnici i studenti u Inovacionom centru razvijaju skup resursa i alata za automatsku obradu tekstova na srpskom, jeziku koji govori 12 miliona ljudi. Fokus njihovog projekta COMtext.SR je na pravnim tekstovima, oblasti koja još uvek nije pokrivena postojećim akademskim ili komercijalnim alatima za srpski jezik. Ova oblast je od velikog značaja za javno upravljanje, nevladine organizacije i privredu, naročito u kontekstu EU integracija i usaglašavanja sa standardima EU.

Centar je osnovan 2006. godine u cilju stvaranja naprednih inovacija u elektrotehnici i informacionim tehnologijama, a njegova oprema finansirana je iz dela €kredita Evropske investicione banke vrednog 200 miliona evra. Dobio je podršku u okviru Instrumenta Evropske unije za pretpristupnu pomoć, od Razvojne banke Saveta Evrope i Vlade Srbije.



Kada računari razumeju ljudski jezik

Obrada prirodnih jezika, u kojoj se primenjuju mašinsko učenje i duboko učenje kako bi se računari naučili da obrađuju ljudski jezik, koristi se u naprednim jezičkim modelima kao što su BERT (prikazi dvosmernog kodera iz transformatora; eng. Bidirectional Encoder Representations from Transformers) i GPT (generativni unapred obučeni transformator; eng. Generative Pre-trained Transformer).

Primenom tih modela, računari mogu da analiziraju morfologiju, sintaksičku strukturu i semantiku teksta.

Projekat COMtext.SR usmeren je upravo na izradu pouzdanih, ekspertski proverenih, anotiranih podataka za razvoj velikih jezičkih modela na srpskom jeziku”, rekao je Batanović. „Ova oblast stoga može imati veliku praktičnu vrednost, jer se ogroman korpus ljudskog znanja može naći u tekstualnom formatu. Međutim, računari ne mogu da vrše obradu bez odgovarajućih rešenja za obradu prirodnih jezika.”

Obuhvatajući dve varijante srpskog jezika – ekavicu (kojom se služi većina Srba u Srbiji) i ijekavicu (Srbi u Bosni i Hercegovini, Hrvatskoj i Crnoj Gori), projekat COMtext.SR svoje nalaze čini javno dostupnim u korist pojedinaca, korporacija, javnih institucija i startapova.  Njima će uskoro biti omogućen brži i efikasniji pregled dokumenata, podrška klijentima, pretraga tekstova i izrada sadržaja. Inovacioni centar je svoje nalaze objavio u januaru.

Spajanje nauke i industrije

Projekti kao što je COMtext.SR primer su uspešne saradnje između akademskih istraživača i industrije u povezivanju znanja, kreativnosti i ideja.  

„Inovacioni centar nastoji da stvori inovativna rešenja i usluge, kao i da unapredi postojeće, prateći potrebe tržišta”, kaže Ilija Radovanović, zamenik direktora Inovacionog centra. „Naši projekti su multidisciplinarnog i praktičnog karaktera, a nova rešenja su usmerena na krajnje korisnike i na rešavanje stvarnih industrijskih i društvenih izazova.”

A koji su to globalni dugoročni izazovi kada je reč o obradi prirodnih jezika?

„Jedan od ključnih momenata u budućem razvoju”, kaže Batanović, „biće uspešno kombinovanje logičkog razmišljanja sa statističkim pristupom jezičkim modelima.”