Kad se informatičke ruke slože...

InfoCoV: umjetnom inteligencijom u srž online komunikacije

Priče

Prošlog tjedna put me odveo na ogranak Trsat, na jedno jako zanimljivo predavanje koje se odvilo u sklopu ciklusa OK knjižnica OK zajednica.

Naslov predavanja je malo kobasičast: „Online-komunikacija u doba pandemije – rezultati istraživanja (društvenih) medija uz pomoć metoda obrade prirodnog jezika“, ali obećajem, sve će vam biti jasno!

Haj’mo malo pričati o prvom djelu naslova koji glasi „Online komunikacija u doba pandemije“. Mislim da ni ne moram nešto posebno naglašavati kako je online komunikacija procvjetala tijekom protekle godine sa samom pojavom pandemije (pogotovo onih lockdownova na početku) gdje smo svi bili doma, a najčešći način komunikacije s obitelji i prijateljima bile su upravo društvene mreže i Internet. Naš svakodnevni život se tada podosta promijenio, prostor za druženje i ćakulu preselio se online!

Samim time, komunikacija je uvelike porasla, kao i korištenje društvenih mreža kako bismo izrazili neki svoj stav i mišljenje u tom velikom internetskom bazenu. To me vodi do drugog dijela naslova koji glasi „Rezultati istraživanja (društvenih) medija uz pomoć metoda obrade prirodnog jezika“. Kao što možete pogoditi, predavanje se ticalo prikaza rezultata jednog ultra zanimljivog istraživanja koje se zove InfoCoV, a glavni tim ljudi koji ga vodi dolazi nam s Odjela za informatiku Sveučilišta u Rijeci!

InfoCoV tim (izvor: InfoCoV)

Informatičari – vitezi s računalima i umjetnom inteligencijom

Česta je situacija da kada netko čuje za zanimanje informatičar, prva asocijacija najčešće bude osoba koja ultra dobro zna programirati i čarobnjak je za kompjutore (ili je to samo meni?).

No ovaj vrli tim informatičara i znanstvenika pokazao nam je kako se znanje i trud informatičara itekako može primijeniti na razne aspekte našeg života, te kako je programiranje samo mala kap u moru njihovog rada. Oni koriste razne alate i primjenu svog znanja kako bi pomogli zajednici.

Ček, vratimo se malo na InfoCov!

Može, taman sam krenula!

Dakle, radi se o projektu kojem je glavni nositelj Odjel za informatiku, ali kako je bilo što u životu lakše raditi u timu, informatičarima se za potrebe ovog projekta uključila i lingvistika (što je naziv za znanstveno proučavanje ljudskog jezika).

InfoCoV je projekt u kojem su istraživači istraživali jedan poseban aspekt pandemije, a to je komunikacija na društvenim medijima. Primarno ih je zanimalo kakvi su točno stavovi, mišljenja i emocije ljudi kroz njihov upis na društvenim mrežama, te kako se isti mijenjao kroz vrijeme.

Kako su to uspjeli?

Uf, vjerujte mi, ovo nije bio nimalo lak posao! Ovako nekako je išao taj proces: kada se radi bilo kakvo istraživanje, prvo je potrebno odabrati što i kako će se istraživati.

„Što“ je u ovom slučaju sačinjavalo podatke prikupljene s društvene mreže Twitter, ali i s različitih medijskih portala (u vidu tekstova, komentara i sličnog).
„Kako“ je ono zanimljivo! Naime, metoda kojom se skupina znanstvenika iz InfoCoVa odlučila obračunati s ovako velikim zadatkom dolazi iz područja AI-a (umjetne inteligencije). Točnije, radi se o takozvanoj NLP tehnologiji (eng. Natural language processing), što je program koji je sposoban obraditi ljudski jezik kako ga mi to naučimo! Ludo, zar ne?

E sad, stroj je pametan, ali ipak mu mi moramo reći što da radi i kako da bude pametan. Pandemija je nešto novo s čime se ni program takve vrste do sad nije susreo na ovaj način, pa je bilo potrebno naučiti ga kako da raspoznaje stavove napisanih poruka (koje su mogle biti pozitivne, negativne i neutralne).

No da bi to bilo moguće, bili je potrebno prikupiti tu gomilu podataka i staviti ju na jedno mjesto (to se zove korpus). Kako bi se algoritam NLP uopće naučio raspoznavati stavove i olakšao znanstvenicima analizu, prvo su članovi tima morali ručno „pročistiti“ tekstove i označiti ih jesu li oni pozitivnog, negativnog ili neutralnog stava (što su oni nazvali sentiment), kako bi naučili program da ih sam raspoznaje (e, tu govorimo o više od 100 000 objava!!!). To se radilo jer je znanstvenike zanimalo na koji način ljudi pišu o pandemiji, kakvi su njihovi stavovi i kako se to kroz godinu mijenjalo.

Pred znanstvenicima je stajao velik zadatak – naučiti stroj kako procjenjivati ljudski stav o pandemiji koji je napisan negdje na Internetu. Mogu samo misliti kako se mučio… No muka stroja i znanstvenika se isplatila, jer su pomoću ultra pametnog stroja i vlastitog rada došli do nekih zanimljivih saznanja!

Što nam govore dosadašnji rezultati?

Budući da je ovo projekt koji još uvijek traje, ne postoji neka široka i konkretna slika rezultata (ali i zato što pandemija još uvijek traje i neprestano pristižu novi podaci).

No neke su stvari podijelili s nama, poput zanimljive činjenice kako su ljudi jako malo pisali o pandemiji kroz pozitivne objave, a najviše kroz negativne i neutralne. Štoviše, znanstvenike je iznenadila količina negativnih stavova!

No isto tako, uvidjeli su kako smo jako specifični po toj negativnosti, jer ju uvijek upakiramo u humorističan paketić – nije da smo samo negativni, nego se uvijek netko nasmije 🙂

Također, primijetili su kako se na početku prošle godine, dok smo još bili korona free, pisalo o svemu i svačemu, no kako je pandemija pokucala na vrata, sve se više pisalo samo o njoj (uf, što li je sva umišljena ta pandemija…). Kako su dolazili lockdownovi objava je bilo gomilu, a pred ljeto se broj objava smanjivao. Isto tako, na početku su prevladavali pozitivni stavovi, a kasnije s dolaskom onih famoznih propusnica stavovi su postajali sve negativniji…

Znanstvenike je zanimalo ponajviše o komu, čemu i gdje se najviše priča, te su zaključili kako se najviše pisalo o osobama, a najmanje o putovanjima i događajima (što ima smisla, budući da smo putovali samo do dućana i natrag).

Čemu služi ovakvo istraživanje?

Iako se možda čini malo apstraktno i upitnik je nad glavom gdje i kako iskoristiti ova saznanja – bez brige, sad ću vam reći!

Za učenje: nemojte misliti da znanstvenici i profesori, jednom kad završe školu, više nikada ne uče! Uf, baš suprotno! Ovakva istraživanja i rezultati koje pokazuju uvelike koriste kako znanstvenicima za buduća istraživanja, tako i u svrhu školovanja svih (od studenata, učenika pa do profesora i učitelja).

Za rad na budućim istraživanjima: u ovom projektu razvijen je NLP program kojeg su znanstvenici naučili raspoznavati stavove u vezi pandemije, što će i nakon projekta sigurno poslužiti kao zgodan alat za brojna buduća istraživanja (što je genijalno jer da netko to radi sve ručno, trebale bi mu godine i godine rada)!

Za saznanje o stavovima društva: znanstvenici (a i svatko od nas koga zanima) iz ovakvog istraživanja može puno saznati o tome što i kako ljudi misle i kako to izražavaju na društvenim mrežama, što nam može dati širu sliku o djelu društva koji se promatra. Ponekad, kada se odmaknemo i vidimo širu sliku, neke stvari budu puno jasnije!

Za općenito informiranje: budimo realni, svakodnevno smo zatrpani informacijama od kojih ponekad nemamo pojma jesu li istina ili samo neka lažna vijest. Ta se pojava zove infodemija (kužite igru riječi he he. Ok, nije smiješno, ali morala sam to istaknuti…). Uglavnom, nešto što je nekada bila vijest, u ovakvom istraživanju može se pokazati kako je bila zapravo lažna vijest; dezinformacija, ili se pak može pokazati koje su informacije bile zaista vrijedne i istinite. To sve uvelike pomaže u kategoriziranju informacija kako bi ubuduće lakše u startu prepoznali neku misinformaciju.

Za rješavanje problema (u online okruženju): istraživanje ovakve vrste može otkriti problem, ali i na neki način sugerirati njegovo rješenje (jer prvi korak rješavanja nekog problema znači da uopće priznamo da on postoji).
Kao što vidite, primjena je zaista mnogo i u raznim aspektima života (ne samo informatici)!

Kakva je budućnost projekta ?

Projekt je zamišljen da traje do početka iduće godine, no drže se fige da se bar u nekom obliku nastavi (za što navijamo i mi)!

Gore navedeni su samo mali djelić rezultata, a za više njih, te one buduće koji još nisu službeno objavljeni čekirajte službenu stranicu projekta gdje će svi rezultati biti dostupni na korištenje i informiranje! U planu je izrada aplikacije za pregled i vizualizaciju podataka.

U svakom slučaju preporučujem vam da bacite oko na ovaj projekt te da posjetite buduća predavanja – svaki put nađe se nešto novo za naučiti!