Poznati model umjetne inteligencije ChatGPT ponovno rastura na testovima.
Ovaj put okušao se na prošlogodišnjoj višoj razini državne mature iz hrvatskog jezika, a test je proveo podatkovni znanstvenik Ivan Židov.
Kako piše Netokracija, model je ostvario prilično dobre rezultate: Iz književnosti i jezika ChatGPT imao je 65 posto, a iz eseja je dobio nešto manje, 62,5 posto.
- Htio sam ga staviti na državnu maturu da vidim kako će proći. Kako sam matematičar, prva ideja mi je bila matura iz matematike. Međutim, smatrao sam kako će ljude više zanimati njegovo znanje hrvatskog jezika jer takav test (koliko ja znam) još nije proveden - rekao je Ivan Židov, Lead Data Scientist u TalentLyftu.
Netokracija je objavila i detaljni ispravak eseja, koji je ChatGPT prošao sa solidnom trojkom, a ispravila ga je profesorica hrvatskog jezika koja inače ispravlja mature.
ChatGPT postigao je bolje rezultate u zadacima iz književnosti koji su sadržavali tekst (80 posto), dok je na zadacima bez teksta bio nešto slabiji (73 posto), što ponovno potvrđuje kako je ovom AI alatu potreban kontekst kako bi došao do točnijih zaključaka.
Židov je uvjeren kako bi rezultati iz jezika bili bolji kad bi ChatGPT dobio više informacija o istima, a to je demonstrirao na 63. pitanju gdje je trebalo iz zadane rečenice od četiri ponuđena odgovora odabrati onu koja je zanaglasnica.
Najteže mu 'pao' esej
Kad bi uz zadatak ChatGPT-u bila napisana definicija zanaglasnica, Židov ističe kako je vjerojatnije da bi odgovorio točno.
Kod eseja se ChatGPT najviše znojio - Židov mu je morao ubaciti književni tekst na temelju kojeg će nastati esej i same upute kako da ga stvori:
- Esej se mora sastojati od uvoda, razrade i zaključka.
- Predstavite poetiku djela Patnje mladoga Werthera
- Usporedite na temelju djela u cjelini Lottin odnos prema Wertheru i prema Albertu
- Interpretirajte polazni tekst na sadržajnoj i stilskoj razini
- Protumačite na temelju čitateljskoga iskustva kako ljubav motivira postupke književnih likova
- Obrazložite svoje tvrdnje.
- Esej mora biti dugačak i detaljan.
Upravo u zadnjoj točki Ivan je detektirao najveću boljku - ChatGPT generirao je tek 150-200 riječi, od kojih su neke bile na engleskom i srpskom, pa se nakon više pokušaja prebacio na "klasični GPT", odnosno GPT-3 (davinci-003), koji zbog manjih limitacija broja znakova može generirati duže tekstove.
GPT-3 tako je iz prve rasturio esej, a spomenuti portal objavio je i detaljni ispravak istog, gdje je profesorica koja ga je ispravila zaključila sljedeće:
- U eseju se uglavnom govori o sadržaju djela. Vrlo je precizno tumačenje odnosa između likova i opisivanje događaja. Nedostaju književnopovijesni i književnoteorijski pojmovi, citati iz teksta kojima se dokazuju tvrdnje i usporedba s drugim književnim tekstovima (čitateljsko iskustvo). Pravopisna i gramatička pravila primijenjena su u potpunosti, sintaktička pravila su donekle narušena.