AI gali puikiai atlikti tam tikras užduotis, pvz., koduoti ar generuoti podcast'ą. Tačiau jai sunku išlaikyti aukšto lygio istorijos egzaminą, nustatyta naujame darbe.
Tyrėjų komanda sukūrė naują etaloną, skirtą istoriniais klausimais išbandyti tris geriausius didelių kalbų modelius (LLM) – OpenAI GPT-4, Meta's Llama ir Google Gemini. Etalonas Hist-LLM tikrina atsakymų teisingumą pagal Seshat Global History Databank – didžiulę istorinių žinių duomenų bazę, pavadintą senovės Egipto išminties deivės vardu.
Pasak mokslininkų, susijusių su Austrijoje įsikūrusiu tyrimų institutu „Complexity Science Hub“ (CSH), rezultatai, kurie praėjusį mėnesį buvo pristatyti aukšto lygio AI konferencijoje „NeurIPS“, buvo nuviliantys. Geriausiai veikiantis LLM buvo GPT-4 Turbo, tačiau jis pasiekė tik apie 46% tikslumą – ne daug didesnį nei atsitiktinis spėjimas.
„Pagrindinė šio tyrimo išvada yra ta, kad LLM, nors ir įspūdingi, vis dar trūksta supratimo, reikalingo pažangiai istorijai. Jie puikiai tinka pagrindiniams faktams, bet kai kalbama apie niuansesnį, doktorantūros lygio istorinį tyrimą, jie dar nepasirengę užduoties“, – sakė Maria del Rio-Chanona, viena iš straipsnio bendraautorių ir bendradarbė. Londono universiteto koledžo informatikos profesorius.
Tyrėjai pasidalijo pavyzdžiais istoriniais klausimais su „TechCrunch“, kuriuos LLM suklydo. Pavyzdžiui, GPT-4 Turbo buvo paklausta, ar tam tikru laikotarpiu senovės Egipte buvo šarvai. LLM pasakė „taip“, tačiau ši technologija pasirodė Egipte tik po 1500 metų.
Kodėl LLM blogai atsako į techninius istorinius klausimus, kai jie gali taip gerai atsakyti į labai sudėtingus klausimus apie tokius dalykus kaip kodavimas? Del Rio-Chanona sakė „TechCrunch“, kad tikėtina, kad LLM yra linkę ekstrapoliuoti iš istorinių duomenų, kurie yra labai ryškūs, todėl jiems sunku gauti neaiškių istorinių žinių.
Pavyzdžiui, mokslininkai paklausė GPT-4, ar senovės Egiptas tam tikru istoriniu laikotarpiu turėjo profesionalią nuolatinę armiją. Nors teisingas atsakymas yra ne, LLM neteisingai atsakė, kad taip. Taip yra todėl, kad yra daug viešos informacijos apie kitas senovės imperijas, tokias kaip Persija, turinčias nuolatines armijas.
„Jei jums bus pasakyta A ir B 100 kartų, o C 1 kartą, o tada užduodamas klausimas apie C, galite tiesiog prisiminti A ir B ir pabandyti iš to ekstrapoliuoti“, – sakė del Rio-Chanona.
Tyrėjai taip pat nustatė kitas tendencijas, įskaitant tai, kad OpenAI ir Lama modeliai tam tikruose regionuose, pavyzdžiui, Afrika į pietus nuo Sacharos, veikė blogiau, o tai rodo galimą jų mokymo duomenų šališkumą.
Rezultatai rodo, kad LLM vis dar nėra žmonių pakaitalas, kai kalbama apie tam tikras sritis, sakė Peteris Turchinas, kuris vadovavo tyrimui ir yra CSH fakulteto narys.
Tačiau mokslininkai vis dar tikisi, kad LLM gali padėti istorikams ateityje. Jie stengiasi patobulinti savo etaloną įtraukdami daugiau duomenų iš nepakankamai atstovaujamų regionų ir pridėdami sudėtingesnių klausimų.
„Apskritai, nors mūsų rezultatai pabrėžia sritis, kuriose LLM reikia tobulinti, jie taip pat pabrėžia šių modelių potencialą padėti istoriniams tyrimams“, – rašoma dokumente.