Süni İntellektlər də insanlar kimi imtahan edilir

Turing testi və süni zəka

Turing testi süni intellektin insan kimi dialoq qurma qabiliyyətini ölçən ənənəvi imtahandır. Bu test zamanı insan hakim kompüterlə mətn üzərindən söhbət aparır və kompüter insan olduğunu sübut etməyə çalışır. Əgər hakim kompüteri real adam kimi qəbul edərsə, kompüter testdən keçmiş sayılır. 2014-cü ildə “Eugene Goostman” adlı chatbot 30 dialoqdan 10-da hakimləri aldadaraq insan kimi qəbul edilməyi bacardı. Son illərdə ChatGPT və digər böyük dil modelləri də çox inandırıcı cavablar verirlər. Məsələn, yeni versiyası ilə ChatGPT insan danışığına yaxın cavablar verə bilir, yəni Turing testində çətinlik yaratmağa yaxındır. Lakin indiyə kimi heç bir model rəsmi Turing testini tam olaraq keçməyib.

“İnsanlığın Son İmtahanı” (HLE) nədir?

“İnsanlığın Son İmtahanı” (Humanity’s Last Exam, HLE) süni intellektin məntiqi və bilik bacarıqlarını yoxlamaq üçün hazırlanmış yenilikçi benchmarkdur. Təxminən 2500 ekspert səviyyəli sualın yer aldığı bu imtahan riyaziyyat, fizika, biologiya və tibb, humanitar elmlər, kompüter elmləri, mühəndislik, kimya və digər sahələri əhatə edir. İmtahanda sualların 14%-i mətnlə yanaşı şəkil, qrafik və diaqramlardan istifadə edilməklə tərtib olunub. Bu o deməkdir ki, modellər sualları cavablandırarkən sadəcə mətnə deyil, həm də vizual məlumatlara əsaslanmalıdır. Beləliklə, HLE normal testlərdən fərqli olaraq daha mürəkkəb, düşüncə tələb edən suallar təqdim edir. Bəziləri bu imtahanı “insanlığın son testi” adlandırır, çünki o, süni intellektin ən çətin səviyyələrini sınağa çəkir.

Süni intellekt modelləri adi nümunə axtarma üsullarını işlətmədən, dərin anlam və hesablamaya əsaslanan cavablar verməlidirlər. Məsələn, kimya və biologiya sahəsindəki ən çətin sualların cavabı modeldən elmi konseptləri məntiqi ardıcıllıqla tətbiq etməyi tələb edir. HLE-dən əvvəl istifadə edilən benchmark-lar süni intellektin gücünü ölçmək üçün kifayət edirdi, lakin qabaqcıl modellər artıq o sualları da rahatlıqla keçir. Ona görə də HLE modellərin “son imtahanını” təşkil edir – əgər onlar bu suallardan da keçərsə, deməkdir insan zehni ilə rəqabət apara bilərlər.

SI test

Ən yeni modellərin performansı

Hələlik heç bir süni intellekt modeli insan ekspertləri səviyyəsinə çata bilməyib. Rəsmi nəticələrə görə Google-un Gemini 3 Pro modeli bu imtahanda 37.5% düzgün nəticə ilə liderdir, OpenAI-nın GPT-5.2 Pro modeli isə təxminən 36.6% nəticə göstərib. Anthropic şirkətinin Claude 4.5 modeli isə 25.2% bal toplayıb. Başqa məşhur modellər – Mistral, Llama, AWS Nova və s. – daha aşağı nəticələr göstərirlər. Qeyd edək ki, normal insan ekspertlər eyni imtahanda təxminən 90% civarında düzgün cavab verir. Yəni bu testdə süni intellekt hələ insanın arxasında qalır.

Turing testində isə vəziyyət bir qədər fərqlidir. Müasir danışıq botları çox inandırıcı cavablar verə bilir. Ekspertlər bildirir ki, bəzi hallar Turing testinə bənzər şəraitdə ChatGPT-nin cavabı insanla səhv salına bilər. Amma bu demək deyil ki, süni intellekt artıq insanın yerinə keçir – sadəcə bu test çox məhdud çevrə üçün tərtib olunub. Hər iki test göstərir ki, Aİ hazırda geniş bilik bazasını əhatə edə bilir və savadlı görünə bilir, lakin dərin anlayış, intellektual intuisiyadan hələ uzaqdır.

SI Test

Yüksək performansın insanlıq üçün mənası

Əgər gələcəkdə süni intellekt modelləri bu testlərdə insan səviyyəsində və ya ondan da yaxşı nəticələr göstərsələr, bu texnologiyada böyük sıçrayışın işarəsi olacaq. Belə ssenari insan həyatına böyük təsir edə bilər. Təsəvvür edin ki, robotik sistemlər və proqramlar elmi araşdırmalarda, təhsildə, tibbdə insan səviyyəsində qərarlar verə, xilasedici analitik kömək göstərə bilərlər. Bu, həm insanlara yeni imkanlar qazandırar, həm də robotların gücünü və təhlükəsini düşündürən suallar ortaya çıxarar. Məsələn, iş yerlərində süni zəkanın rolu, yaradıcılıq və təhsil sahələri yenidən qiymətləndirilə bilər. Nəticədə, yüksək Aİ performansı insanlıq üçün həm böyük ümidlər, həm də ciddi suallar doğuracaq – süni intellektin necə uyğun və faydalı istifadə edilməsi məsələsini yenidən nəzərdən keçirmək lazım gələcək.

Kehan Əlizadə

18-Dek-2025 114

OPTİMA ŞİRKƏTLƏR QRUPU - iiko AZƏRBAYCAN

Turing testi və süni zəka

“İnsanlığın Son İmtahanı” (HLE) nədir?

Ən yeni modellərin performansı

Yüksək performansın insanlıq üçün mənası

iiko haqqında suallarınız var? Gəlin müzakirə edək!

+994 12 310 26 27