Prepracovanie Turingovho testu: Hľadanie nových metrík hodnotenia umelej inteligencie

Turingov test a moderná umelá inteligencia
Turingov test, ktorý navrhol Alan Turing v roku 1950, bol dlho zlatým štandardom na hodnotenie strojovej inteligencie. Ľudskí sudcovia vedú textové rozhovory so skrytým počítačom a neviditeľnou osobou a snažia sa rozoznať, ktorý z nich je stroj. S príchodom veľkých jazykových modelov (LLM), ako je GPT-4, sa však mnohí domnievajú, že tieto modely by teraz mohli prejsť populárnou koncepciou Turingovho testu. V hre založenej na Turingovom teste dokázali hráči správne identifikovať botov len v 60 % prípadov, čo naznačuje, že rozlišovanie medzi ľuďmi a LLM je čoraz náročnejšie.

Výzva na riešenie logických hádaniek
Napriek svojej jazykovej zdatnosti majú LLM ako GPT-4 problémy s vizuálnymi logickými hádankami. V teste s farebnými blokmi usporiadanými na obrazovke dokázal GPT-4 správne vyriešiť len časť hádaniek. Tento rozdiel poukazuje na potrebu lepších referenčných hodnôt na hodnotenie systémov umelej inteligencie. Počítačová vedkyňa Melanie Mitchellová a jej tím vyvinuli logické hádanky, ktoré umožňujú komplexnejšie posúdenie schopností umelej inteligencie. Ich výsledky ukázali, že kým ľudia dosiahli vo všetkých skupinách pojmov v priemere 91 %, GPT-4 dosiahol v jednej skupine len 33 % a v ostatných menej ako 30 %.

Diskusia o schopnostiach LLM
Medzi výskumníkmi panuje rozkol, pokiaľ ide o schopnosti LLM. Niektorí sa domnievajú, že tieto modely vykazujú známky uvažovania alebo porozumenia, zatiaľ čo iní sú skeptickejší. Testy, ako sú logické hádanky, môžu pomôcť objasniť rozdiely medzi schopnosťami človeka a umelej inteligencie. Spôsob, akým sa tieto testy vykonávajú, však nemusí vždy poskytovať spravodlivé porovnanie. Napríklad GPT-4 dostával polia čísel predstavujúcich obrázky, zatiaľ čo ľudskí účastníci si pozerali skutočné obrázky.

Pohľad za hranice Turingovho testu
Zameranie Turingovho testu na klamanie viedlo niektorých k spochybňovaniu jeho užitočnosti. Namiesto toho sa výskumníci zameriavajú na konkrétne kritériá na hodnotenie systémov umelej inteligencie z hľadiska jazykových schopností, uvažovania a ďalších schopností. Hoci LLM ako GPT-4 vykazujú pôsobivé výsledky v rôznych benchmarkoch, ich výkon môže byť nekonzistentný. Táto nejednotnosť zdôrazňuje potrebu komplexnejšieho a systematickejšieho prístupu k hodnoteniu schopností umelej inteligencie.

Tagy: Turingov test, veľké jazykové modely, hodnotenie AI, logické hádanky

Tento článok bol pôvodne uverejnený v časopise Nature a jeho autorkou je Celeste Biever.

Zrieknutie sa zodpovednosti: Zhrnutie napísal ChatGPT.