• Archive
  • Language models
  • New Tech
  • Safety, Regulation & Ethics
  • Company tracker
    • Apple
    • Google
    • Meta
    • OpenAI
No Result
View All Result
  • Slovenčina
    • English (Angličtina)
  • Archive
  • Language models
  • New Tech
  • Safety, Regulation & Ethics
  • Company tracker
    • Apple
    • Google
    • Meta
    • OpenAI
No Result
View All Result
Daily AI Watch
No Result
View All Result

Prepracovanie Turingovho testu: Hľadanie nových metrík hodnotenia umelej inteligencie

Daily AI Watch by Daily AI Watch
24. augusta 2023
0 1
Prepracovanie Turingovho testu: Hľadanie nových metrík hodnotenia umelej inteligencie
5
VIEWS
Share on FacebookShare on Twitter

Turingov test a moderná umelá inteligencia
Turingov test, ktorý navrhol Alan Turing v roku 1950, bol dlho zlatým štandardom na hodnotenie strojovej inteligencie. Ľudskí sudcovia vedú textové rozhovory so skrytým počítačom a neviditeľnou osobou a snažia sa rozoznať, ktorý z nich je stroj. S príchodom veľkých jazykových modelov (LLM), ako je GPT-4, sa však mnohí domnievajú, že tieto modely by teraz mohli prejsť populárnou koncepciou Turingovho testu. V hre založenej na Turingovom teste dokázali hráči správne identifikovať botov len v 60 % prípadov, čo naznačuje, že rozlišovanie medzi ľuďmi a LLM je čoraz náročnejšie.

Výzva na riešenie logických hádaniek
Napriek svojej jazykovej zdatnosti majú LLM ako GPT-4 problémy s vizuálnymi logickými hádankami. V teste s farebnými blokmi usporiadanými na obrazovke dokázal GPT-4 správne vyriešiť len časť hádaniek. Tento rozdiel poukazuje na potrebu lepších referenčných hodnôt na hodnotenie systémov umelej inteligencie. Počítačová vedkyňa Melanie Mitchellová a jej tím vyvinuli logické hádanky, ktoré umožňujú komplexnejšie posúdenie schopností umelej inteligencie. Ich výsledky ukázali, že kým ľudia dosiahli vo všetkých skupinách pojmov v priemere 91 %, GPT-4 dosiahol v jednej skupine len 33 % a v ostatných menej ako 30 %.

Diskusia o schopnostiach LLM
Medzi výskumníkmi panuje rozkol, pokiaľ ide o schopnosti LLM. Niektorí sa domnievajú, že tieto modely vykazujú známky uvažovania alebo porozumenia, zatiaľ čo iní sú skeptickejší. Testy, ako sú logické hádanky, môžu pomôcť objasniť rozdiely medzi schopnosťami človeka a umelej inteligencie. Spôsob, akým sa tieto testy vykonávajú, však nemusí vždy poskytovať spravodlivé porovnanie. Napríklad GPT-4 dostával polia čísel predstavujúcich obrázky, zatiaľ čo ľudskí účastníci si pozerali skutočné obrázky.

Pohľad za hranice Turingovho testu
Zameranie Turingovho testu na klamanie viedlo niektorých k spochybňovaniu jeho užitočnosti. Namiesto toho sa výskumníci zameriavajú na konkrétne kritériá na hodnotenie systémov umelej inteligencie z hľadiska jazykových schopností, uvažovania a ďalších schopností. Hoci LLM ako GPT-4 vykazujú pôsobivé výsledky v rôznych benchmarkoch, ich výkon môže byť nekonzistentný. Táto nejednotnosť zdôrazňuje potrebu komplexnejšieho a systematickejšieho prístupu k hodnoteniu schopností umelej inteligencie.

Tagy: Turingov test, veľké jazykové modely, hodnotenie AI, logické hádanky

Tento článok bol pôvodne uverejnený v časopise Nature a jeho autorkou je Celeste Biever.

Zrieknutie sa zodpovednosti: Zhrnutie napísal ChatGPT.

author avatar
Daily AI Watch
See Full Bio
Tags: Hodnotenie AILLMLogická hádankaTuringov test
Next Post
Spoločnosť Disney využíva AI na zefektívnenie prevádzky a zníženie nákladov

VMware a NVIDIA spolupracujú na revolúcii podnikovej AI

Pridaj komentár Zrušiť odpoveď

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *

Recommended.

Amazon Ascends in AI: Introducing Olympus, the Two Trillion-Parameter LLM

Amazon Ascends in AI: Introducing Olympus, the Two Trillion-Parameter LLM

10. novembra 2023
AI Revolutionizes Chemistry: ‚Coscientist‘ Designs Nobel-Winning Reactions

AI Revolutionizes Chemistry: ‚Coscientist‘ Designs Nobel-Winning Reactions

2. januára 2024

Trending.

Preserving the Expertise of Retiring Employees, Hitachi Case Study

Preserving the Expertise of Retiring Employees, Hitachi Case Study

25. augusta 2023
The Hidden Labor Behind AI: Gig Workers Earning Minimal Pay

The Hidden Labor Behind AI: Gig Workers Earning Minimal Pay

17. októbra 2023
A Guide to Leveraging Large Language Models on Private Data

A Guide to Leveraging Large Language Models on Private Data

25. augusta 2023
Devin, AI News, LLM, Assistant

AI Software Engineer Devin Revolutionizes Coding

13. marca 2024
Germany, France, and Italy Unite on AI Regulation Framework

Germany, France, and Italy Unite on AI Regulation Framework

21. novembra 2023
  • Archive
  • Domov
  • Zásady ochrany osobných údajov
  • Zásady používania súborov cookie (EÚ)

© 2023 Lumina AI s.r.o.

No Result
View All Result
  • Archive
  • Language models
  • New Tech
  • Safety, Regulation & Ethics
  • Company tracker
    • Apple
    • Google
    • Meta
    • OpenAI

© 2023 Lumina AI s.r.o.

Welcome Back!

Sign In with Google
OR

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
Manage cookie consent
We use technologies like cookies to store and/or access device information. We do this to improve browsing experience and to show (non-) personalized ads. Consenting to these technologies will allow us to process data such as browsing behavior or unique IDs on this site. Not consenting or withdrawing consent, may adversely affect certain features and functions.
Functional Vždy aktívny
Technical storage or access is absolutely necessary for the legitimate purpose of enabling the use of a specific service that the participant or user has expressly requested, or for the sole purpose of carrying out the transmission of communication over an electronic communication network.
Preferences
The technical storage or access is necessary for the legitimate purpose of storing preferences that are not requested by the subscriber or user.
Statistics
A technical repository or access that is used exclusively for statistical purposes. The technical storage or access that is used exclusively for anonymous statistical purposes. Without a subpoena, voluntary compliance on the part of your Internet Service Provider, or additional records from a third party, information stored or retrieved for this purpose alone cannot usually be used to identify you.
Marketing
Technical storage or access is necessary to create user profiles to send advertising or track a user on a website or across websites for similar marketing purposes.
Spravovať možnosti Správa služieb Spravovať {vendor_count} dodávateľov Prečítajte si viac o týchto účeloch
Show preferences
{title} {title} {title}
Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?