• Archive
  • Language models
  • New Tech
  • Safety, Regulation & Ethics
  • Company tracker
    • Apple
    • Google
    • Meta
    • OpenAI
No Result
View All Result
  • Slovenčina
    • English (Angličtina)
  • Archive
  • Language models
  • New Tech
  • Safety, Regulation & Ethics
  • Company tracker
    • Apple
    • Google
    • Meta
    • OpenAI
No Result
View All Result
Daily AI Watch
No Result
View All Result

Prepracovanie Turingovho testu: Hľadanie nových metrík hodnotenia umelej inteligencie

Daily AI Watch by Daily AI Watch
24. augusta 2023
0 1
Prepracovanie Turingovho testu: Hľadanie nových metrík hodnotenia umelej inteligencie
5
VIEWS
Share on FacebookShare on Twitter

Turingov test a moderná umelá inteligencia
Turingov test, ktorý navrhol Alan Turing v roku 1950, bol dlho zlatým štandardom na hodnotenie strojovej inteligencie. Ľudskí sudcovia vedú textové rozhovory so skrytým počítačom a neviditeľnou osobou a snažia sa rozoznať, ktorý z nich je stroj. S príchodom veľkých jazykových modelov (LLM), ako je GPT-4, sa však mnohí domnievajú, že tieto modely by teraz mohli prejsť populárnou koncepciou Turingovho testu. V hre založenej na Turingovom teste dokázali hráči správne identifikovať botov len v 60 % prípadov, čo naznačuje, že rozlišovanie medzi ľuďmi a LLM je čoraz náročnejšie.

Výzva na riešenie logických hádaniek
Napriek svojej jazykovej zdatnosti majú LLM ako GPT-4 problémy s vizuálnymi logickými hádankami. V teste s farebnými blokmi usporiadanými na obrazovke dokázal GPT-4 správne vyriešiť len časť hádaniek. Tento rozdiel poukazuje na potrebu lepších referenčných hodnôt na hodnotenie systémov umelej inteligencie. Počítačová vedkyňa Melanie Mitchellová a jej tím vyvinuli logické hádanky, ktoré umožňujú komplexnejšie posúdenie schopností umelej inteligencie. Ich výsledky ukázali, že kým ľudia dosiahli vo všetkých skupinách pojmov v priemere 91 %, GPT-4 dosiahol v jednej skupine len 33 % a v ostatných menej ako 30 %.

Diskusia o schopnostiach LLM
Medzi výskumníkmi panuje rozkol, pokiaľ ide o schopnosti LLM. Niektorí sa domnievajú, že tieto modely vykazujú známky uvažovania alebo porozumenia, zatiaľ čo iní sú skeptickejší. Testy, ako sú logické hádanky, môžu pomôcť objasniť rozdiely medzi schopnosťami človeka a umelej inteligencie. Spôsob, akým sa tieto testy vykonávajú, však nemusí vždy poskytovať spravodlivé porovnanie. Napríklad GPT-4 dostával polia čísel predstavujúcich obrázky, zatiaľ čo ľudskí účastníci si pozerali skutočné obrázky.

Pohľad za hranice Turingovho testu
Zameranie Turingovho testu na klamanie viedlo niektorých k spochybňovaniu jeho užitočnosti. Namiesto toho sa výskumníci zameriavajú na konkrétne kritériá na hodnotenie systémov umelej inteligencie z hľadiska jazykových schopností, uvažovania a ďalších schopností. Hoci LLM ako GPT-4 vykazujú pôsobivé výsledky v rôznych benchmarkoch, ich výkon môže byť nekonzistentný. Táto nejednotnosť zdôrazňuje potrebu komplexnejšieho a systematickejšieho prístupu k hodnoteniu schopností umelej inteligencie.

Tagy: Turingov test, veľké jazykové modely, hodnotenie AI, logické hádanky

Tento článok bol pôvodne uverejnený v časopise Nature a jeho autorkou je Celeste Biever.

Zrieknutie sa zodpovednosti: Zhrnutie napísal ChatGPT.

author avatar
Daily AI Watch
See Full Bio
Tags: Hodnotenie AILLMLogická hádankaTuringov test
Next Post
Spoločnosť Disney využíva AI na zefektívnenie prevádzky a zníženie nákladov

VMware a NVIDIA spolupracujú na revolúcii podnikovej AI

Pridaj komentár Zrušiť odpoveď

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *

Recommended.

Siemens a Nvidia spolupracujú na vytvorení digitálnych dvojčiat pre veterné farmy poháňaných umelou inteligenciou

Siemens a Nvidia spolupracujú na vytvorení digitálnych dvojčiat pre veterné farmy poháňaných umelou inteligenciou

22. augusta 2023
Iniciatíva spoločnosti Hitachi v oblasti umelej inteligencie: Zachovanie odborných znalostí zamestnancov odchádzajúcich do dôchodku

Globálne investície do umelej inteligencie by mali do roku 2025 dosiahnuť takmer 200 miliárd USD

31. augusta 2023

Trending.

Devin, AI News, LLM, Assistant

AI Software Engineer Devin Revolutionizes Coding

13. marca 2024
Hugging Face a IBM spolupracujú na štúdiu novej generácie umelej inteligencie Watsonx.ai

Úloha umelej inteligencie pri pomoci pri katastrofách: Prípadová štúdia zemetrasení v Turecku a Sýrii

18. augusta 2023
Klarna, AI News, AI Assistant

Klarna: AI Powered Customer Service (Revolution?)

6. marca 2024
Využitie sily veľkých jazykových modelov na vlastných údajoch

Využitie sily veľkých jazykových modelov na vlastných údajoch

25. augusta 2023
Job replacement, AI News, White collar

AI Impact on White-Collar Jobs

13. februára 2024
  • Archive
  • Domov
  • Zásady ochrany osobných údajov
  • Zásady používania súborov cookie (EÚ)

© 2023 Lumina AI s.r.o.

No Result
View All Result
  • Archive
  • Language models
  • New Tech
  • Safety, Regulation & Ethics
  • Company tracker
    • Apple
    • Google
    • Meta
    • OpenAI

© 2023 Lumina AI s.r.o.

Welcome Back!

Sign In with Google
OR

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
Manage cookie consent
We use technologies like cookies to store and/or access device information. We do this to improve browsing experience and to show (non-) personalized ads. Consenting to these technologies will allow us to process data such as browsing behavior or unique IDs on this site. Not consenting or withdrawing consent, may adversely affect certain features and functions.
Functional Vždy aktívny
Technical storage or access is absolutely necessary for the legitimate purpose of enabling the use of a specific service that the participant or user has expressly requested, or for the sole purpose of carrying out the transmission of communication over an electronic communication network.
Preferences
The technical storage or access is necessary for the legitimate purpose of storing preferences that are not requested by the subscriber or user.
Statistics
A technical repository or access that is used exclusively for statistical purposes. The technical storage or access that is used exclusively for anonymous statistical purposes. Without a subpoena, voluntary compliance on the part of your Internet Service Provider, or additional records from a third party, information stored or retrieved for this purpose alone cannot usually be used to identify you.
Marketing
Technical storage or access is necessary to create user profiles to send advertising or track a user on a website or across websites for similar marketing purposes.
Spravovať možnosti Správa služieb Spravovať {vendor_count} dodávateľov Prečítajte si viac o týchto účeloch
Show preferences
{title} {title} {title}
Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?