Indice
Utente:Recursing/Allineamento dell'intelligenza artificiale
La ricerca sull'allineamento dell'intelligenza artificiale mira a indirizzare i sistemi di intelligenza artificiale (IA) verso gli obiettivi e gli interessi dei loro sviluppatori.[1]
Un sistema di intelligenza artificiale allineato porta avanti gli obiettivi previsti dai suoi creatori; un sistema di intelligenza artificiale disallineato è competente nel portare avanti qualche obiettivo, ma non quelli previsti.[2] La distinzione tra IA disallineata e IA incompetente è stata formalizzata in determinati contesti.[3]
L'allineamento di sistemi di intelligenza artificiale può essere difficile. I sistemi non allineati possono funzionare male o causare danni. Per i progettisti di IA può essere difficile specificare l'intera gamma di comportamenti desiderati e indesiderati. Se quindi si utilizzano obiettivi più facili da specificare che omettono alcuni vincoli desiderati, i sistemi di IA possono sfruttare le limitazioni che ne derivano. Di conseguenza, tali sistemi raggiungono i loro obiettivi in modo efficiente, ma in modi non voluti e talvolta dannosi ("reward hacking"). [2] [4] [5] [6]
I sistemi di intelligenza artificiale possono anche sviluppare comportamenti indesiderati, come accumulare risorse, poiché sono strumentali nel raggiungere i loro obiettivi. [2] [7] [5] [4] Inoltre, possono sviluppare obiettivi emergenti che possono essere difficili da individuare prima che il sistema venga impiegato, quando si trova ad affrontare nuove situazioni e distribuzioni di dati. [5] [3]
Questi problemi interessano i sistemi commerciali esistenti come robot, [8] modelli linguistici, [9] [10] [11] veicoli autonomi, [12] e sistemi di raccomandazione dei contenuti sui social media. [9] [4] [13] Sistemi futuri più potenti potrebbero essere più soggetti a questi problemi, siccome derivano in parte dall'elevata capacità dei sistemi. [6] [2]
La comunità di ricerca sull'IA e le Nazioni Unite hanno chiesto ricerca tecnica e soluzioni politiche per garantire che i sistemi di intelligenza artificiale siano allineati con i valori umani. Il rapporto del Segretario Generale delle Nazioni Unite “Our Common Agenda“, [14] rileva che “potrebbe anche promuovere la regolamentazione dell'intelligenza artificiale per garantire che sia in linea con i valori globali condivisi" e discute i rischi catastrofici globali derivanti dagli sviluppi tecnologici.
L'allineamento dell'IA è un sottocampo della sicurezza dell'IA, lo studio di come costruire sistemi di intelligenza artificiale sicuri. [15] Gli obiettivi di questo campo di ricerca includono l'instillazione di valori complessi nell'IA, lo sviluppo di un'IA onesta, una supervisione scalabile, l'interpretazione dei modelli di intelligenza artificiale e la prevenzione di comportamenti emergenti dell'IA come la ricerca del potere. [5] [16] La ricerca sull'allineamento ha collegamenti con la ricerca sull'interpretabilità, [17] [18] robustezza, [5] [15] rilevamento di anomalie, [17] verifica formale, [19] apprendimento delle preferenze, [20] [21] [22] sicurezza - ingegneria critica, [5] teoria dei giochi, [23] [24] equità algoritmica, [15] [25] e scienze sociali, [26] tra gli altri.
Il problema dell'allineamento
[modifica | modifica wikitesto]Nel 1960, il pioniere dell'IA Norbert Wiener ha descritto il problema dell'allineamento in questo modo: "Se utilizziamo, per raggiungere i nostri scopi, un agente meccanico (mi convince poco. originale mechanical agency) con il cui funzionamento non possiamo interferire efficacemente... è meglio essere sicuri che lo scopo inserito nella macchina sia quello che desideriamo veramente". L'allineamento dell'IA è un problema aperto per i moderni sistemi di IA e un campo di ricerca.
[[Categoria:Neuroscienze computazionali]]
[[Categoria:Intelligenza artificiale]]
- ^ Iason Gabriel, Artificial Intelligence, Values, and Alignment, in Minds and Machines, vol. 30, n. 3, 1º settembre 2020, pp. 411–437, DOI:10.1007/s11023-020-09539-2. URL consultato il 23 luglio 2022.
- ^ a b c d 4th, 2020, pp. 31–34, ISBN 978-1-292-40113-3, OCLC 1303900751, https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html. Errore nelle note: Tag
<ref>
non valido; il nome ":92" è stato definito più volte con contenuti diversi - ^ a b vol. 162. Errore nelle note: Tag
<ref>
non valido; il nome "goal_misgen" è stato definito più volte con contenuti diversi - ^ a b c 2020, ISBN 9780525558637, OCLC 1113410915, https://www.penguinrandomhouse.com/books/566677/human-compatible-by-stuart-russell/. Errore nelle note: Tag
<ref>
non valido; il nome ":210" è stato definito più volte con contenuti diversi - ^ a b c d e f Template:Cite arXiv
- ^ a b https://openreview.net/forum?id=JYtwGwIL7ye. Errore nelle note: Tag
<ref>
non valido; il nome ":1522" è stato definito più volte con contenuti diversi - ^ Template:Cite arXiv
- ^ vol. 32, DOI:10.1177/0278364913495721, https://oadoi.org/10.1177/0278364913495721.
- ^ a b
- ^ Template:Cite arXiv
- ^ openai.com, https://openai.com/blog/openai-codex/ .
- ^
- ^ vol. 3, DOI:10.1007/s42413-020-00086-3, https://oadoi.org/10.1007/s42413-020-00086-3.
- ^ Template:Cite report
- ^ a b c Template:Cite arXiv
- ^ deepmindsafetyresearch.medium.com, https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 .
- ^ a b quantamagazine.org, https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/ .
- ^ Template:Cite arXiv
- ^ vol. 36, DOI:10.1609/aimag.v36i4.2577, https://oadoi.org/10.1609/aimag.v36i4.2577.
- ^ vol. 18.
- ^ ISBN 978-1-5108-6096-4.
- ^ technologyreview.com, https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/ .
- ^ longtermrisk.org, https://longtermrisk.org/research-agenda/ .
- ^ vol. 593, DOI:10.1038/d41586-021-01170-0, https://oadoi.org/10.1038/d41586-021-01170-0.
- ^ DOI:10.1145/3375627.3375803, https://oadoi.org/10.1145/3375627.3375803.
- ^ vol. 4, DOI:10.23915/distill.00014, https://oadoi.org/10.23915/distill.00014.
- ^ (EN) OpenAI, https://openai.com/blog/faulty-reward-functions/ . URL consultato il 10 settembre 2022.