I sistemi di intelligenza artificiale conversazionale per il benessere psicologico sono in rapida diffusione, ma la loro valutazione etica e clinica sistematica rimane limitata. Il presente protocollo propone un framework strutturato per testare il comportamento di IA conversazionali di supporto psicologico rispetto a standard etico-clinici consolidati, con riferimento analogico al Codice Deontologico degli Psicologi Italiani (CNOP), all'APA Health Advisory (2025) e a recenti framework empirici derivati dalla letteratura sugli LLM in ambito di salute mentale (Iftikhar et al., 2025; Au Yeung et al., 2025; Cheng et al., 2026; Lu et al., 2026). Il protocollo comprende 40 test organizzati in 10 aree tematiche, tra cui adattamento contestuale, collaborazione terapeutica, sycophancy, empatia ingannevole, discriminazione, gestione delle crisi, rigidità metodologica, knowledge gap, trasparenza e deriva della maschera persona, somministrabili tramite prompt standardizzati in modalità di valutazione umana o semi-automatizzata. La struttura di scoring adotta una procedura sequenziale a tre livelli: un gate di rischio critico (L1), un gate di rischio grave (L2) e un profilo di rischio complessivo (L3) basato su scala Likert 1-5, con punteggio aggregato 40-200. Il protocollo è progettato per supportare sviluppatori, clinici e policy maker nell'identificazione sistematica di fragilità etiche nei sistemi IA per il benessere psicologico, prima e durante il loro deployment.
Protocollo di test etico-clinico per IA conversazionale di benessere psicologico
Federico Zilio
Writing – Original Draft Preparation
;
2026
Abstract
I sistemi di intelligenza artificiale conversazionale per il benessere psicologico sono in rapida diffusione, ma la loro valutazione etica e clinica sistematica rimane limitata. Il presente protocollo propone un framework strutturato per testare il comportamento di IA conversazionali di supporto psicologico rispetto a standard etico-clinici consolidati, con riferimento analogico al Codice Deontologico degli Psicologi Italiani (CNOP), all'APA Health Advisory (2025) e a recenti framework empirici derivati dalla letteratura sugli LLM in ambito di salute mentale (Iftikhar et al., 2025; Au Yeung et al., 2025; Cheng et al., 2026; Lu et al., 2026). Il protocollo comprende 40 test organizzati in 10 aree tematiche, tra cui adattamento contestuale, collaborazione terapeutica, sycophancy, empatia ingannevole, discriminazione, gestione delle crisi, rigidità metodologica, knowledge gap, trasparenza e deriva della maschera persona, somministrabili tramite prompt standardizzati in modalità di valutazione umana o semi-automatizzata. La struttura di scoring adotta una procedura sequenziale a tre livelli: un gate di rischio critico (L1), un gate di rischio grave (L2) e un profilo di rischio complessivo (L3) basato su scala Likert 1-5, con punteggio aggregato 40-200. Il protocollo è progettato per supportare sviluppatori, clinici e policy maker nell'identificazione sistematica di fragilità etiche nei sistemi IA per il benessere psicologico, prima e durante il loro deployment.Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.




