Fonte: www.cnbc.com/finance/
La ricerca di Patronus AI rivela le notevoli difficoltà incontrate dai modelli linguistici di grandi dimensioni (LLM), come GPT-4-Turbo di OpenAI, nel comprendere accuratamente i documenti della Securities and Exchange Commission (SEC). Anche con l’accesso all’intera documentazione, il modello più performante ha ottenuto solo il 79% di accuratezza nel test di Patronus AI.
In un contesto di forte integrazione dell’IA nella finanza, società come Bloomberg e JPMorgan hanno esplorato l’IA per i dati finanziari e gli investimenti automatizzati. Tuttavia, sono emersi problemi con la Bing Chat di Microsoft che utilizza GPT, dove sono state riscontrate imprecisioni nel riassumere i comunicati stampa sugli utili.
Patronus AI ha ricevuto finanziamenti per automatizzare i test LLM, creando FinanceBench, un set di dati con oltre 10.000 domande tratte dai documenti della SEC. In questo modo si affronta l’attuale processo di valutazione manuale, descritto da alcuni come un “vibes check” soggettivo.
Test e risultati
Sono stati testati quattro modelli: GPT-4 e GPT-4-Turbo di OpenAI, Claude 2 di Anthropic e Llama 2 di Meta. GPT-4-Turbo ha faticato in un test “closed book”, raggiungendo un tasso di fallimento dell’88%. In modalità “Oracle”, accedendo alla documentazione di fonte SEC, è migliorato fino a raggiungere un tasso di precisione dell’85%. Claude 2 di Anthropic ha ottenuto buoni risultati con un contesto esteso, rispondendo con il 75% di precisione. Tuttavia, anche quando i modelli hanno prodotto risposte corrette, Patronus AI ha trovato un margine di errore inaccettabile, in particolare nei settori regolamentati. Llama 2, un modello di intelligenza artificiale open-source sviluppato da Meta, ha avuto alcune delle peggiori allucinazioni, producendo risposte sbagliate nel 70% dei casi e risposte corrette solo nel 19% dei casi.
Nonostante i progressi, sono evidenti i limiti dei LLM nell’elaborazione accurata delle informazioni finanziarie, soprattutto in contesti normativi. Patronus AI sottolinea la necessità di un coinvolgimento umano per garantire l’accuratezza e la conformità. Prevede continui miglioramenti nei modelli, ma sottolinea l’attuale necessità di una supervisione umana nelle applicazioni finanziarie dell’IA, in linea con le linee guida di OpenAI sulla consulenza finanziaria.