Eseguire LLM e ML in locale è ormai pratico, ma mancano numeri comparabili sulle prestazioni reali. Presento una suite Python open source che misura la velocità di inferenza LLM e di training tabulare, più una pipeline end-to-end a 0€ per raccogliere e pubblicare i risultati della community.
Oggi troviamo ovunque benchmark di accuratezza per modelli open di AI, ma quasi nessuno che dica, in modo riproducibile e realistico, quanto andranno veloci sulla tua macchina - un aspetto fondamentale per usarli per davvero e magari dimenticare le soluzioni delle Big Tech. I benchmark hardware tradizionali sono spesso sintetici (FLOPs), autodichiarati dai produttori o comunque poco aggiornati rispetto ai tool che usiamo davvero in locale.
Questo progetto nasce per rispondere ad una domanda concreta: quanto rende davvero la mia CPU/GPU su workload AI/ML reali? Tutto è partito come semplice “side project” per rispondere alla mia curiosità. Da lì è nata l’idea di facilitare la condivisione e il coinvolgimento di tanti appassionati, grazie ad una pipeline end-to-end (basata solo su free tiers, a 0€) che permette a chiunque di contribuire con i propri risultati ad una community leaderboard.
La suite di benchmark (open source, su Github) misura due scenari molto comuni:
Tutto è definito in un singolo file YAML (modelli LLM da usare, dimensioni del dataset, uso CPU/GPU, ripetizioni). Un comando CLI esegue l’intera suite, ripete i test automaticamente e produce report riassuntivi immediatamente visibili in un notebook.
La parte più interessante - che è anche il cuore del talk - è mostrare come ho trasformato questo benchmark locale in una pipeline riproducibile e condivisibile, usando solo servizi gratuiti, con:
Perché penso che tutto questo sia utile? Innanzitutto, per offrire numeri realistici per decidere se/quanto conviene investire in una GPU per AI locale. Poi il progetto nel suo insieme mostra una blueprint concreta per operativizzare pipeline di valutazione/benchmarking senza infrastruttura pesante. Da ultimo, è un bell’esempio che dimostra che si può costruire un data product comunitario a costo zero (0€) usando pattern CI/serverless.
L’obiettivo è che chi ascolti si porti a casa:
Alberto Danese è Head of Data Science in Nexi, tra i maggiori player europei dei pagamenti digitali. Guida un team di data scientist e ingegneri che sviluppa prodotti di machine learning in produzione e soluzioni data-driven per il settore payments, con attenzione a scalabilità e impatto misurabile.
Ha oltre 15 anni di esperienza nei servizi finanziari: ha iniziato come consulente per grandi banche italiane su sicurezza IT, antiriciclaggio e prevenzione frodi, passando poi alla credit information ed infine ai pagamenti digitali, dove applica ML avanzato a problemi reali su larga scala.
È laureato in Ingegneria Informatica al Politecnico di Milano ed è un Kaggle Competitions Grandmaster. Condivide regolarmente esperienze e progetti tramite talk ad eventi ed meetup, oltre che con la scrittura (grazie al suo blog All About Data e due libri pubblicati negli ultimi anni).