L’idea è quella di portare un esempio concreto di utilizzo di inferenza eseguita localmente sul dispositivo mobile e vedere se è possibile eseguire semplici task senza ricorrere al cloud.
I Large Language Models sono oggi quasi sempre utilizzati tramite servizi cloud, con costi, latenza e implicazioni sulla privacy. Ma è davvero necessario essere sempre connessi?
In questo talk vedremo come eseguire LLM direttamente su smartphone, completamente offline. Analizzeremo vantaggi e limiti dell’inferenza on-device e mostreremo una demo reale che integra un modello linguistico locale.