TurboQuant: l’algoritmo Google che velocizza l’inferenza AI
La crescita dei modelli linguistici di grandi dimensioni ha reso sempre più evidente un limite strutturale dell’infrastruttura AI: la gestione della memoria durante l’inferenza. In particolare, l’espansione delle finestre di…