HomeEtica e InnovazioneLe otto grandi famiglie di Intelligenza Artificiale

Le otto grandi famiglie di Intelligenza Artificiale

Le famiglie di intelligenza artificiale non sono tutte uguali: alcune servono a comprendere e generare testo, altre a leggere immagini e video, altre ancora a compiere azioni o a segmentare oggetti. Capirle bene aiuta a scegliere il modello giusto e a costruire applicativi davvero utili.

Quando si parla di AI, spesso si fa l’errore di usare un’unica etichetta per tecnologie molto diverse tra loro. In realtà esistono varie famiglie di intelligenza artificiale, e ciascuna ha punti di forza, limiti e contesti d’uso specifici. Alcune sono nate per lavorare sul linguaggio, altre sulla visione artificiale, altre ancora sull’automazione operativa o sulla segmentazione delle immagini. Per chi sviluppa applicativi reali, questa distinzione non è teorica: è una scelta che incide direttamente su costi, qualità, stabilità e tempi di progetto.

Le principali famiglie di intelligenza artificiale che oggi ricorrono più spesso sono LLM, LCM, LAM, MoE, VLM, SLM, MLM e SAM. Non tutte indicano la stessa cosa: alcune sono famiglie vere e proprie di modelli, altre descrivono un approccio architetturale, altre ancora rappresentano direzioni di ricerca emergenti. Il punto fondamentale è che non si tratta di prodotti tutti equivalenti o in competizione diretta sullo stesso piano.

Nei progetti più seri, infatti, non si sceglie una sola AI “che faccia tutto”, ma si costruisce una filiera in cui ogni modello svolge la parte che gli riesce meglio. Un modulo visivo può leggere una scena, un sistema di segmentazione può isolare il target, un OCR può estrarre testo, un modello linguistico può trasformare l’output in una scheda leggibile e un agente operativo può infine scrivere tutto in un database o in un gestionale.

In questo articolo vedremo le famiglie di intelligenza artificiale in modo pratico e con un taglio operativo. L’obiettivo è chiarire a cosa servono, chi le può usare, come si producono e come possono entrare davvero in progetti concreti come il riconoscimento della segnaletica stradale da dashcam, la lettura di codici a barre da drone, la catalogazione di pannelli fotovoltaici o la generazione di commenti tecnici su mappe NDVI e altri indicatori vegetazionali.

I diversi livelli di intelligenza artificiale

L’infografica da cui prende avvio questo ragionamento è utile perché mostra a colpo d’occhio otto etichette che oggi compaiono spesso quando si parla di AI. Va però letta con attenzione. Alcune sigle sono ormai standard e molto diffuse, come LLM, VLM, SLM, MLM, MoE e SAM. Altre, come LCM o LAM, sono in parte più recenti, meno uniformi nell’uso o più legate a una certa fase dell’evoluzione del settore.

Per questo motivo, parlare di famiglie di intelligenza artificiale non significa elencare otto prodotti equivalenti, ma capire otto modi diversi in cui l’AI può intervenire in una pipeline. Alcune famiglie descrivono il “cosa fa” il modello, altre il “come è costruito”, altre ancora il “tipo di capacità” che si vuole ottenere. È proprio qui che spesso nasce la confusione.

Tabella rapida sulle famiglie di intelligenza artificiale

Famiglia AI Che cosa fa in una frase Chi la usa più spesso Esempio tipico
LLM Capisce e genera testo Aziende, sviluppatori, consulenti Assistant, report, codice
LCM Lavora su concetti più alti del token Ricerca, R&D Recupero semantico avanzato
LAM Trasforma intenzioni in azioni Chi automatizza flussi Agenti che usano tool
MoE Smista il lavoro fra più esperti Vendor di foundation model Modelli grandi più efficienti
VLM Unisce immagini e linguaggio Computer vision, document AI, retail Analisi foto e video
SLM Porta l’AI su device o edge Chi vuole costi bassi e privacy Classificatori locali
MLM Predice parole mascherate e capisce contesto Search, NLP classico NER, classificazione
SAM Segmenta oggetti in immagini e video Visione artificiale Ritaglio automatico del target

Famiglie di intelligenza artificiale per il linguaggio: LLM

Quando si dice LLM, in sostanza si parla di modelli addestrati per lavorare molto bene con il linguaggio: capire istruzioni, riassumere, scrivere, tradurre, classificare, estrarre informazioni e generare testo utile. È la famiglia più nota perché è quella che l’utente incontra subito: chatbot, copiloti, assistenti, strumenti di scrittura e sistemi di supporto documentale.

Tra le famiglie di intelligenza artificiale, gli LLM sono particolarmente utili quando il problema finale ha una forte componente linguistica. Per esempio: compilare schede, produrre descrizioni coerenti, trasformare dati grezzi in testo leggibile, creare checklist, normalizzare campi, scrivere codice, costruire risposte ragionate o interrogare basi documentali.

Praticamente chiunque può usarli: dallo studio professionale che vuole produrre verbali e riepiloghi, fino all’azienda che costruisce assistenti verticali per procedure, ticketing, normativa o supporto interno. In genere si parte da un foundation model preaddestrato su grandi quantità di testo e codice, e poi si passa a una fase istruttiva con allineamento, fine-tuning, recupero documentale, guardrail, test e ottimizzazioni.

In uno scenario come Catasto Strade, un LLM non è il modello che “vede” il cartello. Quella parte la fanno meglio VLM, detector o OCR. L’LLM entra dopo: prende l’uscita tecnica, la trasforma in una scheda comprensibile, uniforma le descrizioni, riconosce casi incoerenti, suggerisce campi mancanti e aiuta a rendere il dato finale più pulito e spendibile.

Sul versante commerciale, oggi i nomi più citati sono le famiglie GPT di OpenAI, Claude di Anthropic e Gemini di Google. Sul versante open o open-weight i riferimenti più noti sono Meta Llama e vari modelli di Mistral AI.

Da ricordare: tra le famiglie di intelligenza artificiale, LLM vuol dire soprattutto linguaggio. Non è il miglior occhio del sistema, ma spesso è la miglior penna e il miglior normalizzatore.

Famiglie di intelligenza artificiale emergenti: LCM

LCM è una sigla meno consolidata rispetto a LLM. In questo articolo viene usata nel senso oggi più serio e documentato: Large Concept Models, cioè modelli che provano a ragionare non solo token per token ma anche a livello di concetti più alti, spesso rappresentati in uno spazio semantico di frase o di unità di significato.

Tra le famiglie di intelligenza artificiale, questa è una delle più promettenti quando il problema richiede una visione più concettuale del contenuto: recupero semantico, sintesi di blocchi informativi, passaggio da frasi a rappresentazioni più stabili, collegamento tra lingue o modalità diverse. In parole semplici, aiuta a lavorare meno sulla forma superficiale e più sul significato reale.

Oggi è una direzione interessante soprattutto per chi lavora in ricerca, R&D, retrieval avanzato, knowledge management multilingua, grandi archivi documentali o contenuti in cui il significato globale conta più del singolo termine. Nella pratica si parte da embedding robusti, corpora multilingua e obiettivi di training che privilegiano la coerenza di frase o di concetto.

Immagina un archivio di rilievi stradali o di report agricoli scritti in modo diverso da operatori diversi. Un LCM può aiutare a raggruppare descrizioni equivalenti anche se non usano le stesse parole: “segnale deteriorato”, “cartello usurato” e “pannello con pellicola degradata” possono essere ricondotti alla stessa problematica.

Tra i riferimenti più interessanti in ambito open c’è il lavoro pubblicato da Meta AI sui Large Concept Models.

Da ricordare: tra le famiglie di intelligenza artificiale, LCM è una frontiera più sperimentale. È utile conoscerla, ma conviene adottarla solo se il problema semantico è davvero centrale.

Famiglie di intelligenza artificiale che agiscono: LAM

LAM viene usato per indicare modelli o sistemi orientati non soltanto a capire una richiesta, ma a trasformarla in azione: cliccare, compilare, chiamare strumenti, muoversi dentro un’interfaccia, orchestrare passaggi. Più che produrre solo testo, il LAM fa succedere qualcosa.

Tra le famiglie di intelligenza artificiale, questa diventa utile quando il problema non finisce con una risposta sullo schermo. Per esempio: aprire un gestionale, estrarre campi, usare un software GIS, lanciare una procedura, interrogare servizi, rinominare file, creare pratiche, compilare moduli o pilotare un workflow di back office.

Può essere usata da studi tecnici, uffici amministrativi, aziende utility, società che fanno controllo qualità, manutenzione, logistica o document management. Nella pratica raramente si “addestra un LAM puro” da zero: più spesso si combina un modello forte su linguaggio e visione con un ambiente di strumenti, browser automation, API, funzioni, motori di pianificazione, vincoli, log, controlli umani e policy di sicurezza.

Nel tuo applicativo di catalogazione dei pannelli fotovoltaici da drone, un componente di tipo LAM può prendere il risultato del riconoscimento barcode, aprire il gestionale corretto, associare l’ID al pannello, verificare che il campo catastale o l’appezzamento siano coerenti, creare la scheda e gestire le eccezioni con revisione umana.

Sul mercato queste soluzioni vengono spesso presentate come agenti operativi, computer use o browser automation. In ambito commerciale rientrano servizi che permettono al modello di usare interfacce e tool. In ambito open sono diffusi framework e librerie agentiche.

Da ricordare: tra le famiglie di intelligenza artificiale, LAM non sostituisce la progettazione del processo. Senza regole, log e supervisione può compiere azioni sbagliate molto più in fretta.

Famiglie di intelligenza artificiale e architetture: MoE

MoE, cioè Mixture of Experts, non è una famiglia separata come VLM o SAM, ma una scelta architetturale. L’idea è semplice: invece di far lavorare sempre tutto il modello allo stesso modo, si usano più sottoreti specializzate e un meccanismo di routing decide quali attivare per ciascun input. In questo modo si cerca di aumentare capacità ed efficienza allo stesso tempo.

Tra le famiglie di intelligenza artificiale citate più spesso, MoE è quella che va letta come un “come è costruito il modello”, più che come un tipo di funzione finale. Serve soprattutto per scalare: è utile quando si vuole più capacità mantenendo tempi e costi più efficienti rispetto a un grande modello denso attivato per intero.

La usa soprattutto chi sviluppa foundation model o chi sceglie modelli già costruiti con questa architettura. Per l’utente finale è utile conoscerla perché aiuta a capire perché alcuni modelli risultino più efficienti o più rapidi a parità di prestazioni.

In una pipeline stradale nazionale, un modello MoE può essere utile dietro le quinte per gestire in modo più efficiente sottocompiti diversi, come testi, immagini, segnali o pattern specifici. Ma è una questione che resta soprattutto “sotto il cofano”.

Da ricordare: tra le famiglie di intelligenza artificiale, MoE non è qualcosa che l’utente usa da sola, ma una scelta di progettazione che può rendere i modelli più grandi e più efficienti.

Famiglie di intelligenza artificiale per immagini e video: VLM

VLM significa Vision Language Model. È una delle famiglie oggi più interessanti perché mette insieme due mondi: visione e linguaggio. In pratica il modello non si limita a descrivere un’immagine, ma cerca di collegare ciò che vede a una rappresentazione testuale utile, interrogabile e contestualizzata.

Tra le famiglie di intelligenza artificiale, questa è particolarmente preziosa quando bisogna lavorare con foto, video, documenti visivi, dashcam, droni, scene urbane, scaffali, pannelli tecnici o immagini satellitari e aeree. Serve per capire meglio la scena, dare un significato operativo a ciò che compare e costruire una descrizione coerente.

I VLM sono utili in computer vision, document AI, retail, ispezioni, monitoraggio visivo e automazione legata a immagini. Consentono di porre domande sulle immagini, validare anomalie, verificare se un oggetto è presente, se è leggibile, se è integro, se è coerente con il contesto.

Nel caso del riconoscimento della segnaletica stradale da dashcam, un VLM può osservare il frame e aiutare a capire non solo che tipo di segnale è presente, ma anche se è coperto dalla vegetazione, se è ruotato, sbiadito, in ombra o parzialmente nascosto. Nel caso della catalogazione dei pannelli fotovoltaici da drone, il modello può supportare il controllo preliminare: il pannello è davvero visibile? Il barcode è inquadrato? L’immagine è sufficiente per la lettura?

Tra i riferimenti utili sul tema rientrano le pagine di NVIDIA dedicate ai Vision Language Models.

Da ricordare: tra le famiglie di intelligenza artificiale, VLM è il punto di ingresso naturale quando il dato nasce da immagini o video ma deve essere interpretato con il supporto del linguaggio.

Famiglie di intelligenza artificiale leggere: SLM

SLM significa Small Language Models. L’idea alla base è molto concreta: non sempre serve un modello enorme. In molti casi è meglio avere un sistema più leggero, più rapido, più economico e più semplice da eseguire in locale o in ambienti edge.

Tra le famiglie di intelligenza artificiale, questa è particolarmente interessante quando il dato è sensibile, la connettività è limitata o i costi di inferenza devono restare contenuti. Può essere usata da team che vogliono AI sul campo, in mobilità, in officina, in cabina, su drone station, su PC tecnici non connessi sempre al cloud oppure in ambienti dove i dati non devono uscire.

In pratica si parte da architetture più compatte, dataset selezionati, quantizzazione, distillazione e ottimizzazioni per l’inferenza locale. Il vero vantaggio è che possono diventare moduli specifici: classificatore, correttore, compilatore di campi, motore di priorità o assistente locale.

Per il tuo flusso NDVI, uno SLM locale può non essere il cervello che calcola l’indice raster, perché quello resta affidato a Python e librerie geospaziali. Però può spiegare il risultato, generare commenti automatici sul vigore vegetativo, segnalare parcelle anomale e produrre schede testuali senza inviare dati sensibili fuori dalla macchina.

Uno dei riferimenti più espliciti in questo ambito è la famiglia Phi di Microsoft.

Da ricordare: tra le famiglie di intelligenza artificiale, SLM è spesso la scelta migliore quando il compito è stretto, il dato è sensibile e la macchina deve lavorare vicino al campo.

Famiglie di intelligenza artificiale per NLP classico: MLM

MLM significa Masked Language Models. È una famiglia storicamente importantissima. Invece di generare testo in modo autoregressivo come molti LLM moderni, questi modelli imparano spesso a prevedere parole mancanti all’interno di una frase. Questo li rende molto forti nella comprensione contestuale, nella classificazione e nell’estrazione di informazione.

Tra le famiglie di intelligenza artificiale, gli MLM restano molto utili in compiti come Named Entity Recognition, classificazione testuale, ricerca semantica, matching, deduplicazione, estrazione campi da documenti o frasi tecniche. Sono perfetti per chi lavora su NLP più classico e strutturato: archivi, protocolli, document management, email, classificazione ticket, enti con tassonomie o motori di ricerca interni.

Nel contesto Catasto Strade, un MLM può essere molto utile per normalizzare le descrizioni manuali scritte dagli operatori o per classificare automaticamente note testuali storiche. In un archivio agricolo può raggruppare rilievi per categoria di anomalia senza il costo di un grande modello conversazionale.

I riferimenti storici e pratici più importanti restano quelli della famiglia BERT e dei suoi discendenti.

Da ricordare: tra le famiglie di intelligenza artificiale, MLM resta ancora oggi una scelta sobria ed efficiente quando bisogna classificare testi tecnici, note o campi strutturati.

Famiglie di intelligenza artificiale per la segmentazione visiva: SAM

SAM è diventato un nome quasi iconico nella visione artificiale recente. L’idea di fondo è estremamente concreta: segmentare, cioè ritagliare con precisione oggetti o aree di interesse in un’immagine o in un video a partire da prompt visivi o testuali.

Tra le famiglie di intelligenza artificiale, questa è fondamentale quando il primo passo non è classificare ma isolare bene il target. Se vuoi leggere un cartello, un barcode, una targa tecnica, un pannello, una pianta, una chioma o un difetto, spesso conviene prima separare l’oggetto dal resto della scena.

SAM può essere usato da chiunque faccia computer vision pratica: ispezioni, agricoltura di precisione, infrastrutture, medical imaging, cartografia da immagini, droni o produzione industriale. In produzione diventa un eccellente “pre-processore intelligente”.

Nel caso della dashcam e della segnaletica, prima di chiedere a OCR o VLM di leggere un cartello, SAM può isolarlo dal palo, dagli alberi, dal cielo e dal rumore di fondo. Nel caso dei pannelli fotovoltaici da drone, può segmentare i moduli anche con prospettive non perfette, creando ritagli puliti su cui far lavorare lettura barcode, controllo difetti o classificazione.

I riferimenti più noti partono dai rilasci di Meta Segment Anything e dal relativo ecosistema open.

Da ricordare: tra le famiglie di intelligenza artificiale, SAM non basta da solo a riconoscere tutto, ma spesso aumenta moltissimo la qualità di ciò che viene letto o classificato dopo.

Come si combinano in un progetto reale

Famiglie di intelligenza artificiale nel Catasto Strade da dashcam

Acquisizione video con GPS, segmentazione del cartello o del segno, riconoscimento visivo della scena, OCR o detector per i dettagli fini, normalizzazione linguistica della scheda, controllo GIS e dashboard finale. In una pipeline simile, più famiglie di intelligenza artificiale collaborano in sequenza e ciascuna svolge un compito preciso.

Famiglie di intelligenza artificiale nella catalogazione dei pannelli solari da drone

Volo e georeferenziazione, isolamento del modulo, verifica che il target sia leggibile, lettura barcode o seriale, compilazione automatica del catalogo e gestione delle eccezioni con revisione umana. Anche qui il risultato non dipende da un solo modello, ma da una catena ben progettata.

Famiglie di intelligenza artificiale per NDVI, SAVI e indicatori vegetazionali

Calcolo raster in Python con librerie geospaziali, classificazione del vigore con machine learning classico o deep learning, spiegazione testuale del risultato, produzione di mappe, report e priorità di intervento. In questo scenario le famiglie di intelligenza artificiale entrano soprattutto come supporto interpretativo, classificatorio e documentale.

Chi dovrebbe usare quali famiglie di intelligenza artificiale

Un tecnico o una piccola struttura che parte oggi, in genere, fa bene a ragionare così:

  • se il problema è soprattutto testuale, conviene partire da LLM o SLM;
  • se il problema nasce da foto, video o documenti con immagini, conviene partire da VLM e SAM;
  • se il processo deve compiere azioni, bisogna aggiungere un livello LAM o agentico con regole forti;
  • se l’obiettivo è classificazione testuale efficiente, vale ancora la pena valutare MLM;
  • se si costruisce o si sceglie un foundation model grande, è utile capire se usa architettura MoE;
  • se si lavora su ricerca semantica evoluta e concetti, conviene tenere d’occhio LCM.

Errori da evitare

  • Pensare che una sola AI risolva tutto da sola.
  • Confondere il riconoscimento visivo con la scrittura del report finale.
  • Non validare i casi dubbi con soglie e revisione umana.
  • Scegliere un modello enorme quando basta un piccolo modello locale.
  • Ignorare licenze, privacy, tempi di risposta e costo per inferenza.
  • Non progettare bene dataset, logging e controllo qualità.

Conclusioni

La vera maturità, oggi, non sta nel conoscere l’ultima sigla di moda. Sta nel saper comporre bene gli strumenti. Un sistema che riconosce segnaletica da dashcam, legge barcode da drone o commenta automaticamente una mappa NDVI non nasce quasi mai da un solo modello. Nasce da una catena: un occhio che vede, una mano che isola, una mente che interpreta, un linguaggio che spiega e un agente che organizza.

In questo senso, LLM, LCM, LAM, MoE, VLM, SLM, MLM e SAM non sono etichette da collezionare, ma pezzi di una cassetta degli attrezzi. Capire quando usare una o l’altra tra le famiglie di intelligenza artificiale significa progettare meglio, spendere meglio e ottenere risultati più solidi.

  • Fonti essenziali e riferimenti ufficiali
Leggi anche:
Esri Italia luglio 2024
Conferenza Esri Italia 2026
ARTE Associazione Reseller e Trader Energia 2026.

POST CORRELATI DA CATEGORIA

Conferenza Esri Italia 2026

ULTIMI POST

StudioSIT luglio2025 numeri civici
Gruppo Enercom
Speciale Startup Easy Italiaspot_img