Transformer per la Pratica Creativa.
Un breve modulo per studenti delle superiori sull'architettura di rete neurale che sta dietro a ChatGPT, Suno e Stable Diffusion — e su come stia cambiando cosa significa comporre musica o creare un'immagine.
Non è richiesta alcuna esperienza di machine learning. Servono dimestichezza con l'algebra di base e voglia di leggere uno schema. Alla fine del modulo sarai in grado di spiegare — ai tuoi genitori, al tuo insegnante di arte e a te stesso — cosa succede davvero quando un modello genera una canzone.
Piano delle lezioni
- 01Limiti e rischi: prima di usare un LLMAllucinazioni, bias, impatto ambientale del training, copyright e lavoro creativo: cosa sapere prima di toccare un LLM.leggi →
- 02Fondamenti: cos'è un Modello Linguistico?Cosa sono i modelli linguistici, come sono stati addestrati e perché di colpo sono diventati così bravi.leggi →
- 03Il meccanismo di AttenzioneL'unica idea matematica — l'attenzione — che ha reso possibile il Transformer. Include l'explainer interattivo del Polo Club.leggi →
- 04Dentro il Transformer (3D)Un tour 3D interattivo di ogni blocco dell'architettura originale, affiancato da un vero GPT-2 in esecuzione.leggi →
- 05Applicazioni: Musica e Arti VisiveCome la stessa macchina genera musica per pianoforte, testi di canzoni e immagini.leggi →
- 06Caso di studio: ACE-StepACE-Step: un modello fondazionale open-source per la musica che si può leggere, eseguire e modificare.leggi →
Risorse interattive obbligatorie
Transformer Explainer
GPT-2 interattivo nel browser, di Cho et al. — Polo Club of Data Science, Georgia Tech (IEEE VIS 2024). Integrato nelle Lezioni 02 e 03.
The Illustrated Transformer
La spiegazione visiva di Jay Alammar, ormai uno standard didattico mondiale: ogni passaggio di Q/K/V mostrato con diagrammi animati.
LLM Visualization
Brendan Bycroft ricostruisce in 3D l'intera esecuzione di un LLM (nano-GPT, GPT-2, GPT-3): si scorre dentro le matrici, token per token.
Obiettivi di apprendimento
- Definire con parole proprie token, embedding, testa di attenzione e decoder.
- Leggere il diagramma originale del Transformer e identificare la funzione di ogni blocco.
- Spiegare perché un modello musicale e un chatbot possono condividere la stessa architettura.
- Analizzare criticamente le implicazioni artistiche ed etiche dell'addestramento su opere esistenti.
- Eseguire un modello musicale open-source (ACE-Step) e descriverne il funzionamento.
- Usare uno strumento generativo per produrre un breve brano musicale o visivo, documentando i prompt.