Meta rilascia un'intelligenza artificiale generativa per creare musica e suoni • The Register

Mercoledì Meta ha rilasciato AudioCraft, un set di tre modelli di intelligenza artificiale in grado di creare automaticamente suoni dalle descrizioni dei testi.

Mentre i modelli di intelligenza artificiale generativa che accettano istruzioni scritte e le trasformano in immagini o altro testo continuano a maturare, gli scienziati informatici stanno cercando di creare altre forme di media utilizzando l’apprendimento automatico.

L’audio è difficile per i sistemi di intelligenza artificiale, in particolare la musica, poiché il software deve imparare a produrre modelli coerenti per un certo numero di minuti ed essere abbastanza creativo da generare qualcosa di orecchiabile o piacevole da ascoltare.

"Una tipica traccia musicale di pochi minuti campionata a 44,1 kHz (che è la qualità standard delle registrazioni musicali) è composta da milioni di passi temporali", ha spiegato il Team Meta. Vale a dire, un modello di generazione audio deve produrre molti dati per costruire una traccia a misura d'uomo.

"In confronto, i modelli generativi basati su testo come Llama e Llama 2 vengono alimentati con testo elaborato come sottoparole che rappresentano solo poche migliaia di passaggi temporali per campione."

Il colosso di Facebook prevede che le persone utilizzino AudioCraft per sperimentare la creazione di suoni generati dal computer senza dover imparare a suonare alcuno strumento. Il toolkit è composto da tre modelli: MusicGen, AudioGen ed EnCodec.

MusicGen è stato addestrato su 20.000 ore di registrazioni, di proprietà o concesse in licenza da Meta, insieme alle corrispondenti descrizioni di testo. AudioGen è più focalizzato sulla generazione di effetti sonori piuttosto che sulla musica ed è stato addestrato su dati pubblici. Infine, EnCodec è descritto come un codec neurale con perdita in grado di comprimere e decomprimere segnali audio con alta fedeltà.

Meta ha detto che si trattava di AudioCraft "open source", e in una certa misura lo è. Il software necessario per creare e addestrare i modelli ed eseguire l'inferenza è disponibile con una licenza MIT open source. Il codice può essere utilizzato in applicazioni gratuite (come in Freedom e Free Beer) e commerciali, nonché in progetti di ricerca.

Detto questo, i pesi del modello non sono open source. Sono condivisi sotto una licenza Creative Commons che vieta specificamente l'uso commerciale. Come abbiamo visto con Llama 2, ogni volta che Meta parla di cose di open source, controlla le clausole scritte in piccolo.

MusicGen e AudioGen generano suoni in base a una richiesta di testo di input. Puoi ascoltare brevi clip creati dalle descrizioni "fischio con il vento che soffia" e "traccia pop dance con melodie accattivanti, percussioni tropicali e ritmi allegri, perfetti per la spiaggia" sulla landing page AudioCraft di Meta, qui.

I brevi effetti sonori sono realistici, anche se secondo noi quelli tipo musica non sono eccezionali. Suonano come jingle ripetitivi e generici per musica scadente o canzoni da ascensore piuttosto che singoli di successo.

I ricercatori di Meta hanno affermato che AudioGen – descritto in modo approfondito qui – è stato addestrato convertendo l’audio grezzo in una sequenza di token e ricostruendo l’input trasformandoli nuovamente in audio ad alta fedeltà. Un modello linguistico mappa i frammenti del testo di input nei token audio per apprendere la correlazione tra parole e suoni. MusicGen è stato addestrato utilizzando un processo simile su campioni musicali anziché su effetti sonori.

"Piuttosto che mantenere il lavoro come una scatola nera impenetrabile, essere aperti su come sviluppiamo questi modelli e garantire che siano facili da usare per le persone - che si tratti di ricercatori o della comunità musicale nel suo complesso - aiuta le persone a capire cosa possono fare questi modelli fare, capire cosa non possono fare e avere il potere di usarli effettivamente", ha affermato il Team Meta.

"In futuro, l'intelligenza artificiale generativa potrebbe aiutare le persone a migliorare notevolmente i tempi di iterazione consentendo loro di ottenere feedback più velocemente durante le prime fasi di prototipazione e greyboxing, sia che si tratti di un grande sviluppatore che costruisce mondi per il metaverso, di un musicista (dilettante, professionista o altro). altrimenti) lavorando alla composizione successiva, o un imprenditore di piccole o medie dimensioni che cerca di migliorare il proprio patrimonio creativo."

Puoi recuperare il codice AudioCraft qui e sperimentare MusicGen qui e provarlo. ®

Mandaci notizie