Från labbet

Music Quiz med Stable Diffusion

En ny tvist på den alltid lika populära musikquizen: en bildbaserad version styrd av Stable Diffusion AI tillsammans med API från bland annat Spotify.

Tech used

  • AI
  • Stable Diffusion
  • API

Press to view video

Bakgrund och problem

Vi var sugna på att testa den populära AI-algoritmen Stable Diffusion som bygger på öppen källkod och översätter text till bild. Vi ville undersöka hur den här väldigt tekniska tjänsten kunde användas på ett sätt som var greppbart och användbart för den större allmänheten.

Vi kom fram till att vidareutveckla det populära konceptet med en musikquiz genom att göra den bildbaserad. Utgångspunkten var att använda sångtitlar, artistnamn och refränger och med hjälp av Stable Diffusion generera bilder för att ta fram en frågesport där spelaren får gissa rätt låt.

Ide och lösning

Vår lösning blev en AI-bildbaserad musikquiz som bygger på Stable Diffusion. Spellogiken bygger på att du väljer hur många låtar du vill ha med i frågesporten, startar upp spelet och ser hur låttitlar, artistnamn eller texten i refrängen omvandlas till bilder på skärmen (med hjälp av den populära AI-algoritmen Stable Diffusion).

Implementation och resultat

Vi bestämde oss för att använda en ganska ny maskininlärningsmodell för att skapa bilder från naturliga språkuppmaningar. Rent praktiskt tar vi alltså artistens namn, titeln på låten eller texten från refrängen och lägger in som text i Stable Diffusion-algoritmen. Tillbaka får vi en bild som genereras av algoritmen. Bilderna kan sedan användas och spelas upp som ett musikquiz.

Som exempel skulle låten "Eye of the tiger" förmodligen visualiseras med olika närbilder av tigerögon. Spelaren får poäng baserat på hur många bilder som behöver visas innan man gissar rätt låt. Om du gissar rätt redan på första bilden får du tio poäng; behöver du se två bilder får du åtta poäng, och så vidare.

Spellistorna hämtas från Spotify med hjälp av Spotify API. Sedan används ett API från Genious för att kolla upp texterna. Texterna används sedan i Stable Diffusion för att generera bilderna. Utöver det har vi även skapat en frontend för själva spelet.

Insikter och reflektioner

En del av utmaningen var att skapa ett faktiskt spel, det vill säga att göra musikfrågesporten spelbar för en användare. Det förvånade oss lite hur mycket arbete det faktiskt krävde, trots att vi valde att använda oss av ganska enkel teknik som vi dessutom kände till sedan tidigare.

En nyckeldel av projektet var att kunna använda Stable Diffusion för något som var roligt för alla. Om vi ska vara ärliga blev vi lite förvånade över hur bra slutresultatet faktiskt blev.

Om vi fick möjlighet att fortsätta utveckla prototypen hade fokus lagts på att förbättra själva spelupplevelsen, genom att minimera förseningar och korta ned vänttider. Det hade också varit intressant att utforska hur lösningen hade kunnat användas för andra kategorier, t.ex. att skapa frågesporter om olika filmer, varumärken, recept eller geografi.