Apuohjelmaidea tekoälyvisualisointiin

Video

Aiheesta löytyy video Vertex Systems Oy:n Youtube-kanavalta:

Apuohjelmaidea visualisointiin

Tämä teksti on generoitu videon litteroinnin perusteella

Tässä lähteessä esitellään harrastusprojektina syntynyt Python-pohjainen sovellus, joka hyödyntää tekoälyä teknisten mallien visualisointiin. Ohjelma käyttää Gemini- ja ChatGPT-mallien rajapintoja kuvien ja videoiden luomiseen joko tekstikehotteiden tai suoraan Vertex G4 -ohjelmistosta otettujen kuvakaappausten perusteella. Kehittäjä havainnollistaa, kuinka teollisia kohteita, kuten säiliöitä ja kärryjä, voidaan sijoittaa realistisiin ympäristöihin tai muokata eri sääolosuhteisiin ja valaistuksiin. Esityksessä pohditaan myös mahdollisuutta integroida vastaavia tekoälytyökaluja suoraan suunnitteluohjelmistoihin visualisointiprosessin nopeuttamiseksi. Vaikka tekoäly tuottaa vakuuttavia tuloksia, lähde tuo esiin myös haasteita, kuten tekoälyn taipumusta kuvavirheisiin ja palveluiden ruuhkautumista. Kaiken kaikkiaan teksti kuvaa, miten vähäiselläkin ohjelmointitaidolla voidaan luoda tehokkaita työkaluja tekoälyavusteiseen sisällöntuotantoon.

Kerro ohjelmasta, jolla voi luoda realistisia kuvia ja videoita pohjakuvien avulla.

Lähdemateriaalin perusteella kyseessä on videon tekijän itse kehittämä Python-pohjainen sovellus, joka on luotu tekoälyn (ChatGPT) avustuksella. Ohjelman tarkoituksena on visualisoida suunnittelumalleja, kuten Vertex G4:llä tehtyjä kappaleita, luomalla niistä fotorealistisia kuvia ja videoita tekoälyn avulla.

Tässä on tiivistelmä ohjelman toiminnasta ja ominaisuuksista:

Toimintaperiaate ja teknologia

API-rajapinta: Ohjelma toimii käyttöliittymänä, joka hyödyntää taustalla tekoälymalleja (erityisesti Googlen Geminiä) kuvien ja videoiden luomiseen.
Pohjakuvat: Käyttäjä voi ottaa kuvakaappauksen 3D-mallista leikepöydälle ja liittää sen ohjelmaan pohjakuvaksi. Tämän jälkeen kirjoitetaan tekstikehote (prompt), joka ohjeistaa tekoälyä sijoittamaan mallin haluttuun ympäristöön, esimerkiksi "verstaan pöydälle" tai "suurkaupungin puistoon".
Kuvien yhdistely: Ohjelmaan voi syöttää useita kuvia ja käskeä tekoälyä yhdistämään ne yhdeksi kuvaksi.

Video-ominaisuudet

Ohjelmaan on lisätty ominaisuus generoida videoita joko pohjakuvan tai pelkän tekstikehotteen perusteella.
Käyttäjä voi valita videon laadun (esim. "Turbo" tai normaali laatu), mikä vaikuttaa generoinnin hintaan ja kestoon.

"Realististava" lisäosa

Videolla esitellään myös toinen, erillinen ohjelma tai toiminto, jota kutsutaan "renderöinnin todenmukaistavaksi ohjelmaksi".
Koska perusrenderöinnit ovat usein liian "siistejä", tällä toiminnolla kuviin haetaan rosoisuutta ja realismia. Esimerkkeinä mainitaan kuvien muokkaaminen syysmyrskyisiksi, "Neuvostoliitto-tyylisiksi" tai "Kouvola-lookilla", jolloin lopputulos näyttää enemmän valokuvalta kuin 3D-mallilta.

Ohjelma on tekijän mukaan nopeampi ja helpompi käyttää kuin selainpohjaiset vastineet, koska siihen on rakennettu valmiita pohjia ja kehotteiden tallennusmahdollisuuksia.

Miten Gemini-rajapinta ja API-avaimet toimivat ohjelmassa?

Lähdemateriaalin mukaan Gemini-rajapinta ja API-avaimet toimivat ohjelmassa seuraavalla tavalla:

Toimintaperiaate

Ohjelma toimii käyttöliittymänä, joka lähettää käyttäjän syöttämät tiedot (kuvat ja tekstikehotteet) Googlen palvelimille käsiteltäväksi ja vastaanottaa valmiin tuloksen. Itse tekoälymallit eivät siis pyöri käyttäjän koneella, vaan yhteys hoidetaan API-rajapinnan (Application Programming Interface) kautta.

API-avaimen käyttö ja asetukset

Hankinta: Käyttäjän on hankittava Googlelta (esim. Google Cloud -palvelusta) henkilökohtainen API-avain, jotta Geminiä voi käyttää.
Syöttäminen ohjelmaan: Ohjelmassa on erillinen asetusvälilehti, johon API-avain syötetään. Turvallisuussyistä avainta ei näytetä suoraan käyttöliittymässä syöttämisen jälkeen.
Yhteyden testaus: Asetuksissa on toiminto, jolla yhteyden toimivuuden voi testata. Onnistunut yhteys antaa ilmoituksen "OK".

Mallien hallinta

Mallien päivitys: Ohjelmassa on "Päivitä mallit" -painike. Kun yhteys on muodostettu API-avaimella, painike hakee Googlelta listan sillä hetkellä käytettävissä olevista Gemini-malleista (esim. Gemini 1.5 Flash tai Pro), joista käyttäjä voi valita haluamansa.

Suorituskyky ja kustannukset

Ruuhkat: Koska laskenta tapahtuu Googlen päässä, palvelussa voi esiintyä viiveitä tai virheilmoituksia ruuhka-aikoina (esimerkiksi iltaisin Suomen aikaa, kun Yhdysvalloissa alkaa päivä).
Hinta:
- Kuvat: Videon tekijä mainitsee, että kuvien generointi API:n kautta saattaa olla jopa ilmaista tai sisältyä tiettyihin Google-palveluihin, mutta kehottaa tarkistamaan asian.
- Videot: Videoiden luominen on maksullista ja perustuu käytettyihin sekunteihin. Ohjelmassa voi valita laadun, mikä vaikuttaa hintaan; nopeampi on edullisempi.