Google VEO 3.1 on Googlen vastaus Sora 2: enemmän kontrollia, sisäänrakennettu audio ja jatkettava kuva — mutta riittääkö se?
By Konrad K / 18 lokakuun, 2025 / 16 kommenttia / Teknologia
Google VEO 3.1 on Googlen vastaus Sora 2: enemmän kontrollia, sisäänrakennettu audio ja jatkettava kuva — mutta riittääkö se?
Ingressi: Google julkaisi VEO 3.1 -videomallin Flow-ympäristöön ja Gemini APIin. Laatu, fyysisyys ja ohjaus ovat ottaneet harppauksen, ja ääniraita syntyy nyt suoraan mallin sisältä. Kilpailu realistisuudesta jatkuu silti armottomana.
Mitä uutta
- Saatavuus: Flow (”AI-filmmaking playground”) ja Gemini API; Vertex AI tulossa yrityskäyttöön.
- Audio sisäänrakennettuna: dialogi, ambienssit, tunnetilat – aikakohdistus automaattinen.
- Laadut & kesto: 720p/1080p @ 24 fps, pituus jopa ~2,5 min Extend-toiminnolla, joka jatkaa edellisen klipin viimeisestä frame’sta.
- Ohjaus: teksti-, kuva- ja videoinput; jopa 3 referenssikuvaa tyylin lukitsemiseen; interpolointi alusta loppuun; toiminnallisuuden jatkaminen leikkauksen yli. Insert/Remove (objektin lisäys/poisto) on tulossa API:in.
- Kampanjakonsistenssi: sama tuotekuva → yhtenäinen ulkoasu kaikissa otoksissa.
- Editointi: Flow mahdollistaa kohtausmuokkaukset ilman uudelleengenerointia.
- Hinta: $0.40/sek (standard), $0.15/sek (fast). Ei ilmaisporrasta; laskutus vain onnistuneesta generoinnista.
- Turva & läpinäkyvyys: näkymätön SynthID-vesileima; tekijänoikeus- & tietosuojasuodatus; sisältö säilytetään 2 päivää ellei käyttäjä lataa talteen.
Miksi tällä on väliä
VEO 3.1 siirtää fokuksen ”yhden promtin” taiteilusta tuotantoputkeen, jossa toistettavuus, jatkettavuus ja scene-level-editointi ovat kriittisiä. Tämä on iso asia mainos- ja some-tuotannoille, joissa brändikonsistenssi ja versiointi ratkaisevat.
Kentän ensireaktiot (tiivistetty)
- Plussat: ohjaus, editointityökalut, äänen laatu.
- Miinukset: Sora 2 koetaan yhä luonnollisemmaksi; custom-äänet puuttuvat; 8 s raja ”base-generations” -vaiheessa mainittiin kritiikkinä.
Plussat & miinukset
+ Jatkettava klippi (continuity), sisäinen audio, kampanjakonsistenssi
+ Editointi ilman täysregenerointia → budjetti & aika alas
– Ei free tieriä; luonnollisuuskilpailussa Sora 2 kirittää
– Insert/Remove ei vielä täydessä API-laajuudessa
Hinnat ja saatavuus
- Käyttö Flow’ssa ja Gemini API:ssa heti; Vertex AI ”tulossa”.
- Hinnoittelu sekuntikohtainen (yllä). Ei lisenssivapaata tasoa.
Faktalaatikko
- Resoluutio: 720p/1080p, 24 fps
- Kesto: n. 2,5 min (Extend)
- Referenssikuvat: jopa 3
- Vesileima: SynthID (näkymätön)
- Säilytys: 2 vrk (ellei ladattu)
- Insert/Remove: tulossa APIin
Toimituksen arvio
VEO 3.1 ei ehkä kaappaa ”realismikruunua” tänään, mutta se yksinkertaistaa tuotantoa huikeasti. Jos tarvitset ohjattavuutta, jatkettavuutta ja brändin yhtenäisyyttä, tämä on tällä hetkellä Googlen vahvin kortti.
Whisk 16:9 -kuvaprompti (kansi):
“cinematic 16:9 frame of an AI video production timeline: layered storyboard panels morphing into a realistic city scene at night, volumetric light, shallow depth of field, subtle motion blur trails, waveform and spectrogram overlays hinting at built-in audio, clean UI holograms labeled FLOW and API (no real logos), high-contrast moody color, no text, no watermarks, hyper-detailed, professional commercial look”
Anthropic Claude Haiku 4.5: pienempi, nopeampi, halvempi — ja yllättävän turvallinen
Ingressi: Anthropic vei vastakkaiseen suuntaan: tehokkuutta ja orkestrointia. Haiku 4.5 lupaa 2× nopeuden ja ~⅓ hinnan verrattuna suurempiin malleihin – sekä matalamman riskiprofiilin.
Mitä uutta
- Malli: Claude Haiku 4.5 – ”kompakti Sonnet 4.5”.
- Hinta: $1 / 1M input-tokenia, $5 / 1M output-tokenia.
- Suoritus: joissain tehtävissä ohittaa Sonnet 4; erityisen hyvä suora koneenkäyttö / agentti-toiminnoissa.
- Moniagenttisuus: suositus parittaa Sonnet 4.5:n kanssa, joka pilkkoo ison tehtävän ja orkestroi useita Haiku-instansseja rinnakkain.
- Benchmarkit: mm. SWE-, Terminal-, TAO-, AIM-, OSWorld-, MMLU-sarjat (mallikortissa eritelty).
- Saatavuus: Claude API, Claude Code, AWS Bedrock, Google Cloud Vertex AI (drop-in Haiku 3.5:n tilalle).
- Turva: AI Safety Level 2, matalampi misalignment-aste kuin Sonnet 4.5 ja Opus 4.1; CBRN-stressitestaus rajatuin riskein.
Miksi tällä on väliä
Yritysten arjessa latenssi, kustannus ja hallittavuus ratkaisevat. Haiku 4.5:n ”pieni ydin, iso orkestrointi” -filosofia sopii reaaliaikaisiin assistentteihin, asiakaspalveluun, koodikopilotteihin ja työkalukäyttöön.
Plussat & miinukset
+ Erittäin edullinen token-hinnoittelu; nopea vaste
+ Valmis moniagenttinen työkuvio (Sonnet + Haiku)
+ Vakaa riskiprofiili (ASL-2, CBRN-testit)
– Ei Frontier-tason syväpäättelyä yksinään
– Vaatii orkestroinnin suunnittelua, jos haetaan ”isojen mallien” laatua
Hinnat ja saatavuus
- API:t ja alustat: Claude API, Claude Code, AWS Bedrock, Google Vertex AI.
- Hinnoittelu yllä (input/output erikseen).
Faktalaatikko
- Nopea & halpa: 2× nopeus, ~⅓ kustannus
- Moniagenttisuus: Sonnet 4.5 + Haiku 4.5
- Safety: ASL-2; matala misalignment verrattuna suurempiin
- Käyttö: reaaliaikaiset agentit, koodi-assist, asiakaspalvelu
Toimituksen arvio
Haiku 4.5 on työhevonen: kun tehtävä on ”tee tämä nyt, luotettavasti ja halvalla”, se loistaa. Syvään tutkimuspäättelyyn otat Sonnetin viereen — mutta bisnesarvossa tämä yhdistelmä osuu suoraan ytimeen.
Whisk 16:9 -kuvaprompti (kansi):
“clean 16:9 tech illustration of lightweight AI agents coordinating tasks across multiple terminals, minimalistic dashboards, graphs of low latency, token counters, subtle Claude-like motif without logos, calm lighting, sharp focus, modern enterprise aesthetic, no text”
Kong Volcano: MCP-native agenttikehys, joka teki lavalla 900 kahvitilausta 15 koodirivillä
Ingressi: Kongin Volcano on avoimen lähdekoodin työkalupakki agenttien rakentamiseen MCP-standardin (Model Context Protocol) varaan. Livedemossa agentti tilasi 900 kahvia yleisölle – kourallisella TypeScript-koodia.
Mitä uutta
- MCP syntyperäisenä: Volcano on rakennettu MCP:lle alusta asti → puhtaampi integraatio kuin vanhoissa kehyksissä (joihin MCP pultattiin jälkeenpäin).
- Live-demo: ~15 riviä koodia, QR-skannaus → agentti keräsi nimet & sijainnit → 900 tilausta lähikahviloihin.
- Monimalli-tuki: vaihtaa mallia kesken tehtävän (esim. Claude-reasoning → pienempi malli seuraavaan stepiin).
- Aliagentit: voi luoda pieniä uudelleenkäytettäviä sub-agenteja.
- Kong AI Gateway: mikä tahansa hallittu API → automaattisesti MCP-palvelimeksi; keskitetty turvallisuus (MCP OAuth -plugin); AI Integration Composer auttaa löytämään & ketjuttamaan älykkäitä API:ja.
- Avoin lähdekoodi, fokus selkeydessä: monimutkaiset graafit → suora TypeScript-flow.
Miksi tällä on väliä
Kun agentit alkavat oikeasti käyttää työkaluja, integraation kitka tappaa hyödyn. MCP-native-lähestyminen tekee Volcano’sta käyttöönotossa kevyen ja tuotantoon vietynä hallittavan.
Plussat & miinukset
+ MCP-syntyperäisyys → vähemmän liimaa ja konffauksia
+ API-kannan ”MCP-muunnin”, keskitetty auth
+ Monimalli, aliagentit, dev-ystövä TypeScript-flow
– Varhainen vaihe: ekosysteemin kypsyys vaihtelee
– Oikean maailman käyttö vaatii valvontaa (rate-limitit, väärinkäyttö)
Käyttötapauksia
- Operointi & integraatio: sisäiset API:t MCP:ksi → agentti osaa käyttää niitä heti
- Asiakaspalvelu/IT-automaatiot: lomitteiset tehtävät, tool use
- Nopea POC → tuotanto: kehitys muutamilla riveillä, hallittu gateway
Faktalaatikko
- Standardi: MCP
- Demo: ~15 koodiriviä → 900 tilausta
- Turva: OAuth-plugin, keskitetty gateway
- Kieli: TypeScript (flow-henkinen)
Toimituksen arvio
Volcano näyttää, miltä ”agentit tekevät oikeita asioita oikeissa verkoissa” voi käytännössä tuntua. Jos talossa on jo API-puutarha, tämä on luonteva silta MCP-aikaan.
Whisk 16:9 -kuvaprompti (kansi):
“dynamic 16:9 scene of an AI agent control center routing hundreds of coffee orders across a city map, glowing lines between cafés and users, clean TypeScript code snippet holograms (nonsense text), MCP nodes and locks indicating OAuth security, energetic yet professional, no text”
Andrej Karpathyn ”Nano Chat”: mini-ChatGPT, jonka koulutat ~4 tunnissa ~$100 budjetilla
Ingressi: Karpathy julkaisi Nano Chat -projektin: noin 8 000 koodirivin kokonaisuus, joka kouluttaa pienen keskustelumallin alusta asti. Kokeilu ajettiin 8× H100 -kokoonpanolla (~$24/h/GPU), joten ~4 h → ~$100.
Ydinkonsepti
- Kaikki yhdessä: koulutus, fine-tuning, testaus ja kevyt web-UI yhdellä komennolla.
- Kolme (tai neljä) vaihetta:
- yleiskielen oppiminen,
- dialogit, monivalinnat & pikku-matikka (pienet Python-pätkät),
- HQ-chat-fine-tuning,
- (valinnainen) kevyt RL-tyyppinen itsensä parantaminen.
- Läpinäkyvyys: ei mustia laatikoita – tokenisaattori, treeni, eval auki tiedosto kerrallaan.
- Skaalaus: ~$300: > GPT-2; ~$1000: alkaa järkeillä yllättävän hyvin.
Miksi tällä on väliä
Pienillä tiimeillä, indie-kehittäjillä ja oppijoilla on nyt konkreettinen polku ”tee se itse” -LLM:ään. Se opettaa arkkitehtuurin ja tarjoaa mitattavan etenemisen ilman salamyhkäisiä pipelineja.
Plussat & miinukset
+ Halpa kokeilla; opettava ja läpinäkyvä
+ Yksi komento → täysi putki (treeni → eval → UI)
– Ei korvaa huippumalleja; vaatii GPU-resurssin
– Tuotantoon siirryttäessä tarvitaan lisäkarkkia (turva, valvonta, data)
Faktalaatikko
- Laitteisto: 8× H100 (n. $24/h/GPU)
- Kesto & kustannus: ~4 h, ~$100
- Koodi: ~8 000 riviä
- Tulokset: ~$300 > GPT-2; ~$1000 merkittävä parannus
Toimituksen arvio
Nano Chat palauttaa oppimisen ilon LLM-kehitykseen. Tuotantotyöksi tästä ei sellaisenaan ole, mutta lähtölaukaus omalle mallille – ja ennen kaikkea ymmärrykselle, miten palikat oikeasti toimivat.