Google VEO 3.1 on Googlen vastaus Sora 2: enemmän kontrollia, sisäänrakennettu audio ja jatkettava kuva

Google VEO 3.1 on Googlen vastaus Sora 2: enemmän kontrollia, sisäänrakennettu audio ja jatkettava kuva — mutta riittääkö se?

Ingressi: Google julkaisi VEO 3.1 -videomallin Flow-ympäristöön ja Gemini APIin. Laatu, fyysisyys ja ohjaus ovat ottaneet harppauksen, ja ääniraita syntyy nyt suoraan mallin sisältä. Kilpailu realistisuudesta jatkuu silti armottomana.

Mitä uutta

Saatavuus: Flow (”AI-filmmaking playground”) ja Gemini API; Vertex AI tulossa yrityskäyttöön.
Audio sisäänrakennettuna: dialogi, ambienssit, tunnetilat – aikakohdistus automaattinen.
Laadut & kesto: 720p/1080p @ 24 fps, pituus jopa ~2,5 min Extend-toiminnolla, joka jatkaa edellisen klipin viimeisestä frame’sta.
Ohjaus: teksti-, kuva- ja videoinput; jopa 3 referenssikuvaa tyylin lukitsemiseen; interpolointi alusta loppuun; toiminnallisuuden jatkaminen leikkauksen yli. Insert/Remove (objektin lisäys/poisto) on tulossa API:in.
Kampanjakonsistenssi: sama tuotekuva → yhtenäinen ulkoasu kaikissa otoksissa.
Editointi: Flow mahdollistaa kohtausmuokkaukset ilman uudelleengenerointia.
Hinta: $0.40/sek (standard), $0.15/sek (fast). Ei ilmaisporrasta; laskutus vain onnistuneesta generoinnista.
Turva & läpinäkyvyys: näkymätön SynthID-vesileima; tekijänoikeus- & tietosuojasuodatus; sisältö säilytetään 2 päivää ellei käyttäjä lataa talteen.

Miksi tällä on väliä

VEO 3.1 siirtää fokuksen ”yhden promtin” taiteilusta tuotantoputkeen, jossa toistettavuus, jatkettavuus ja scene-level-editointi ovat kriittisiä. Tämä on iso asia mainos- ja some-tuotannoille, joissa brändikonsistenssi ja versiointi ratkaisevat.

Kentän ensireaktiot (tiivistetty)

Plussat: ohjaus, editointityökalut, äänen laatu.
Miinukset: Sora 2 koetaan yhä luonnollisemmaksi; custom-äänet puuttuvat; 8 s raja ”base-generations” -vaiheessa mainittiin kritiikkinä.

Plussat & miinukset

+ Jatkettava klippi (continuity), sisäinen audio, kampanjakonsistenssi
+ Editointi ilman täysregenerointia → budjetti & aika alas
– Ei free tieriä; luonnollisuuskilpailussa Sora 2 kirittää
– Insert/Remove ei vielä täydessä API-laajuudessa

Hinnat ja saatavuus

Käyttö Flow’ssa ja Gemini API:ssa heti; Vertex AI ”tulossa”.
Hinnoittelu sekuntikohtainen (yllä). Ei lisenssivapaata tasoa.

Faktalaatikko

Resoluutio: 720p/1080p, 24 fps
Kesto: n. 2,5 min (Extend)
Referenssikuvat: jopa 3
Vesileima: SynthID (näkymätön)
Säilytys: 2 vrk (ellei ladattu)
Insert/Remove: tulossa APIin

Toimituksen arvio

VEO 3.1 ei ehkä kaappaa ”realismikruunua” tänään, mutta se yksinkertaistaa tuotantoa huikeasti. Jos tarvitset ohjattavuutta, jatkettavuutta ja brändin yhtenäisyyttä, tämä on tällä hetkellä Googlen vahvin kortti.

Whisk 16:9 -kuvaprompti (kansi):
“cinematic 16:9 frame of an AI video production timeline: layered storyboard panels morphing into a realistic city scene at night, volumetric light, shallow depth of field, subtle motion blur trails, waveform and spectrogram overlays hinting at built-in audio, clean UI holograms labeled FLOW and API (no real logos), high-contrast moody color, no text, no watermarks, hyper-detailed, professional commercial look”

Anthropic Claude Haiku 4.5: pienempi, nopeampi, halvempi — ja yllättävän turvallinen

Ingressi: Anthropic vei vastakkaiseen suuntaan: tehokkuutta ja orkestrointia. Haiku 4.5 lupaa 2× nopeuden ja ~⅓ hinnan verrattuna suurempiin malleihin – sekä matalamman riskiprofiilin.

Mitä uutta

Malli: Claude Haiku 4.5 – ”kompakti Sonnet 4.5”.
Hinta: $1 / 1M input-tokenia, $5 / 1M output-tokenia.
Suoritus: joissain tehtävissä ohittaa Sonnet 4; erityisen hyvä suora koneenkäyttö / agentti-toiminnoissa.
Moniagenttisuus: suositus parittaa Sonnet 4.5:n kanssa, joka pilkkoo ison tehtävän ja orkestroi useita Haiku-instansseja rinnakkain.
Benchmarkit: mm. SWE-, Terminal-, TAO-, AIM-, OSWorld-, MMLU-sarjat (mallikortissa eritelty).
Saatavuus: Claude API, Claude Code, AWS Bedrock, Google Cloud Vertex AI (drop-in Haiku 3.5:n tilalle).
Turva: AI Safety Level 2, matalampi misalignment-aste kuin Sonnet 4.5 ja Opus 4.1; CBRN-stressitestaus rajatuin riskein.

Miksi tällä on väliä

Yritysten arjessa latenssi, kustannus ja hallittavuus ratkaisevat. Haiku 4.5:n ”pieni ydin, iso orkestrointi” -filosofia sopii reaaliaikaisiin assistentteihin, asiakaspalveluun, koodikopilotteihin ja työkalukäyttöön.

Plussat & miinukset

+ Erittäin edullinen token-hinnoittelu; nopea vaste
+ Valmis moniagenttinen työkuvio (Sonnet + Haiku)
+ Vakaa riskiprofiili (ASL-2, CBRN-testit)
– Ei Frontier-tason syväpäättelyä yksinään
– Vaatii orkestroinnin suunnittelua, jos haetaan ”isojen mallien” laatua

Hinnat ja saatavuus

API:t ja alustat: Claude API, Claude Code, AWS Bedrock, Google Vertex AI.
Hinnoittelu yllä (input/output erikseen).

Faktalaatikko

Nopea & halpa: 2× nopeus, ~⅓ kustannus
Moniagenttisuus: Sonnet 4.5 + Haiku 4.5
Safety: ASL-2; matala misalignment verrattuna suurempiin
Käyttö: reaaliaikaiset agentit, koodi-assist, asiakaspalvelu

Toimituksen arvio

Haiku 4.5 on työhevonen: kun tehtävä on ”tee tämä nyt, luotettavasti ja halvalla”, se loistaa. Syvään tutkimuspäättelyyn otat Sonnetin viereen — mutta bisnesarvossa tämä yhdistelmä osuu suoraan ytimeen.

Whisk 16:9 -kuvaprompti (kansi):
“clean 16:9 tech illustration of lightweight AI agents coordinating tasks across multiple terminals, minimalistic dashboards, graphs of low latency, token counters, subtle Claude-like motif without logos, calm lighting, sharp focus, modern enterprise aesthetic, no text”

Kong Volcano: MCP-native agenttikehys, joka teki lavalla 900 kahvitilausta 15 koodirivillä

Ingressi: Kongin Volcano on avoimen lähdekoodin työkalupakki agenttien rakentamiseen MCP-standardin (Model Context Protocol) varaan. Livedemossa agentti tilasi 900 kahvia yleisölle – kourallisella TypeScript-koodia.

Mitä uutta

MCP syntyperäisenä: Volcano on rakennettu MCP:lle alusta asti → puhtaampi integraatio kuin vanhoissa kehyksissä (joihin MCP pultattiin jälkeenpäin).
Live-demo: ~15 riviä koodia, QR-skannaus → agentti keräsi nimet & sijainnit → 900 tilausta lähikahviloihin.
Monimalli-tuki: vaihtaa mallia kesken tehtävän (esim. Claude-reasoning → pienempi malli seuraavaan stepiin).
Aliagentit: voi luoda pieniä uudelleenkäytettäviä sub-agenteja.
Kong AI Gateway: mikä tahansa hallittu API → automaattisesti MCP-palvelimeksi; keskitetty turvallisuus (MCP OAuth -plugin); AI Integration Composer auttaa löytämään & ketjuttamaan älykkäitä API:ja.
Avoin lähdekoodi, fokus selkeydessä: monimutkaiset graafit → suora TypeScript-flow.

Miksi tällä on väliä

Kun agentit alkavat oikeasti käyttää työkaluja, integraation kitka tappaa hyödyn. MCP-native-lähestyminen tekee Volcano’sta käyttöönotossa kevyen ja tuotantoon vietynä hallittavan.

Plussat & miinukset

+ MCP-syntyperäisyys → vähemmän liimaa ja konffauksia
+ API-kannan ”MCP-muunnin”, keskitetty auth
+ Monimalli, aliagentit, dev-ystövä TypeScript-flow
– Varhainen vaihe: ekosysteemin kypsyys vaihtelee
– Oikean maailman käyttö vaatii valvontaa (rate-limitit, väärinkäyttö)

Käyttötapauksia

Operointi & integraatio: sisäiset API:t MCP:ksi → agentti osaa käyttää niitä heti
Asiakaspalvelu/IT-automaatiot: lomitteiset tehtävät, tool use
Nopea POC → tuotanto: kehitys muutamilla riveillä, hallittu gateway

Faktalaatikko

Standardi: MCP
Demo: ~15 koodiriviä → 900 tilausta
Turva: OAuth-plugin, keskitetty gateway
Kieli: TypeScript (flow-henkinen)

Toimituksen arvio

Volcano näyttää, miltä ”agentit tekevät oikeita asioita oikeissa verkoissa” voi käytännössä tuntua. Jos talossa on jo API-puutarha, tämä on luonteva silta MCP-aikaan.

Whisk 16:9 -kuvaprompti (kansi):
“dynamic 16:9 scene of an AI agent control center routing hundreds of coffee orders across a city map, glowing lines between cafés and users, clean TypeScript code snippet holograms (nonsense text), MCP nodes and locks indicating OAuth security, energetic yet professional, no text”

Andrej Karpathyn ”Nano Chat”: mini-ChatGPT, jonka koulutat ~4 tunnissa ~$100 budjetilla

Ingressi: Karpathy julkaisi Nano Chat -projektin: noin 8 000 koodirivin kokonaisuus, joka kouluttaa pienen keskustelumallin alusta asti. Kokeilu ajettiin 8× H100 -kokoonpanolla (~$24/h/GPU), joten ~4 h → ~$100.

Ydinkonsepti

Kaikki yhdessä: koulutus, fine-tuning, testaus ja kevyt web-UI yhdellä komennolla.
Kolme (tai neljä) vaihetta:
1. yleiskielen oppiminen,
2. dialogit, monivalinnat & pikku-matikka (pienet Python-pätkät),
3. HQ-chat-fine-tuning,
4. (valinnainen) kevyt RL-tyyppinen itsensä parantaminen.
Läpinäkyvyys: ei mustia laatikoita – tokenisaattori, treeni, eval auki tiedosto kerrallaan.
Skaalaus: ~$300: > GPT-2; ~$1000: alkaa järkeillä yllättävän hyvin.

Miksi tällä on väliä

Pienillä tiimeillä, indie-kehittäjillä ja oppijoilla on nyt konkreettinen polku ”tee se itse” -LLM:ään. Se opettaa arkkitehtuurin ja tarjoaa mitattavan etenemisen ilman salamyhkäisiä pipelineja.

Plussat & miinukset

+ Halpa kokeilla; opettava ja läpinäkyvä
+ Yksi komento → täysi putki (treeni → eval → UI)
– Ei korvaa huippumalleja; vaatii GPU-resurssin
– Tuotantoon siirryttäessä tarvitaan lisäkarkkia (turva, valvonta, data)

Faktalaatikko

Laitteisto: 8× H100 (n. $24/h/GPU)
Kesto & kustannus: ~4 h, ~$100
Koodi: ~8 000 riviä
Tulokset: ~$300 > GPT-2; ~$1000 merkittävä parannus

Toimituksen arvio

Nano Chat palauttaa oppimisen ilon LLM-kehitykseen. Tuotantotyöksi tästä ei sellaisenaan ole, mutta lähtölaukaus omalle mallille – ja ennen kaikkea ymmärrykselle, miten palikat oikeasti toimivat.

Aiheeseen liittyy

Google VEO 3.1 on Googlen vastaus Sora 2: enemmän kontrollia, sisäänrakennettu audio ja jatkettava kuva — mutta riittääkö se?