EuroWire , SAN FRANCISCO : Microsoft introduserte 26. januar Maia 200, den andre generasjonen av sin interne kunstig intelligens-akselerator, bygget for å kjøre AI-modeller i produksjon på tvers av Azure-datasentre. Selskapet sa at Maia 200 er designet for inferens, stadiet der trente modeller genererer svar på live-forespørsler, og vil bli brukt til å støtte en rekke Microsoft AI-tjenester.

Maia 200 er produsert med TSMCs 3-nanometerprosess og inkluderer mer enn 140 milliarder transistorer, sa Microsoft . Brikkeparene beregner med et nytt minnesystem som inkluderer 216 gigabyte HBM3e høybåndbreddeminne og omtrent 272 megabyte innebygd SRAM, som har som mål å opprettholde storskala tokengenerering og andre inferenstunge arbeidsbelastninger.
Microsoft sa at Maia 200 leverer mer enn 10 petaflops ytelse med 4-bits presisjon og omtrent 5 petaflops med 8-bits presisjon, formater som vanligvis brukes til å kjøre moderne generativ AI effektivt. Selskapet sa også at systemet er designet rundt en effekt på 750 watt og er bygget med skalerbar nettverk slik at brikker kan kobles sammen for større distribusjoner.
Selskapet sa at den nye maskinvaren har begynt å bli tilgjengelig i et Azure US Central-datasenter i Iowa, med en ekstra lokasjon planlagt i Arizona. Microsoft beskrev Maia 200 som sitt mest effektive inferansesystem som er implementert hittil, og rapporterte en forbedring på 30 % i ytelse per dollar sammenlignet med eksisterende inferansesystemer.
Fokus på AI-inferens og Azure-distribusjon
Microsoft sa at Maia 200 er ment å støtte AI-produkter og -tjenester som er avhengige av modellutførelse med høyt volum og lav latens, inkludert arbeidsbelastninger som kjører i Azure og Microsofts egne applikasjoner. Selskapet sa at de har designet brikken og det omkringliggende systemet som en del av en helhetlig infrastrukturtilnærming som inkluderer silisium, servere, nettverk og programvare for distribusjon av AI-modeller i stor skala.
Ved siden av brikken annonserte Microsoft tidlig tilgang til et Maia-programvareutviklingssett for utviklere og forskere som jobber med modelloptimalisering. Selskapet sa at verktøyet er rettet mot å hjelpe team med å kompilere og finjustere modeller for Maia-baserte systemer, og er strukturert for å passe inn i vanlige AI-utviklingsarbeidsflyter som brukes til å distribuere inferens i skyen.
Ytelseskrav og modellstøtte
Microsoft sa at Maia 200 er bygget for å kjøre store språkmodeller og avanserte resonneringssystemer, og at den vil bli brukt til interne og vertsbaserte modelldistribusjoner i Azure. Selskapet har posisjonert brikken som en produksjonsinferensakselerator, som skiller den fra treningsfokuserte systemer som vanligvis brukes til å bygge modeller før distribusjon.
Microsoft har akselerert tilpasset silisiumarbeid ettersom etterspørselen etter databehandling for generative AI-applikasjoner har økt, der kostnader og tilgjengeligheten av akseleratorer kan påvirke hvor raskt tjenester skaleres. Maia 200 følger Maia 100, som Microsoft introduserte i 2023, og representerer selskapets nyeste iterasjon av sin dedikerte AI-akseleratorlinje for datasenterinferens.
Innlegget Maia 200 styrker Microsoft Azure med nytt AI-inferenssilisium dukket først opp på British Post .
