Automatiserad ML i infrastrukturresurser (förhandsversion)

Artikel
11/19/2024

Automatiserad maskininlärning (AutoML) gör det möjligt för användare att skapa och distribuera maskininlärningsmodeller genom att automatisera de mest tidskrävande och komplexa delarna av modellutvecklingsprocessen. Traditionellt kräver skapandet av en maskininlärningsmodell expertis inom datavetenskap, val av modell, justering av hyperparametrar och utvärdering – en process som kan vara resursintensiv och utsatt för utvärdering och fel. AutoML förenklar detta genom att automatiskt välja de bästa algoritmerna, justera hyperparametrar och generera optimerade modeller baserat på indata och önskade resultat.

I Microsoft Fabric blir AutoML ännu kraftfullare genom att integrera sömlöst med plattformens dataekosystem, så att användarna kan skapa, träna och distribuera modeller direkt på sina sjöhus. Med AutoML kan både tekniska och icke-tekniska användare snabbt skapa förutsägelsemodeller, vilket gör maskininlärning tillgänglig för en bredare publik. Från prognostisering av efterfrågan till identifiering av avvikelser och optimering av affärsåtgärder påskyndar AutoML i Fabric vägen från rådata till användbara insikter, vilket ger användarna möjlighet att utnyttja AI med minimal ansträngning och maximal påverkan.

Viktigt!

Den här funktionen är i förhandsversion.

Hur fungerar AutoML?

FLAML (Snabb och Lightweight AutoML) driver AutoML-funktionerna i Fabric, vilket gör det möjligt för användare att skapa, optimera och distribuera maskininlärningsmodeller sömlöst i plattformens dataekosystem.

FLAML är ett AutoML-bibliotek med öppen källkod som utformats för att leverera korrekta modeller snabbt genom att fokusera på effektivitet, minimera beräkningskostnader och dynamiskt justera hyperparametrar. I bakgrunden automatiserar FLAML val och optimering av modeller med hjälp av en resursmedveten sökstrategi, som balanserar utforskning och utnyttjande för att identifiera de bästa modellerna utan fullständig utvärdering och fel. Dess anpassningsbara sökutrymme och lätta algoritmer gör det idealiskt för stora datamängder och begränsade miljöer, vilket säkerställer skalbara och snabba prestanda. Den här integreringen med Fabric gör maskininlärning tillgänglig för både tekniska och icke-tekniska användare, vilket påskyndar vägen från rådata till användbara insikter.

Maskininlärningsuppgifter

AutoML i Fabric har stöd för en mängd olika maskininlärningsuppgifter, inklusive klassificering, regression och prognostisering, vilket gör det mångsidigt för olika datadrivna program.

Binär klassificering

Binär klassificering är en typ av övervakad maskininlärningsuppgift där målet är att kategorisera datapunkter i en av två distinkta klasser. Det handlar om att träna en modell på märkta data, där varje instans tilldelas till en av två möjliga kategorier, och modellen lär sig att förutsäga rätt klass för nya, osedda data. Exempel:

Identifiering av skräppost: Klassificera e-postmeddelanden som skräppost eller inte skräppost.
Bedrägeriidentifiering: Flagga finansiella transaktioner som bedrägliga eller legitima.
Sjukdomsscreening: Förutsäga om en patient har ett tillstånd (positivt) eller inte (negativt).

Klassificering med flera klasser

Klassificering med flera klasser för tabelldata innebär att tilldela en av flera möjliga etiketter till varje rad med strukturerade data baserat på funktionerna i datauppsättningen. Här följer några exempel som är relevanta för verkliga tabelldatauppsättningar:

Kundsegmentering: Klassificera kunder i segment som "High-value", "Moderate-value" eller "Low-value" baserat på demografiska data, inköp och beteendedata.
Riskbedömning av lån: Förutsäga risknivån för en låneansökan som "Låg", "Medel" eller "Hög" med hjälp av sökandes data som inkomst, kreditpoäng och anställningsstatus.
Förutsägelse av produktkategori: Tilldela en lämplig produktkategori, till exempel "Elektronik", "Kläder" eller "Möbler", baserat på attribut som pris, varumärke och produktspecifikationer.
Sjukdomsdiagnos: Identifiera vilken typ av sjukdom en patient kan ha, till exempel "Diabetes typ 1", "Diabetes typ 2" eller "Graviditetsdiabetes", baserat på kliniska mått och testresultat.

Dessa exempel belyser hur klassificering med flera klasser kan stödja beslutsfattande i olika branscher, där resultatet kan ta en av flera ömsesidigt uteslutande kategorier.

Regression

Regression är en typ av maskininlärning som används för att förutsäga ett tal baserat på andra relaterade data. Det är användbart när vi vill uppskatta ett specifikt värde, till exempel ett pris, en temperatur eller en tid, baserat på olika faktorer som kan påverka det. Här följer några exempelscenarier:

Förutsäga huspriser med hjälp av information som kvadratmeter, antal rum och plats.
Beräkna månadsförsäljning baserat på marknadsföringsutgifter, säsongsvariationer och tidigare försäljningstrender.

Prognostisering

Prognostisering är en maskininlärningsteknik som används för att förutsäga framtida värden baserat på historiska data. Det är särskilt användbart för planering och beslutsfattande i situationer där tidigare trender och mönster kan informera om vad som sannolikt kommer att hända härnäst. Prognostisering tar tidsbaserade data – även kallade tidsseriedata – och analyserar mönster som säsongsvariationer, trender och cykler för att göra korrekta förutsägelser. Här följer några exempelscenarier:

Försäljningsprognoser: Förutsäga framtida försäljningssiffror baserat på tidigare försäljning, säsongsvariationer och marknadstrender.
Inventeringsprognoser: Fastställa framtida efterfrågan på produkter med hjälp av tidigare inköpsdata och säsongscykler.

Prognostisering hjälper organisationer att fatta välgrundade beslut, oavsett om det är att säkerställa tillräckligt med lager, planera resurser eller förbereda sig för marknadsförändringar.

Träna och testa datauppsättningar

Att skapa tränings- och testdatauppsättningar är ett viktigt steg för att skapa maskininlärningsmodeller. Träningsdatauppsättningen används för att lära modellen, så att den kan lära sig mönster från märkta data, medan testdatauppsättningen utvärderar modellens prestanda på nya, osynliga data, vilket hjälper till att kontrollera dess noggrannhet och generaliserbarhet. Att dela upp data på det här sättet säkerställer att modellen inte bara memorerar utan kan generalisera till andra data.

I Infrastruktur förenklar AutoML-verktyg den här processen genom att automatiskt dela upp data i tränings- och testuppsättningar, anpassa delningen baserat på metodtips för den specifika uppgiften, till exempel klassificering, regression eller prognostisering.

Funktionsframställning

Funktionsutveckling är processen att omvandla rådata till meningsfulla funktioner som förbättrar en maskininlärningsmodells prestanda. Det är ett viktigt steg eftersom rätt funktioner hjälper modellen att lära sig viktiga mönster och relationer i data, vilket leder till bättre förutsägelser. I en datamängd med datum kan till exempel skapandet av funktioner som "is holiday" avslöja trender som förbättrar prognosmodellerna.

I Infrastruktur kan användarna använda auto_featurize funktionerna för att automatisera delar av den här processen. auto_featurize analyserar data och föreslår eller genererar relevanta funktioner, till exempel aggregeringar, kategoriska kodningar eller transformeringar, som kan förbättra modellens förutsägelsekraft. Den här funktionen sparar tid och ger funktionsutveckling inom räckhåll för användare med olika upplevelsenivåer, vilket gör det möjligt för dem att skapa mer exakta och robusta modeller.

Dela via