Mi az adatelemzés a Microsoft Fabricben?
A Microsoft Fabric adatelemzési funkciókat kínál, amelyekkel a felhasználók teljes körű adatelemzési munkafolyamatokat végezhetnek az adatnövelés és az üzleti elemzések céljából. A teljes adattudományi folyamat során számos tevékenységet végezhet, az adatfeltárástól az előkészítésen és tisztításon át egészen a kísérletezésig, modellezésig, modellek értékeléséig és a prediktív elemzések BI jelentésekhez való kiszolgálásáig.
A Microsoft Fabric felhasználói hozzáférhetnek egy adatelemzési kezdőlaphoz. Innen különböző releváns erőforrásokat fedezhetnek fel és érhetnek el. Létrehozhatnak például gépi tanulási kísérleteket, modelleket és jegyzetfüzeteket. A meglévő jegyzetfüzeteket a Data Science kezdőlapján is importálhatják.
Lehet, hogy tudja, hogyan működik egy tipikus adatelemzési folyamat. Jól ismert folyamatként a legtöbb gépi tanulási projekt követi.
Magas szinten a folyamat az alábbi lépéseket foglalja magában:
- Probléma megfogalmazása és ideációja
- Adatok felderítése és előzetes feldolgozása
- Kísérletezés és modellezés
- Bővítés és működés
- Elemzések készítése
Ez a cikk az adatelemzési folyamat szempontjából ismerteti a Microsoft Fabric adatelemzési képességeit. Ez a cikk az adatelemzési folyamat minden lépéséhez összefoglalja a Microsoft Fabric azon képességeit, amelyek segíthetnek.
Probléma megfogalmazása és ideációja
A Microsoft Fabric adatelemzési felhasználói ugyanazon a platformon dolgoznak, mint az üzleti felhasználók és elemzők. Az adatmegosztás és az együttműködés gördülékenyebbé válik a különböző szerepkörök között. Az elemzők egyszerűen megoszthatják a Power BI-jelentéseket és -adathalmazokat adatelemzési szakemberekkel. A Microsoft Fabricben a szerepkörök közötti együttműködés egyszerűsége sokkal egyszerűbbé teszi a probléma megfogalmazása során történő átadást.
Adatok felderítése és előzetes feldolgozása
A Microsoft Fabric felhasználói a Lakehouse-elem használatával kezelhetik a OneLake-ben tárolt adatokat. A Lakehouse egyszerűen csatlakoztatható egy jegyzetfüzethez az adatok böngészéséhez és kezeléséhez.
A felhasználók egyszerűen olvashatnak adatokat egy Lakehouse-ból közvetlenül egy Pandas-adatkeretbe. A feltáráshoz ez lehetővé teszi a OneLake-ből történő zökkenőmentes adatolvasást.
Hatékony eszközök állnak rendelkezésre adatbetöltési és adat-vezénylési folyamatokhoz adatintegrációs folyamatokkal – a Microsoft Fabric natívan integrált része. A könnyen felépíthető adatfolyamatok hozzáférhetnek és átalakíthatják az adatokat olyan formátummá, amelyet a gépi tanulás felhasználhat.
Adatfeltárás
A gépi tanulási folyamat fontos része az adatok feltárása és vizualizáción keresztüli megértése.
Az adattárolás helyétől függően a Microsoft Fabric különböző eszközöket kínál az adatok elemzéshez és gépi tanuláshoz való megismeréséhez és előkészítéséhez. A jegyzetfüzetek az adatfeltárás első lépéseinek egyik leggyorsabb módjai.
Apache Spark és Python az adatok előkészítéséhez
A Microsoft Fabric olyan képességeket kínál, mint az adatok nagy léptékű átalakítása, előkészítése és feltárása. A Spark használatával a felhasználók a PySpark/Python, a Scala és a SparkR/SparklyR eszközöket használhatják az adatok nagy léptékű előfeldolgozásához. A hatékony, nyílt forráskódú vizualizációs kódtárak növelhetik az adatfeltárás élményét, hogy jobban megértsék az adatokat.
Data Wrangler a zökkenőmentes adattisztításhoz
A Microsoft Fabric Notebook felhasználói felülete egy olyan funkciót adott hozzá a Data Wrangler használatához, amely egy olyan kódeszköz, amely előkészíti az adatokat, és Python-kódot hoz létre. Ez a felület megkönnyíti az unalmas és hétköznapi feladatok felgyorsítását – például az adattisztítást, valamint a generált kódon keresztüli megismételhetőséget és automatizálást. További információ a Data Wranglerről a dokumentum Data Wrangler szakaszában.
Kísérletezés és gépi tanulás modellezése
Az olyan eszközökkel, mint a PySpark/Python, a SparklyR/R, a jegyzetfüzetek képesek kezelni a gépi tanulási modell betanítását.
Az ML-algoritmusok és kódtárak segíthetnek a gépi tanulási modellek betanításaban. A kódtár-felügyeleti eszközök telepíthetik ezeket a kódtárakat és algoritmusokat. A felhasználók így számos népszerű gépi tanulási kódtárat használhatnak az ML-modell betanításához a Microsoft Fabricben.
Emellett a népszerű kódtárak, például a Scikit Learn is fejleszthetnek modelleket.
Az MLflow-kísérletek és -futtatások nyomon követhetik az ML-modell betanítását. A Microsoft Fabric beépített MLflow-felületet kínál, amellyel a felhasználók interakcióba léphetnek a kísérletek és modellek naplózásához. További információ arról, hogyan használható az MLflow a kísérletek nyomon követésére és modellek kezelésére a Microsoft Fabricben.
SynapseML
A Microsoft tulajdonában és fenntartásában lévő SynapseML (korábban MMLSpark) nyílt forráskódú kódtár leegyszerűsíti a nagymértékben méretezhető gépi tanulási folyamatok létrehozását. Eszköz-ökoszisztémaként több új irányban bővíti az Apache Spark-keretrendszert. A SynapseML több meglévő gépi tanulási keretrendszert és új Microsoft-algoritmust egyesít egyetlen skálázható API-vá. A nyílt forráskódú SynapseML-kódtár az ML-eszközök gazdag ökoszisztémáját tartalmazza a prediktív modellek fejlesztéséhez, valamint az Előre betanított AI-modellek Azure AI-szolgáltatásokból való kihasználásához. További információ a SynapseML-ról.
Bővítés és működés
A jegyzetfüzetek képesek kezelni a gépi tanulási modellek kötegelt értékelését nyílt forráskódú könyvtárakkal az előrejelzéshez, vagy a Microsoft Fabric skálázható univerzális Spark Predict függvényével, amely támogatja az MLflow-csomagban lévő és a Microsoft Fabric modellregisztrációjában szereplő modelleket.
Elemzések készítése
A Microsoft Fabricben az előrejelzett értékek egyszerűen írhatók a OneLake-be, és a Power BI-jelentésekből zökkenőmentesen felhasználhatók a Power BI Direct Lake móddal. Ez megkönnyíti az adatelemzési szakemberek számára, hogy megoszthassák a munkájuk eredményeit az érdekelt felekkel, és az üzemeltetést is egyszerűbbé teszik.
A kötegpontozást tartalmazó jegyzetfüzetek a Jegyzetfüzet ütemezési képességeivel ütemezhetők. A csoportos értékelés az adatfolyam-tevékenységek részeként vagy Spark-munkák keretében is ütemezhető. A Power BI automatikusan lekéri a legújabb előrejelzéseket anélkül, hogy be kellene töltenie vagy frissítenie kellene az adatokat a Microsoft Fabric Direct lake-módjának köszönhetően.
Adatfeltárás szemantikai hivatkozással
Az adattudósok és az üzleti elemzők sok időt töltenek azzal, hogy megpróbálják megérteni, megtisztítani és átalakítani az adatokat, mielőtt bármilyen értelmes elemzést elkezdhetnek. Az üzleti elemzők általában szemantikai modellekkel dolgoznak, és tartományismeretüket és üzleti logikájukat Power BI-mértékekbe kódolják. Az adattudósok viszont dolgozhatnak ugyanazokkal az adatokkal, de általában más kódkörnyezetben vagy nyelven.
A szemantikai kapcsolat lehetővé teszi, hogy az adattudósok kapcsolatot teremtsenek a Power BI szemantikai modelljei és a Microsoft Fabric Synapse Data Science élmény között a SemPy Python könyvtár segítségével. A SemPy leegyszerűsíti az adatelemzést azáltal, hogy rögzíti és kihasználja az adatszemantikát, mivel a felhasználók különböző átalakításokat hajtanak végre a szemantikai modelleken. A szemantikai kapcsolat kihasználásával az adattudósok a következőkre képesek:
- ne kelljen újra implementálni az üzleti logikát és a tartományismeretet a kódban
- könnyen elérheti és használhatja a Power BI-mértékeket a kódban
- Használja a szemantikát új élmények létrehozására, mint például szemantikai funkciók.
- funkcionális függőségek és adatkapcsolatok feltárása és ellenőrzése
A SemPy használatával a szervezetek az alábbiakra számíthatnak:
- nagyobb hatékonyság és gyorsabb együttműködés az azonos adathalmazokon működő csapatok között
- nagyobb együttműködés az üzleti intelligencia és az AI-csapatok között
- kevesebb kétértelműség és könnyebb tanulási görbe egy új modellre vagy adatkészletre való bevezetéskor
További információ a szemantikai hivatkozásról: Mi az a szemantikai hivatkozás?.
Kapcsolódó tartalom
- Kezdd el a teljes körű adatelemzési mintákkal: Adatelemzési oktatóanyagok
- További információ az adat-előkészítésről és -tisztításról a Data Wranglerrel, lásd Data Wrangler
- További információ a kísérletek nyomon követéséről: Gépi tanulási kísérlet
- További információ a modellek kezeléséről: Gépi tanulási modell
- További információ a kötegelt értékelésről a Predict használatával, lásd: Modellek értékelése a PREDICT függvénnyel
- Előrejelzéseket jeleníthet meg a Lakehouse-ból a Power BI-ba Direkt Tó Mód