แชร์ผ่าน


แคชอัจฉริยะใน Microsoft Fabric

ฟีเจอร์แคชอัจฉริยะทํางานได้อย่างราบรื่นเบื้องหลังและแคชข้อมูลเพื่อช่วยเร่งความเร็วในการทํางานของ Apache Spark ใน Microsoft Fabric เนื่องจากสามารถอ่านได้จากที่เก็บข้อมูล OneLake หรือ Azure Data Lake Storage (ADLS) Gen2 ของคุณผ่านทางลัด นอกจากนี้ยังตรวจหาการเปลี่ยนแปลงไปยังไฟล์พื้นฐานโดยอัตโนมัติและรีเฟรชไฟล์ในแคชโดยอัตโนมัติซึ่งจะให้ข้อมูลล่าสุดแก่คุณ เมื่อขนาดแคชถึงขีดจํากัด แคชจะปล่อยข้อมูลที่อ่านน้อยที่สุดโดยอัตโนมัติเพื่อสร้างช่องว่างสําหรับข้อมูลล่าสุด คุณลักษณะนี้ลดต้นทุนโดยรวมของความเป็นเจ้าของโดยการปรับปรุงประสิทธิภาพสูงสุดถึง 60% ในการอ่านไฟล์ที่จัดเก็บไว้ในแคชที่มีอยู่ในภายหลัง

เมื่อกลไก Apache Spark ใน Microsoft Fabric คิวรีไฟล์หรือตารางจากเลคเฮ้าส์ของคุณ จะทําให้มีการโทรไปยังที่เก็บข้อมูลระยะไกลเพื่ออ่านไฟล์พื้นฐาน ด้วยคําขอคิวรีทั้งหมดเพื่ออ่านข้อมูลเดียวกัน กลไก Spark ต้องเรียกใช้ไปยังที่เก็บข้อมูลระยะไกลทุกครั้ง กระบวนการที่ซ้ําซ้อนนี้จะเพิ่มเวลาแฝงลงในเวลาการประมวลผลทั้งหมดของคุณ Spark มีข้อกําหนดการแคชที่คุณต้องตั้งค่าและปล่อยแคชด้วยตนเองเพื่อลดเวลาแฝงและปรับปรุงประสิทธิภาพโดยรวม อย่างไรก็ตาม ข้อกําหนดนี้อาจส่งผลให้เกิดข้อมูลเก่าหากมีการเปลี่ยนแปลงข้อมูลพื้นฐาน

แคชอัจฉริยะช่วยลดความซับซ้อนของกระบวนการโดยการแคชการอ่านแต่ละครั้งภายในพื้นที่จัดเก็บแคชที่จัดสรรไว้ในโหนด Spark แต่ละรายการที่มีการแคชไฟล์ข้อมูลใน SSD โดยอัตโนมัติ คําขอแต่ละไฟล์จะตรวจสอบเพื่อดูว่าไฟล์มีอยู่ในแคชโหนดภายในหรือไม่ และเปรียบเทียบแท็กจากที่เก็บข้อมูลระยะไกลเพื่อดูว่าไฟล์เก่าหรือไม่ ถ้าไม่มีไฟล์หรือถ้าไฟล์เก่าแล้ว Spark จะอ่านไฟล์และเก็บไว้ในแคช เมื่อแคชเต็ม ไฟล์ที่มีเวลาการเข้าถึงล่าสุดที่เก่าที่สุดจะถูกขับออกจากแคชเพื่ออนุญาตให้มีไฟล์ล่าสุดเพิ่มเติม

แคชอัจฉริยะคือแคชเดียวต่อโหนด ถ้าคุณกําลังใช้โหนดขนาดกลางและเรียกใช้กับผู้ปฏิบัติการขนาดเล็กสองรายบนโหนดเดียว ผู้ปฏิบัติการสองรายจะใช้แคชเดียวกัน นอกจากนี้ การแคชระดับไฟล์ข้อมูลนี้ทําให้เป็นไปได้สําหรับคิวรีหลายรายการที่จะใช้แคชเดียวกันหากพวกเขาเข้าถึงข้อมูลหรือไฟล์ข้อมูลเดียวกัน

วิธีการทำงาน

ใน Microsoft Fabric (Runtime 1.1 และ 1.2) การแคชอัจฉริยะจะเปิดใช้งานตามค่าเริ่มต้นสําหรับพูล Spark ทั้งหมดสําหรับพื้นที่ทํางานทั้งหมดที่มีขนาดแคชด้วย 50% ขนาดจริงของพื้นที่จัดเก็บข้อมูลที่พร้อมใช้งานและขนาดแคชของแต่ละโหนดขึ้นอยู่กับตระกูลโหนดและขนาดโหนด

เมื่อใดที่ควรใช้แคชอัจฉริยะ

คุณลักษณะนี้จะเป็นประโยชน์กับคุณถ้า:

  • ปริมาณงานของคุณต้องอ่านไฟล์เดียวกันหลายครั้งและขนาดไฟล์พอดีกับแคช

  • ปริมาณงานของคุณใช้ตาราง Delta Lake, Parquet หรือรูปแบบไฟล์ CSV

คุณจะไม่เห็นประโยชน์ของแคชอัจฉริยะถ้า:

  • คุณกําลังอ่านไฟล์ที่เกินขนาดแคช ถ้าเป็นเช่นนั้น จุดเริ่มต้นของไฟล์ที่สามารถลบออกได้ และคิวรีที่ตามมาจะต้องดึงข้อมูลจากที่เก็บข้อมูลระยะไกลอีกครั้ง ในกรณีนี้ คุณจะไม่เห็นประโยชน์ใด ๆ จากแคชอัจฉริยะ และคุณอาจต้องการเพิ่มขนาดแคชและ/หรือขนาดโหนดของคุณ

  • ปริมาณงานของคุณต้องการ shuffle เป็นจํานวนมาก การปิดใช้งานแคชอัจฉริยะจะช่วยเพิ่มพื้นที่ว่างเพื่อป้องกันไม่ให้งานของคุณล้มเหลวเนื่องจากพื้นที่เก็บข้อมูลไม่เพียงพอ

เปิดใช้งานและปิดใช้งานแคชอัจฉริยะ

คุณสามารถปิดใช้งานหรือเปิดใช้งานแคชอัจฉริยะภายในเซสชัน โดยการเรียกใช้โค้ดต่อไปนี้ในสมุดบันทึกของคุณ หรือการตั้งค่าการกําหนดค่านี้ที่ระดับพื้นที่ทํางานหรือรายการสภาพแวดล้อม

spark.conf.set("spark.synapse.vegas.useCache", "false/true")