다음을 통해 공유


Azure Synapse Analytics 용어

이 문서에서는 Azure Synapse Analytics의 기본 개념을 안내합니다.

Synapse 작업 영역

Synapse 작업 영역은 Azure에서 클라우드 기반 엔터프라이즈 분석을 수행할 수 있는 안전한 협업 경계입니다. 작업 영역은 특정 지역에 배포되며 임시 데이터를 저장하기 위한 연결된 Azure Data Lake Storage Gen2 계정 및 파일 시스템이 있습니다. 작업 영역은 리소스 그룹에 있습니다.

작업 영역에서는 SQL 및 Apache spark를 사용하여 분석을 수행할 수 있습니다. SQL 및 Spark 분석에 사용할 수 있는 리소스는 SQL 및 Spark 로 구성됩니다.

연결된 서비스

작업 영역에는 연결된 서비스 수가 포함될 수 있으며, 기본적으로 작업 영역이 외부 리소스에 연결하는 데 필요한 정보를 정의하는 연결 문자열.

Synapse SQL

Synapse SQL 을 사용하면 Synapse 작업 영역에서 T-SQL(Transact-SQL) 기반 분석을 수행할 수 있습니다. Synapse SQL에는 전용 및 서버리스 두 개의 소비 모델이 있습니다. 전용 모델의 경우 전용 SQL 풀을 사용합니다. 작업 영역에는 이러한 풀이 얼마든지 있을 수 있습니다. 서버리스 모델을 사용하려면 서버리스 SQL 풀을 사용합니다. 모든 작업 영역에는 다음 풀 중 하나가 있습니다.

Synapse Studio 내에서 SQL 스크립트를 실행하여 SQL 풀을 사용할 수 있습니다.

참고 항목

Azure Synapse의 전용 SQL 풀은 전용 SQL 풀(이전의 SQL DW)과 다릅니다. Azure Synapse 작업 영역에 있는 전용 SQL 풀의 모든 기능이 전용 SQL 풀(이전의 SQL DW)에 적용되는 것은 아니며 그 반대의 경우도 마찬가지입니다. 기존 전용 SQL 풀(이전의 SQL DW)에 작업 영역 기능을 사용하도록 설정하려면 전용 SQL 풀(이전의 SQL DW)에 대한 작업 영역 기능 사용을 참조하세요.

Synapse용 Apache Spark

Spark 분석을 사용하려면 Synapse 작업 영역에서 서버리스 Apache Spark 풀을 만들고 사용합니다. Spark 풀 사용을 시작하면 작업 영역은 해당 세션과 연결된 리소스를 처리하는 Spark 세션을 만듭니다.

Synapse에는 Spark를 사용하는 두 가지 방법이 있습니다.

  • Scala, PySpark, C#및 SparkSQL을 사용하는 데이터 과학 및 엔지니어링을 위한 Spark Notebook
  • jar 파일을 사용하여 Batch Spark 작업을 실행하기 위한 Spark 작업 정의

SynapseML

SynapseML(이전에는 MMLSpark라고 함)은 대규모 확장성 있는 ML(기계 학습) 파이프라인 생성을 간소화하는 오픈 소스 라이브러리입니다. Apache Spark 프레임워크를 몇 가지 새로운 방향으로 확장하는 데 사용되는 도구 에코시스템입니다. SynapseML은 기존의 여러 기계 학습 프레임워크와 새로운 Microsoft 알고리즘을 Python, R, Scala, .NET 및 Java에서 사용할 수 있는 확장 가능한 단일 API로 통합합니다. 자세한 내용은 SynapseML이란?

파이프라인

파이프라인은 Azure Synapse가 데이터 통합을 제공하여 서비스 간에 데이터를 이동하고 활동을 오케스트레이션할 수 있도록 하는 방법입니다.

  • 파이프라인은 작업을 함께 수행하는 작업의 논리적 그룹화입니다.
  • 활동은 데이터 복사 또는 Notebook 또는 SQL 스크립트 실행과 같은 데이터에 대해 수행할 파이프라인 내의 작업을 정의합니다.
  • 데이터 흐름은 Synapse Spark를 사용하는 데이터 변환을 수행하기 위한 코드 없는 환경을 제공하는 특정 형태의 작업입니다.
  • 트리거 는 파이프라인을 실행합니다. 수동 또는 자동으로 실행할 수 있습니다(일정, 연속 창 또는 이벤트 기반).
  • 통합 데이터 세트 는 활동에서 입력 및 출력으로 사용할 데이터를 단순히 가리키거나 참조하는 데이터의 명명된 뷰입니다. 연결된 서비스에 속합니다.

데이터 탐색기(미리 보기)

Azure Synapse Data Explorer는 로그 및 원격 분석 데이터를 통해 인사이트를 확보할 수 있는 대화형 쿼리 환경을 고객에게 제공합니다.

  • 데이터 탐색기 풀 은 최적화된 쿼리 성능을 위해 로컬 SSD 스토리지(핫 캐시)가 있는 두 개 이상의 컴퓨팅 노드와 지속성을 위한 여러 스토리지 Blob(콜드 캐시)을 포함하는 전용 클러스터입니다.
  • Data Explorer 데이터베이스는 Data Explorer 풀에서 호스트되며, 테이블 및 기타 데이터베이스 개체의 컬렉션으로 구성된 논리적 엔터티입니다. 풀당 데이터베이스가 두 개 이상 있을 수 있습니다.
  • 테이블 은 기존 관계형 데이터 모델을 사용하여 구성된 데이터를 포함하는 데이터베이스 개체입니다. 데이터는 정렬된 열 목록을 정의하는 Data Explorer의 잘 정의된 테이블 스키마를 준수하는 레코드에 저장되며 각 열에는 이름과 스칼라 데이터 형식이 있습니다. 스칼라 데이터 형식은 구조화(int, real, datetime 또는 timespan) 또는 반구조화(동적) 형식이거나, 자유 텍스트(문자열)일 수 있습니다. 동적 형식은 단일 스칼라 값, 배열 또는 이러한 값의 사전을 보유할 수 있다는 점에서 JSON과 비슷합니다.
  • 외부 테이블 은 데이터 탐색기 데이터베이스 외부의 스토리지 또는 SQL 데이터 원본을 참조하는 테이블입니다. 테이블과 마찬가지로 외부 테이블에는 잘 정의된 스키마(열 이름 및 데이터 형식 쌍의 순서가 지정된 목록)가 있습니다. 데이터가 Data Explorer 풀로 수집되는 Data Explorer 테이블과 달리, 외부 테이블은 풀 외부에서 저장되고 관리되는 데이터에서 작동합니다. 외부 테이블은 데이터를 유지하지 않으며 데이터를 쿼리하거나 외부 데이터 저장소로 내보내는 데 사용됩니다.