머신 러닝을 위한 Databricks Runtime 10.4 LTS
Machine Learning용 Databricks Runtime 10.4 LTS는 Databricks Runtime 10.4 LTS를 기반으로 하는 Machine Learning 및 데이터 과학을 위한 즉시 사용 가능한 환경을 제공합니다. Databricks Runtime ML에는 TensorFlow, PyTorch 및 XGBoost를 포함하여 널리 사용되는 많은 기계 학습 라이브러리가 포함되어 있습니다. Databricks Runtime ML에는 기계 학습 파이프라인을 자동으로 학습시키는 도구인 AutoML이 포함되어 있습니다. Databricks Runtime ML은 Horovod를 사용한 분산 딥 러닝 학습도 지원합니다.
참고
LTS는 이 버전이 장기 지원 중이라는 의미입니다. Databricks Runtime LTS 버전 수명 주기를 참조하세요.
Databricks Runtime ML 클러스터 만들기 지침을 포함한 자세한 내용은 Databricks의 AI 및 기계 학습을 참조하세요.
팁
지원 종료(EoS)에 도달한 Databricks Runtime 버전에 대한 릴리스 정보를 확인하려면 지원 종료 Databricks Runtime 릴리스 정보를 참조하세요. EoS Databricks Runtime 버전은 폐기되었으며 업데이트되지 않을 수 있습니다.
새로운 기능 및 향상 기능
Databricks Runtime 10.4 LTS ML은 Databricks Runtime 10.4 LTS를 기반으로 빌드되었습니다. Apache Spark MLlib 및 SparkR을 포함한 Databricks Runtime 10.4 LTS의 새로운 기능에 대한 자세한 내용은 Databricks Runtime 10.4 LTS 릴리스 정보를 참조하세요.
AutoML의 향상된 기능
AutoML의 향상된 기능은 다음과 같습니다.
AutoML은 일반적으로 사용할 수 있습니다.
Databricks Runtime 10.4 LTS ML부터 AutoML을 일반적으로 사용할 수 있습니다.
누락된 값의 대체
이제 null 값을 대치하는 방법을 지정할 수 있습니다. 기본적으로 AutoML은 열 형식 및 내용에 따라 대체 메서드를 선택합니다. 자세한 내용은 누락된 값 대입을 참조하세요.)
UI에서 열 선택
분류 및 회귀 문제의 경우 이제 API 외에 UI를 사용하여 계산 중에 AutoML에서 무시해야 하는 열을 지정할 수 있습니다. 열 선택 참조하세요.
새 데이터 형식
이제 AutoML에서 숫자 배열 형식을 지원합니다.
생성된 Notebook 및 실험의 사용자 지정 위치
이제 AutoML에서 생성된 Notebook 및 실험을 저장해야 하는 작업 영역에서 위치를 지정할 수 있습니다.
experiment_dir
매개 변수를 사용합니다. AutoML Python API 참조를 참조하세요.
Databricks 기능 저장소의 개선 사항
Databricks 기능 저장소가 다음과 같이 개선되었습니다.
- 이제 기존 델타 테이블을 기능 테이블로 등록할 수 있습니다.
시스템 환경
Databricks Runtime 10.4 LTS ML의 시스템 환경은 다음과 같이 Databricks Runtime 10.4 LTS와 다릅니다.
-
DBUtils: Databricks Runtime ML에는 라이브러리 유틸리티(dbutils.library)(레거시)가 포함되어 있지 않습니다.
대신
%pip
명령을 사용합니다. 노트북 스코프의 Python 라이브러리를 참조하세요. - GPU 클러스터의 경우 Databricks Runtime ML에는 다음과 같은 NVIDIA GPU 라이브러리가 포함됩니다.
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
라이브러리
다음 섹션에서는 Databricks Runtime 10.4 LTS에 포함된 라이브러리와 다른 Databricks Runtime 10.4 LTS ML에 포함된 라이브러리를 나열합니다.
이 구역의 내용:
최상위 계층 라이브러리
Databricks Runtime 10.4 LTS ML에는 다음과 같은 최상위 라이브러리가 포함되어 있습니다.
- GraphFrames
- Horovod 및 HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector (스파크와 텐서플로우를 연결하는 커넥터)
- Tensorflow
- TensorBoard
Python 라이브러리
Databricks Runtime 10.4 LTS ML은 Python 패키지 관리에 Virtualenv를 사용하며 많은 자주 사용되는 ML 패키지를 포함합니다.
다음 섹션에 지정된 패키지 외에도 Databricks Runtime 10.4 LTS ML에는 다음 패키지도 포함됩니다.
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
CPU 클러스터의 Python 라이브러리
로컬 Python 가상 환경에서 Databricks Runtime ML Python 환경을 재현하려면 requirements-10.4.txt 파일을 다운로드하고 pip install -r requirements-10.4.txt
를 실행합니다. 이 명령은 Databricks Runtime ML에서 사용하는 모든 오픈 소스 라이브러리를 설치하지만 Azure Databricks 개발 라이브러리(예: databricks-automl
, databricks-feature-store
또는 hyperopt
의 Databricks 포크)는 설치하지 않습니다.
라이브러리 | 버전 | 라이브러리 | 버전 | 라이브러리 | 버전 |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10(ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
비동기 생성기 | 1.10 | 속성 | 20.3.0 | 백콜 | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | 표백제 | 3.3.0 |
행복 | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | 카탈로그 | 2.0.6 | 인증서 | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | 클릭 | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
변환날짜 | 2.3.2 | 암호화 | 3.4.7 | 사이클러 | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
데코레이터 | 5.0.6 | defusedxml | 0.7.1 | 딜 | 0.3.2 |
디스크 캐시 | 5.2.1 | distlib | 0.3.4 | 배포판 정보 | 0.23ubuntu1 |
엔트리포인트 | 0.3 | ephem | 4.1.3 | 측면 개요 | 1.0.0 |
fasttext | 0.9.2 | 파일 잠금 | 3.0.12 | Flask | 1.1.2 |
플랫버퍼스 | 2.0 | fsspec | 0.9.0 | 미래 | 0.18.2 |
gast | 0.4.0 | GitDB (기트 데이터베이스) | 4.0.7 | GitPython | 3.1.12 |
구글 인증 (google-auth) | 1.22.1 | google-auth-oauthlib | 0.4.2 | 구글-파스타 | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | 히즈리 변환기 | 2.2.3 | 휴일 | 0.12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | 이미지 해시 | 4.2.1 | imbalanced-learn (불균형-학습) | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | 아이소데이트 (ISO 날짜) | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | Keras | 2.8.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
한국 음력 달력 | 0.2.1 | 언어 코드 | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | 음력 달력 | 0.0.9 |
Mako | 1.1.3 | Markdown(마크다운) | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | 미튠 | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | 다양한 방식 | 1.7 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | 노트 | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
패키징 | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
질환 | 0.6.0 | 희생양 | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
베개 | 8.2.0 | pip (파이썬 패키지 관리자) | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | 프레셰드 | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | 예언자 | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.1 | pycparser | 2.20 | pydantic | 1.8.2 |
Pygments (파이그먼츠) | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
python-dateutil | 2.8.1 | 파이썬 편집기 | 1.0.4 | Python-엔진IO | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021년 4월 4일 |
요청 | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
샵 | 0.40.0 | simplejson | 3.17.2 | 6 | 1.15.0 |
슬라이서 | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
넓은 | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | 진짜 | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | 표로 정리하다 | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | 끈기 | 6.2.0 | tensorboard | 2.8.0 |
tensorboard-data-server | 0.6.1 | 텐서보드-플러그인-프로필 | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
termcolor | 1.1.0 | 완료 | 0.9.4 | 테스트 경로 | 0.4.4 |
tf-estimator-nightly | 2.8.0.dev2021122109 | 띵크 | 8.0.12 | threadpoolctl | 2.1.0 |
토크나이저 | 0.10.3 | 손전등 | 1.10.2+cpu | torchvision | 0.11.3+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
변환기 | 4.16.2 | typer | 0.3.2 | 타이핑 익스텐션즈 (typing-extensions) | 3.7.4.3 |
ujson | 4.0.2 | 자동 업그레이드 | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | 비전 | 0.7.4 | 와사비 | 0.8.2 |
wcwidth (문자의 표시 너비를 계산하는 함수) | 0.2.5 | 웹엔코딩스 | 0.5.1 | 웹소켓 클라이언트 | 0.57.0 |
도구 | 1.0.1 | 바퀴 | 0.36.2 | widgetsnbextension | 3.5.1 |
포장된 | 1.12.1 | xgboost | 1.5.2 | 지퍼 | 3.4.1 |
GPU 클러스터의 Python 라이브러리
라이브러리 | 버전 | 라이브러리 | 버전 | 라이브러리 | 버전 |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10(ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
비동기 생성기 | 1.10 | 속성들 | 20.3.0 | 백콜 | 0.2.0 |
bcrypt | 3.2.0 | 바이딕트 | 0.21.4 | 표백제 | 3.3.0 |
행복 | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | 카탈로그 | 2.0.6 | 서티피 | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | 클릭 | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | 암호화 | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
데코레이터 | 5.0.6 | defusedxml | 0.7.1 | 딜 | 0.3.2 |
디스크 캐시 | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
진입점 | 0.3 | 에펨 | 4.1.3 | 측면 개요 | 1.0.0 |
fasttext | 0.9.2 | 파일 잠금 | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | 미래 | 0.18.2 |
가스트 | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | 히즈리 변환기 | 2.2.3 | 휴일 | 0.12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn (불균형 학습) | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | Keras | 2.8.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
한국 음력 달력 | 0.2.1 | 언어 코드 | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | 음력 달력 | 0.0.9 |
Mako | 1.1.3 | Markdown (텍스트 서식 언어) | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno (미싱노) | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | 다중 방법 | 1.7 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | 공책 | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
패키징 | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
병증(병의 접미사) | 0.6.0 | 희생양 | 0.5.1 | petastorm | 0.11.4 |
pexpect (파이썬 자동화 도구) | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
베개 | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | 프롬프트 툴킷 | 3.0.17 |
예언자 | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
pycparser | 2.20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | 정규식 | 2021년 4월 4일 | 요청 | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | 사크레모세스 | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn (파이썬 데이터 시각화 라이브러리) | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | 샵 | 0.40.0 |
simplejson | 3.17.2 | 6 | 1.15.0 | 슬라이서 | 0.0.7 |
스마트-오픈 | 5.2.0 | smmap | 3.0.5 | 스페이시 | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | 진짜 | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | 표로 정리하다 | 0.8.7 | 유니코드에 얽혀서 | 0.1.0 |
끈기 | 6.2.0 | 텐서보드 | 2.8.0 | TensorBoard 데이터 서버 | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
완료됨 | 0.9.4 | testpath | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | 토크나이저 | 0.10.3 |
손전등 | 1.10.2+cu111 | torchvision | 0.11.3+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | 변환기 | 4.16.2 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
무인 업그레이드 | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
환상 | 0.7.4 | 와사비 | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | 도구 | 1.0.1 |
바퀴 | 0.36.2 | widgetsnbextension | 3.5.1 | 감싸인 | 1.12.1 |
xgboost | 1.5.2 | zipp | 3.4.1 |
Python 모듈이 포함된 Spark 패키지
Spark 패키지 | Python 모듈 | 버전 |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
R 라이브러리
R 라이브러리는 Databricks Runtime 10.4 LTS의 R 라이브러리와 동일합니다.
Java 및 Scala 라이브러리(Scala 2.12 클러스터)
Databricks Runtime 10.4 LTS의 Java 및 Scala 라이브러리 외에도 Databricks Runtime 10.4 LTS ML에는 다음 JAR이 포함되어 있습니다.
CPU 클러스터
그룹 아이디 | 아티팩트 ID | 버전 |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU 클러스터
그룹 ID | 아티팩트 ID | 버전 |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |