Databricks Runtime 10.2 para ML (EoS)
Nota
O suporte para esta versão do Databricks Runtime terminou. Para obter a data de fim do suporte, consulte Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
A Databricks lançou esta versão em dezembro de 2021.
O Databricks Runtime 10.2 for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 10.2 (EoS). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinar automaticamente pipelines de aprendizado de máquina. O Databricks Runtime ML também suporta treinamento distribuído de aprendizado profundo usando o Horovod.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.
Novos recursos e melhorias
O Databricks Runtime 10.2 ML é construído sobre o Databricks Runtime 10.2. Para obter informações sobre o que há de novo no Databricks Runtime 10.2, incluindo Apache Spark MLlib e SparkR, consulte as notas de versão do Databricks Runtime 10.2 (EoS ).
Databricks Autologging (Visualização pública)
O Databricks Autologging agora está em Visualização Pública em todas as regiões. O Databricks Autologging é uma solução sem código que fornece rastreamento automático de experimentos para sessões de treinamento de aprendizado de máquina no Azure Databricks. Com o Databricks Autologging, parâmetros de modelo, métricas, arquivos e informações de linhagem são capturados automaticamente quando você treina modelos de uma variedade de bibliotecas populares de aprendizado de máquina. As sessões de treinamento são registradas como MLflow Tracking Runs. Os ficheiros de modelo também são rastreados para que possa registá-los facilmente no Registro de Modelos MLflow e implantá-los para avaliação em tempo real com o MLflow Model Serving.
Para obter mais informações sobre Databricks Autologging, consulte Databricks Autologging.
Melhorias no AutoML
Os seguintes aprimoramentos foram feitos no AutoML.
- O AutoML ignora colunas que têm apenas um único valor.
- Para problemas de classificação e regressão, a coluna de tempo usada para dividir o conjunto de dados em conjuntos de treinamento, validação e teste cronologicamente agora pode ser do tipo string. Anteriormente, apenas timestamp e inteiro eram suportados. Consulte Dividir dados em conjuntos de treinamento, validação e teste para obter detalhes.
Melhorias na Loja de Funcionalidades do Databricks
Os seguintes aprimoramentos foram feitos no Databricks Feature Store.
Interface simplificada FeatureStoreClient
A interface FeatureStoreClient foi simplificada.
-
FeatureStoreClient.create_feature_table()
foi preterido. Em vez disso, useFeatureStoreClient.create_table()
. -
FeatureStoreClient.get_feature_table()
foi preterido. Em vez disso, useFeatureStoreClient.get_table()
. - Todos os argumentos para
FeatureStoreClient.publish_table()
excetoname
eonline_store
devem ser passados como argumentos de palavra-chave.
Publicar apenas colunas selecionadas em lojas online
O Databricks Feature Store agora oferece suporte à publicação apenas de colunas selecionadas em uma loja online. Para obter mais informações, consulte Publicar recursos selecionados em uma loja online.
Principais alterações no ambiente Python do Databricks Runtime ML
A integração automatizada do MLflow Tracking para o Apache Spark MLlib, que foi preterida no Databricks Runtime 10.1 ML, agora está desabilitada por padrão no Databricks Runtime 10.2 ML. Ele foi substituído pela integração PySpark ML Autologging do MLflow, que é habilitada por padrão com Databricks Autologging. O registro automático registra informações adicionais além do que o rastreamento automatizado de MLflow para MLlib capturou, incluindo os parâmetros, métricas e artefatos associados ao melhor modelo.
Pacotes Python atualizados
- databricks-cli 0.14.3 => 0.16.2
- keras 2.6.0 => 2.7.0
- LightGBM 3.3.0 => 3.3.1
- mlflow 1,21,0 => 1,22,0
- plotly 5.3.0 => 5.3.1
- shap 0,39,0 => 0,40,0
- Espaçamento 3.1.3 => 3.2.0
- TensorBoard 2.6.0 => 2.7.0
- tensorflow 2.6.0 => 2.7.0
- torch 1.9.1 => 1.10.0
- Torchvision 0.10.1 => 0.11.1
- transformadores 4.11.3 => 4.12.3
- xgboost 1.4.2 => 1.5.0
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 10.2 ML difere do Databricks Runtime 10.2 da seguinte forma:
-
DBUtils: Databricks Runtime ML não inclui o utilitário de biblioteca (legado) dbutils.library.
Em vez disso, use comandos
%pip
. Veja Bibliotecas em Python com âmbito de bloco de notas. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11,0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 10.2 ML que diferem daquelas incluídas no Databricks Runtime 10.2.
Nesta secção:
- Bibliotecas de nível superior
- Bibliotecas Python
- Bibliotecas R
- Bibliotecas Java e Scala (cluster Scala 2.12)
Bibliotecas de nível superior
O Databricks Runtime 10.2 ML inclui as seguintes bibliotecas de camada superior:
Bibliotecas Python
O Databricks Runtime 10.2 ML usa o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes de ML populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 10.2 ML também inclui os seguintes pacotes:
- hiperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.6
- AutoML 1.5.0 |
Bibliotecas Python em clusters de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.11.0 | Antergos Linux | 2015.10 (Laminação ISO) | Diretórios de aplicativos | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | Astunparse | 1.6.3 |
gerador assíncrono | 1.10 | ATRs | 20.3.0 | função de retorno | 0.2.0 |
bcrypt | 3.2.0 | Bidico | 0.21.4 | lixívia | 3.3.0 |
Blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
Ferramentas de cache | 4.2.4 | catálogo | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clicar | 7.1.2 |
Cloudpickle | 1.6.0 | CMDSTANPY | 0.9.68 | ConfigParser | 5.0.1 |
convertdate | 2.3.2 | criptografia | 3.4.7 | ciclador | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decorador | 5.0.6 |
defusedxml | 0.7.1 | endro (erva) | 0.3.2 | cache de disco | 5.2.1 |
Distlib | 0.3.3 | distro-info | 0,23ubuntu1 | pontos de entrada | 0.3 |
Ephem | 4.1.1 | facetas-visão geral | 1.0.0 | texto rápido | 0.9.2 |
bloqueio de ficheiro | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | Futuro | 0.18.2 | gast | 0.4.0 |
GitDB | 4.0.7 | GitPython | 3.1.12 | Google-Auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-massas | 0.2.0 | Grpcio | 1.39.0 |
Gunicorn | 20.0.4 | GVIZ-API | 1.10.0 | H5PY | 3.1.0 |
Hijri-Conversor | 2.2.2 | feriados | 0.11.3.1 | Horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
Hash de Imagem | 4.2.1 | aprendizagem desequilibrada | 0.8.1 | importlib-metadados | 3.10.0 |
Ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | Isodato | 0.6.0 | é perigoso | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
Joblib | 1.0.1 | Joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | Jupyter-Core | 4.7.1 | Jupyterlab-Pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Pré-processamento de Keras | 1.1.2 |
Kiwisolver | 1.3.1 | coalas | 1.8.2 | Calendário Lunar Coreano | 0.2.1 |
códigos de idioma | 3.3.0 | libclang | 12.0.0 | LightGBM | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendário | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | Mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimétodo | 1.6 | Murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | NLTK | 3.6.1 |
caderno | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
OAuthlib | 3.1.0 | opt-einsum | 3.3.0 | embalagem | 21,3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | PandocFilters | 1.4.3 |
Paramiko | 2.7.2 | Parso | 0.7.0 | Patia | 0.6.0 |
bode expiatório | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
Phik | 0.12.0 | pickleshare | 0.7.5 | Almofada | 8.2.0 |
pip | 21.0.1 | enredo | 5.3.1 | Preshed | 3.0.5 |
prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 | profeta | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-módulos | 0.2.8 | Pybind11 | 2.8.1 | pycparser | 2,20 |
Pidântico | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.4.0 | Pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | Pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
Python-Engineio | 4.3.0 | python-socketio | 5.4.1 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | Pyzmq | 20.0.0 |
regex | 2021.4.4 | pedidos | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | RSA | 4.7.2 | s3transfer | 0.3.7 |
sacremoses | 0.0.46 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
seaborn | 0.11.1 | Enviar para o Lixo | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | shap | 0.40.0 | simplejson | 3.17.2 |
seis | 1.15.0 | fatiador | 0.0.7 | smart-open | 5.2.0 |
smmap | 3.0.5 | espaçoso | 3.2.0 | Spacy-legado | 3.0.8 |
spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 | SQLPARSE | 0.4.1 |
Sério | 2.4.1 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
tabular | 0.8.7 | enredado em Unicode | 0.1.0 | tenacidade | 6.2.0 |
TensorBoard | 2.7.0 | Tensorboard-Servidor de Dados | 0.6.1 | Tensorboard-plugin-perfil | 2.5.0 |
Tensorboard-plugin-wit | 1.8.0 | TensorFlow-CPU | 2.7.0 | TensorFlow-Estimador | 2.7.0 |
TensorFlow-IO-GCS-FileSystem | 0.22.0 | Termcolor | 1.1.0 | terminado | 0.9.4 |
caminho de teste | 0.4.4 | fino | 8.0.12 | ThreadPoolCtl | 2.1.0 |
tokenizadores | 0.10.3 | tocha | 1.10.0+cpu | Torchvision | 0.11.1+CPU |
tornado | 6.1 | TQDM | 4.59.0 | traitlets | 5.0.5 |
transformadores | 4.12.3 | digitador | 0.3.2 | extensões de digitação | 3.7.4.3 |
Ujson | 4.0.2 | Upgrades automáticos | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | visões | 0.7.4 | Wasabi | 0.8.2 |
largura de wc | 0.2.5 | WebEncodings | 0.5.1 | Websocket-cliente | 0.57.0 |
Werkzeug | 1.0.1 | roda | 0.36.2 | widgetsnbextension | 3.5.1 |
embrulhado | 1.12.1 | xgboost | 1.5.0 | zipp | 3.4.1 |
Bibliotecas Python em clusters GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.11.0 | Antergos Linux | 2015.10 (Laminação ISO) | Appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | Astunparse | 1.6.3 |
gerador assíncrono | 1.10 | ATRs | 20.3.0 | Backcall | 0.2.0 |
bcrypt | 3.2.0 | Bidico | 0.21.4 | lixívia | 3.3.0 |
Blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
Ferramentas de cache | 4.2.4 | catálogo | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clicar | 7.1.2 |
Cloudpickle | 1.6.0 | CmdStanPy | 0.9.68 | ConfigParser | 5.0.1 |
convertdate | 2.3.2 | criptografia | 3.4.7 | ciclador | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decorador | 5.0.6 |
defusedxml | 0.7.1 | endro | 0.3.2 | cache de disco | 5.2.1 |
Distlib | 0.3.3 | distro-info | 0,23ubuntu1 | pontos de entrada | 0.3 |
Ephem | 4.1.1 | facetas-visão geral | 1.0.0 | texto rápido | 0.9.2 |
bloqueio de ficheiro | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | Futuro | 0.18.2 | gast | 0.4.0 |
GitDB | 4.0.7 | GitPython | 3.1.12 | Google-Auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | Grpcio | 1.39.0 |
Gunicorn | 20.0.4 | GVIZ-API | 1.10.0 | H5PY | 3.1.0 |
Hijri-Conversor | 2.2.2 | feriados | 0.11.3.1 | Horovod | 0.23.0 |
htmlmin | 0.1.12 | Hugging Face Hub | 0.1.2 | idna | 2.10 |
Hash de Imagem | 4.2.1 | aprendizagem desequilibrada | 0.8.1 | importlib-metadata | 3.10.0 |
Ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | Isodato | 0.6.0 | é perigoso | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
Joblib | 1.0.1 | Joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | Jupyter-core | 4.7.1 | Jupyterlab-Pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Pré-processamento de Keras | 1.1.2 |
Kiwisolver | 1.3.1 | coalas | 1.8.2 | Calendário Lunar Coreano | 0.2.1 |
códigos de idioma | 3.3.0 | libclang | 12.0.0 | LightGBM | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendário | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | Mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-magro | 1.22.0 | multimétodo | 1.6 | Murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | NLTK | 3.6.1 |
caderno | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
OAuthlib | 3.1.0 | opt-einsum | 3.3.0 | embalagem | 21,3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | PandocFilters | 1.4.3 |
Paramiko | 2.7.2 | Parso | 0.7.0 | Pathia | 0.6.0 |
bode expiatório | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
Phik | 0.12.0 | pickleshare | 0.7.5 | Almofada | 8.2.0 |
pip | 21.0.1 | enredo | 5.3.1 | Preshed | 3.0.5 |
prompt-toolkit | 3.0.17 | profeta | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-módulos | 0.2.8 |
pybind11 | 2.8.1 | pycparser | 2,20 | Pidântico | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | Pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | Python-Engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | Pyzmq | 20.0.0 | regex | 2021.4.4 |
pedidos | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
RSA | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Enviar para o Lixo | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
(No improvements possible without additional context on what "shap" refers to. Please clarify its meaning or use in a sentence to provide an accurate translation.) | 0.40.0 | simplejson | 3.17.2 | seis | 1.15.0 |
segmentador | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
espaçado | 3.2.0 | Spacy-legado | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | SQLPARSE | 0.4.1 | SRSLY | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabular | 0.8.7 |
emaranhado em unicode | 0.1.0 | tenacidade | 6.2.0 | TensorBoard | 2.7.0 |
Servidor de Dados do TensorBoard | 0.6.1 | TensorBoard-plugin-perfil | 2.5.0 | Plugin do TensorBoard-wit | 1.8.0 |
TensorFlow | 2.7.0 | TensorFlow-Estimador | 2.7.0 | TensorFlow-IO-GCS-FileSystem | 0.22.0 |
Termcolor | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
fino | 8.0.12 | ThreadPoolCtl | 2.1.0 | tokenizadores | 0.10.3 |
tocha | 1.10.0+cu111 | Torchvision | 0.11.1+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | módulo Traitlets | 5.0.5 | transformadores | 4.12.3 |
digitador | 0.3.2 | extensões de digitação | 3.7.4.3 | Ujson | 4.0.2 |
Atualizações automáticas | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
visões | 0.7.4 | Wasabi | 0.8.2 | largura de wc | 0.2.5 |
WebEncodings | 0.5.1 | Websocket-cliente | 0.57.0 | Werkzeug | 1.0.1 |
roda | 0.36.2 | widgetsnbextension | 3.5.1 | embrulhado | 1.12.1 |
xgboost | 1.5.0 | zipp | 3.4.1 |
Pacotes Spark contendo módulos Python
Pacote Spark | Módulo Python | Versão |
---|---|---|
graphframes | GraphFrames | 0.8.2-db1-spark3.2 |
Bibliotecas R
As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 10.2.
Bibliotecas Java e Scala (cluster Scala 2.12)
Além das bibliotecas Java e Scala no Databricks Runtime 10.2, o Databricks Runtime 10.2 ML contém os seguintes JARs:
Clusters de CPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23EB1EF |
ml.dmlc | xgboost4j-spark_2,12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow cliente | 1.22.0 |
org.mlflow | mlflow-Spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters de GPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23EB1EF |
ml.dmlc | xgboost4j-spark_2,12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |