Tempo de execução do Databricks 5.3 ML (EoS)
Nota
O suporte para esta versão do Databricks Runtime terminou. Para obter a data de fim do suporte, consulte Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
A Databricks lançou esta versão em abril de 2019.
O Databricks Runtime 5.3 ML fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 5.3 (EoS). O Databricks Runtime for ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras e XGBoost. Ele também suporta treinamento distribuído de aprendizagem profunda usando Horovod.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.
Novas funcionalidades
O Databricks Runtime 5.3 ML é construído sobre o Databricks Runtime 5.3. Para obter informações sobre o que há de novo no Databricks Runtime 5.3, consulte as notas de versão do Databricks Runtime 5.3 (EoS ). Além das atualizações da biblioteca, o Databricks Runtime 5.3 ML apresenta os seguintes novos recursos:
-
Importante
Esta funcionalidade está em Pré-visualização Privada. Entre em contato com seu representante de vendas do Azure Databricks para saber como habilitá-lo.
Atualiza as seguintes bibliotecas para a versão mais recente:
- PyArrow de 0.8.0 a 0.12.1:
BinaryType
é suportado pela conversão baseada em seta e pode ser usado em PandasUDF. - Horovod de 0.15.2 a 0.16.0.
- TensorboardX de 1,4 a 1,6.
- PyArrow de 0.8.0 a 0.12.1:
A API de exportação de modelo de ML do Databricks foi preterida. O Azure Databricks recomenda o uso do MLeap em vez disso, o que fornece uma cobertura mais ampla dos tipos de modelo MLlib. Saiba mais em MLeap ML model export.
Nota
Além disso, o Databricks Runtime 5.3 contém uma nova montagem FUSE otimizada para carregamento de dados, ponto de verificação de modelo e registro em log de cada trabalhador em um local file:/dbfs/ml
de armazenamento compartilhado, que fornece E/S de alto desempenho para cargas de trabalho de aprendizado profundo. Consulte Carregar dados para aprendizado de máquina e aprendizado profundo.
Atualizações de manutenção
Consulte Atualizações de manutenção do Databricks Runtime 5.4 ML.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 5.3 ML difere do Databricks Runtime 5.3 da seguinte forma:
- Python: 2.7.15 para clusters Python 2 e 3.6.5 para clusters Python 3.
- DBUtils: Databricks Runtime 5.3 ML não contém o utilitário Biblioteca (dbutils.library) (legado).
- Para clusters de GPU, as seguintes bibliotecas de GPU NVIDIA:
- Motorista Tesla 396.44
- CUDA 9,2
- CUDNN 7.2.1
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 5.3 ML que diferem daquelas incluídas no Databricks Runtime 5.3.
Bibliotecas de nível superior
O Databricks Runtime 5.3 ML inclui as seguintes bibliotecas de camada superior:
Bibliotecas Python
O Databricks Runtime 5.3 ML usa o Conda para gerenciamento de pacotes Python. Como resultado, há grandes diferenças nas bibliotecas Python pré-instaladas em comparação com o Databricks Runtime. A seguir está uma lista completa dos pacotes Python fornecidos e versões instaladas usando o gerenciador de pacotes Conda.
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.7.0 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
Astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.POST1 | Cripta | 3.1.6 | lixívia | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
Cloudpickle | 0.5.3 | colorama | 0.3.9 | ConfigParser | 3.5.0 |
criptografia | 2.2.2 | cycler | 0.10.0 | Quisto | 0.28.2 |
decorador | 4.3.0 | docutils | 0.14 | pontos de entrada | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | futuros | 3.2.0 |
gast | 0.2.2 | Grpcio | 1.12.1 | H5PY | 2.8.0 |
Horovod | 0.16.0 | html5lib | 1.0.1 | idna | 2.6 |
ipaddress | 1.0.22 | ipython | 5.7.0 | ipython_genutils | 0.2.0 |
jdcal | 1.4 | Jinja2 | 2.10 | jmespath | 0.9.3 |
jsonschema | 2.6.0 | jupyter-cliente | 5.2.3 | Jupyter-core | 4.4.0 |
Keras | 2.2.4 | Keras-Aplicações | 1.0.6 | Pré-processamento de Keras | 1.0.5 |
Kiwisolver | 1.0.1 | LineCache2 | 1.0.0 | llvmlite | 0.23.1 |
lxml | 4.2.1 | Markdown | 3.0.1 | MarkupSafe | 1.0 |
matplotlib | 2.2.2 | Mistune | 0.8.3 | PEAML | 0.8.1 |
simulado | 2.0.0 | msgpack | 0.5.6 | nbconvert | 5.3.1 |
nbformat | 4.4.0 | nariz | 1.3.7 | nariz-excluir | 0.5.0 |
numba | 0.38.0+0.g2a2b772fc.sujo | numpy | 1.14.3 | olefile | 0.45.1 |
openpyxl | 2.5.3 | pandas | 0.23.0 | PandocFilters | 1.4.2 |
Paramiko | 2.4.1 | pathlib2 | 2.3.2 | patsy | 0.5.0 |
PBR | 5.1.1 | pexpect | 4.5.0 | pickleshare | 0.7.4 |
Travesseiro | 5.1.0 | pip | 10.0.1 | ply | 3.11 |
prompt-toolkit | 1.0.15 | protobuf | 3.6.1 | PSUTIL | 5.6.0 |
psycopg2 | 2.7.5 | ptyprocess | 0.5.2 | pyarrow | 0.12.1 |
pyasn1 | 0.4.5 | pycparser | 2.18 | Pygments | 2.2.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
Meias PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 3.12 | Pyzmq | 17.0.0 |
pedidos | 2.18.4 | s3transferir | 0.1.13 | Scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplesgenérico | 0.8.1 | singledispatch | 3.4.0.3 |
seis | 1.11.0 | statsmodels | 0.9.0 | subprocesso32 | 3.5.3 |
TensorBoard | 1.12.2 | tensorboardX | 1.6 | TensorFlow | 1.12.0 |
Termcolor | 1.1.0 | caminho de teste | 0.3.1 | tocha | 0.4.1 |
Torchvision | 0.2.1 | tornado | 5.0.2 | traceback2 | 1.4.0 |
traços | 4.3.2 | teste unitário2 | 1.1.0 | urllib3 | 1.22 |
virtualenv | 16.0.0 | largura de wc | 0.1.7 | WebEncodings | 0.5.1 |
Werkzeug | 0.14.1 | roda | 0.31.1 | embrulhado | 1.10.11 |
wsgiref | 0.1.2 |
Além disso, os seguintes pacotes do Spark incluem módulos Python:
Pacote Spark | Módulo Python | Versão |
---|---|---|
quadros gráficos | quadros gráficos | 0.7.0-db1-faísca2.4 |
faísca-aprendizagem profunda | Faísca | 1.5.0-DB1-Faísca2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
Bibliotecas R
As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 5.3.
Bibliotecas Java e Scala (cluster Scala 2.11)
Além das bibliotecas Java e Scala no Databricks Runtime 5.3, o Databricks Runtime 5.3 ML contém os seguintes JARs:
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.databricks | faísca-aprendizagem profunda | 1.5.0-DB1-Faísca2.4 |
com.typesafe.akka | AKKA-actor_2,11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0,81 |
ml.dmlc | xgboost4j-faísca | 0,81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-faísca2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | TensorFlow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |