OJ Sales Simulated
Himpunan data ini berasal dari himpunan data OJ Dominick dan menyertakan data simulasi tambahan untuk melatih ribuan model secara bersamaan di Azure Machine Learning.
Catatan
Microsoft menyediakan Azure Open Datasets berdasarkan "apa adanya". Microsoft tidak memberikan jaminan, tersurat maupun tersirat, jaminan atau ketentuan sehubungan dengan penggunaan Anda atas himpunan data. Sejauh diizinkan menurut undang-undang setempat Anda, Microsoft melepaskan semua tanggung jawab atas segala kerusakan atau kerugian, termasuk langsung, konsekuensial, khusus, tidak langsung, insidental, atau hukuman, yang diakibatkan oleh penggunaan Anda atas kumpulan data.
Kumpulan data ini disediakan di bawah ketentuan asli yang diterima Microsoft data sumbernya. Himpunan data mungkin menyertakan data yang bersumber dari Microsoft.
Data tersebut berisi penjualan jus jeruk mingguan selama 121 minggu. Terdapat 3.991 toko dan tiga merek jus jeruk per toko sehingga 11.973 model dapat dilatih.
Lihat deskripsi himpunan data asli atau unduh himpunan data.
Kolom
Nama | Jenis data | Unik | Nilai (sampel) | Deskripsi |
---|---|---|---|---|
Iklan | int | 1 | Nilai yang menunjukkan jika ada iklan untuk jus jeruk tersebut selama seminggu 0: Tidak Ada Iklan 1: Iklan | |
Merek | string | dominicks tropicana | Merek jus jeruk | |
Harga | ganda | 2.6 2.09 | Harga jus jeruk (dalam USD) | |
Quantity | int | 10939 11638 | Kuantitas jus jeruk yang terjual untuk minggu tersebut | |
Pendapatan | ganda | 38438,4 36036,0 | Pendapatan dari penjualan jus jeruk untuk minggu tersebut (dalam USD) | |
Bursa | int | 2658 1396 | Nomor toko tempat jus jeruk dijual | |
WeekStarting | rentang waktu | 09-08-1990 Pukul 00.00.00 20-02-1992 Pukul 00.00.00 | Tanggal menunjukkan minggu mana yang terkait dengan penjualan |
Pratinjau
WeekStarting | Bursa | Merek | Quantity | Iklan | Harga | Pendapatan |
---|---|---|---|---|---|---|
1/10/1992 Pukul 12.00.00 | 3571 | minute.maid | 13247 | 1 | 2,42 | 32057,74 |
1/10/1992 Pukul 12.00.00 | 2999 | minute.maid | 18461 | 1 | 2.69 | 49660,09 |
1/10/1992 Pukul 12.00.00 | 1198 | minute.maid | 13222 | 1 | 2.64 | 34906,08 |
1/10/1992 Pukul 12.00.00 | 3916 | minute.maid | 12923 | 1 | 2.45 | 31661,35 |
1/10/1992 Pukul 12.00.00 | 1688 | minute.maid | 9380 | 1 | 2.46 | 23074,8 |
1/10/1992 Pukul 12.00.00 | 1040 | minute.maid | 18841 | 1 | 2,31 | 43522,71 |
1/10/1992 Pukul 12.00.00 | 1938 | minute.maid | 14202 | 1 | 2.19 | 31102,38 |
1/10/1992 Pukul 12.00.00 | 2405 | minute.maid | 16326 | 1 | 2,05 | 33468,3 |
1/10/1992 Pukul 12.00.00 | 1972 | minute.maid | 16380 | 1 | 2.12 | 34725,6 |
Akses data
Azure Notebooks
from azureml.core.workspace import Workspace
ws = Workspace.from_config()
datastore = ws.get_default_datastore()
from azureml.opendatasets import OjSalesSimulated
Baca data dari Azure Open Datasets
# Create a Data Directory in local path
import os
oj_sales_path = "oj_sales_data"
if not os.path.exists(oj_sales_path):
os.mkdir(oj_sales_path)
# Pull all of the data
oj_sales_files = OjSalesSimulated.get_file_dataset()
# or pull a subset of the data
oj_sales_files = OjSalesSimulated.get_file_dataset(num_files=10)
oj_sales_files.download(oj_sales_path, overwrite=True)
Unggah himpunan data individual ke Blob Storage
Kami mengunggah data ke Blob dan akan membuat FileDataset dari folder file csv ini.
target_path = 'oj_sales_data'
datastore.upload(src_dir = oj_sales_path,
target_path = target_path,
overwrite = True,
show_progress = True)
Buat himpunan data file
Kami perlu menentukan jalur data untuk membuat FileDataset.
from azureml.core.dataset import Dataset
ds_name = 'oj_data'
path_on_datastore = datastore.path(target_path + '/')
input_ds = Dataset.File.from_files(path=path_on_datastore, validate=False)
Daftarkan himpunan data file ke ruang kerja
Kami ingin mendaftarkan himpunan data ke ruang kerja kami sehingga kami dapat memanggilnya sebagai input ke dalam Alur kami untuk prakiraan.
registered_ds = input_ds.register(ws, ds_name, create_new_version=True)
named_ds = registered_ds.as_named_input(ds_name)
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
# Download or mount OJ Sales raw files Azure Machine Learning file datasets.
# This works only for Linux based compute. See https://learn.microsoft.com/azure/machine-learning/service/how-to-create-register-datasets to learn more about datasets.
from azureml.opendatasets import OjSalesSimulated
ojss_file = OjSalesSimulated.get_file_dataset()
ojss_file
ojss_file.to_path()
# Download files to local storage
import os
import tempfile
mount_point = tempfile.mkdtemp()
ojss_file.download(mount_point, overwrite=True)
# Mount files. Useful when training job will run on a remote compute.
import gzip
import struct
import pandas as pd
import numpy as np
# load compressed OJ Sales Simulated gz files and return numpy arrays
def load_data(filename, label=False):
with gzip.open(filename) as gz:
gz.read(4)
n_items = struct.unpack('>I', gz.read(4))
if not label:
n_rows = struct.unpack('>I', gz.read(4))[0]
n_cols = struct.unpack('>I', gz.read(4))[0]
res = np.frombuffer(gz.read(n_items[0] * n_rows * n_cols), dtype=np.uint8)
res = res.reshape(n_items[0], n_rows * n_cols)
else:
res = np.frombuffer(gz.read(n_items[0]), dtype=np.uint8)
res = res.reshape(n_items[0], 1)
return pd.DataFrame(res)
import sys
mount_point = tempfile.mkdtemp()
print(mount_point)
print(os.path.exists(mount_point))
print(os.listdir(mount_point))
if sys.platform == 'linux':
print("start mounting....")
with ojss_file.mount(mount_point):
print(os.listdir(mount_point))
train_images_df = load_data(os.path.join(mount_point, 'train-tabular-oj-ubyte.gz'))
print(train_images_df.info())
Langkah berikutnya
Lihat himpunan data lainnya di katalog Open Datasets.