Komisi Taksi & Limusin NYC - catatan perjalanan taksi hijau
Catatan perjalanan taksi ramah lingkungan meliputi bidang yang mencatat tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi.
Catatan
Microsoft menyediakan Azure Open Datasets berdasarkan "apa adanya". Microsoft tidak memberikan jaminan, tersurat maupun tersirat, jaminan atau ketentuan sehubungan dengan penggunaan Anda atas himpunan data. Sejauh diizinkan menurut undang-undang setempat Anda, Microsoft melepaskan semua tanggung jawab atas segala kerusakan atau kerugian, termasuk langsung, konsekuensial, khusus, tidak langsung, insidental, atau hukuman, yang diakibatkan oleh penggunaan Anda atas kumpulan data.
Kumpulan data ini disediakan di bawah ketentuan asli yang diterima Microsoft data sumbernya. Himpunan data mungkin menyertakan data yang bersumber dari Microsoft.
Volume dan retensi
Himpunan data ini disimpan dalam format Parquet. Total terdapat sekitar 80 Juta baris (2 GB) per 2018.
Himpunan data ini berisi catatan historis yang diakumulasi dari 2009 hingga 2018. Anda dapat menggunakan pengaturan parameter di SDK kami untuk mengambil data dalam rentang waktu tertentu.
Lokasi penyimpanan
Himpunan data ini disimpan di wilayah Azure US Timur. Disarankan untuk mengalokasikan sumber daya komputasi di US Timur untuk afinitas.
Informasi Tambahan
Komisi Taksi dan Limousine NYC (TLC):
Data dikumpulkan dan diberikan kepada Komisi Taksi dan Limousine NYC (TLC) oleh penyedia teknologi yang berwenang di bawah Program Peningkatan Penumpang Taksi dan Seragam (TPEP/LPEP). Data perjalanan tidak dibuat oleh TLC, dan TLC tidak membuat representasi tentang keakuratan data ini.
Lihat lokasi set data asli dan ketentuan penggunaan asli.
Kolom
Nama | Jenis data | Unik | Nilai (sampel) | Deskripsi |
---|---|---|---|---|
doLocationId | string | 264 | 74 42 | DoLocationID TLC Taxi Zone tempat argometer dilepaskan. |
dropoffLatitude | ganda | 109.721 | 40,7743034362793 40,77431869506836 | Tidak digunakan lagi sejak 07.2016 dan seterusnya |
dropoffLongitude | ganda | 75.502 | -73,95272827148438 -73,95274353027344 | Tidak digunakan lagi sejak 07.2016 dan seterusnya |
extra | ganda | 202 | 0,5 1,0 | Biaya tambahan dan lain-lain. Saat ini, ini hanya mencakup biaya jam sibuk dan biaya semalam $0,50 dan $1. |
fareAmount | ganda | 10.367 | 6,0 5,5 | Tarif waktu dan jarak dihitung menggunakan meteran. |
improvementSurcharge | string | 92 | 0,3 0 | Biaya tambahan perbaikan sebesar $0,30 dinilai pada perjalanan yang dipesan di tempat penurunan penumpang. Biaya tambahan perbaikan mulai dikenakan pada tahun 2015. |
lpepDropoffDatetime | rentang waktu | 58.100.713 | 22-05-2016 Pukul 00.00.00 09-05-2016 Pukul 00.00.00 | Tanggal dan waktu saat meteran dilepas. |
lpepPickupDatetime | rentang waktu | 58.157.349 | 22-10-2013 Pukul 12.40.36 09-08-2014 Pukul 15:54:25 | Tanggal dan waktu saat meteran dipasang. |
mtaTax | ganda | 34 | 0,5 -0,5 | Pajak MTA $0,50 yang secara otomatis dipicu berdasarkan tarif meteran yang digunakan. |
passengerCount | int | 10 | 1 2 | Jumlah penumpang di dalam kendaraan. Ini adalah nilai yang dimasukkan oleh pengemudi. |
paymentType | int | 5 | 2 1 | Kode numerik menandakan bagaimana penumpang membayar perjalanan. 1= Kartu kredit 2= Tunai 3= Tanpa biaya 4= Sengketa 5= Tidak diketahui 6= Perjalanan dibatalkan |
pickupLatitude | ganda | 95.110 | 40,721351623535156 40,721336364746094 | Tidak digunakan lagi sejak 07.2016 dan seterusnya |
pickupLongitude | ganda | 55.722 | -73,84429931640625 -73,84429168701172 | Tidak digunakan lagi sejak 07.2016 dan seterusnya |
puLocationId | string | 264 | 74 41 | TLC Taxi Zone tempat argometer dipasang. |
puMonth | int | 12 | 3 5 | |
puYear | int | 14 | 2015 2016 | |
rateCodeID | int | 7 | 1 5 | Kode tarif akhir berlaku di akhir perjalanan. 1= Tarif standar 2= JFK 3= Newark 4= Nassau atau Westchester 5= Tarif negosiasi 6= Penumpang grup |
storeAndFwdFlag | string | 2 | N Y | Bendera ini menunjukkan apakah catatan perjalanan disimpan dalam memori kendaraan sebelum dikirim ke vendor, dan juga dikenal sebagai "simpan dan teruskan," karena kendaraan tidak memiliki koneksi ke server. Y= perjalanan simpan dan teruskan N = bukan perjalanan simpan dan teruskan |
tipAmount | ganda | 6.206 | 1,0 2,0 | Jumlah tip - Bidang ini secara otomatis diisi untuk tip kartu kredit. Tip tunai tidak disertakan. |
tollsAmount | ganda | 2.150 | 5,54 5,76 | Jumlah total semua biaya yang dibayarkan selama perjalanan. |
totalAmount | ganda | 20,188 | 7,8 6,8 | Jumlah total yang dibebankan kepada penumpang. Tidak termasuk tip uang tunai. |
tripDistance | ganda | 7.060 | 0,9 1,0 | Jarak perjalanan yang berlalu dalam mil dilaporkan oleh argometer. |
tripType | int | 3 | 1 2 | Kode yang menunjukkan apakah perjalanan tersebut dipesan di jalan atau ditugaskan yang secara otomatis ditetapkan berdasarkan tarif meteran yang digunakan tetapi dapat diubah oleh pengemudi. 1= Dipesan di jalan 2= Ditugaskan |
vendorID | int | 2 | 2 1 | Kode yang menunjukkan penyedia LPEP yang menyediakan catatan. 1= Teknologi Seluler Kreatif, LLC; 2= VeriFone Inc. |
Pratinjau
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24/6/2081 Pukul 17.40.37 | 24/6/2081 Pukul 18.42.47 | 1 | 16,95 | 93 | 117 | 1 | N | 1 | 52 | 1 | 0,5 | 0,3 | 0 | 2,16 | 55,96 | 1 | 2081 | 6 |
2 | 28/11/2030 Pukul 12.19.29 | 28/11/2030 Pukul 12.25.37 | 1 | 1,08 | 42 | 247 | 1 | N | 2 | 6.5 | 0 | 0,5 | 0,3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 28/11/2030 Pukul 12.14.50 | 28/11/2030 Pukul 12.14.54 | 1 | 0,03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 14/11/2020 Pukul 11.38.07 | 14/11/2020 Pukul 11.42.22 | 1 | 0,63 | 129 | 129 | 1 | N | 2 | 4.5 | 1 | 0,5 | 0,3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 14/11/2020 Pukul 9.55.36 | 14/11/2020 Pukul 10.04.54 | 1 | 3.8 | 82 | 138 | 1 | N | 2 | 12.5 | 1 | 0,5 | 0,3 | 0 | 0 | 14,3 | 1 | 2020 | 11 |
2 | 26/8/2019 Pukul 16.18.37 | 26/8/2019 Pukul 16.19.35 | 1 | 0 | 264 | 264 | 1 | N | 2 | 1 | 0 | 0,5 | 0,3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 1/7/2019 Pukul 8.28.33 | 1/7/2019 Pukul 8.32.33 | 1 | 0,71 | 7 | 7 | 1 | N | 1 | 5 | 0 | 0,5 | 0,3 | 1,74 | 0 | 7,54 | 1 | 2019 | 7 |
2 | 1/7/2019 Pukul 12.04.53 | 1/7/2019 Pukul 12.21.56 | 1 | 2.71 | 223 | 145 | 1 | N | 2 | 13 | 0,5 | 0,5 | 0,3 | 0 | 0 | 14,3 | 1 | 2019 | 7 |
2 | 1/7/2019 Pukul 12.04.11 | 1/7/2019 Pukul 12.21.15 | 1 | 3,14 | 166 | 142 | 1 | N | 2 | 14,5 | 0,5 | 0,5 | 0,3 | 0 | 0 | 18,55 | 1 | 2019 | 7 |
2 | 1/7/2019 Pukul 12.03.37 | 1/7/2019 Pukul 12.09.27 | 1 | 0,78 | 74 | 74 | 1 | N | 1 | 6 | 0,5 | 0,5 | 0,3 | 1,46 | 0 | 8,76 | 1 | 2019 | 7 |
Akses data
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
Langkah berikutnya
Lihat himpunan data lainnya di katalog Open Datasets.