NYC Taxi &Limuzin Bizottság - For-Hire Jármű (FHV) utazási rekordok
A For-Hire Vehicle („FHV”) utazás rekordjai a központi rendszámot, az utasfelvétel dátumát és idejét, valamint a taxizóna helyazonosítóját tartalmazzák (lásd a lenti fájlt). Ezeket a rekordokat a központok készítették az FHV utazás rekordjai alapján.
Feljegyzés
A Microsoft az Azure Open Datasets szolgáltatást "adott módon" biztosítja. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát vagy feltételeket az adathalmazok Ön általi használatára vonatkozóan. A microsoft a helyi jogszabályok által megengedett mértékben kizár minden felelősséget az adathalmazok használatából eredő károkért vagy veszteségekért, beleértve a közvetlen, következményi, különleges, közvetett, incidenses vagy büntető jellegű károkat is.
Az adatkészletet a Microsoft forrásadataihoz tartozó eredeti feltételek szerint szolgáltatjuk. A készlet tartalmazhat Microsofttól származó adatokat.
Kötet és megőrzés
Az adatkészlet Parketta formátumban van tárolva. 2018-ra körülbelül 500 M sor (5 GB) van.
Az adatkészlet 2009. és 2018. között összegyűjtött adatokat tartalmaz. Adott időtartomány adatainak beolvasásához az általunk biztosított SDK paraméterbeállításait használhatja.
Tárolási hely
Az adatkészlet tárolási helye a Kelet-USA Azure-régió. Az affinitás érdekében Kelet-USA régión belüli számítási erőforrások lefoglalását javasoljuk.
További információk
NYC Taxi and Limousine Commission (TLC):
Az adatokat a Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP) keretében technológiai szolgáltatók szolgáltatták az NYC Taxi and Limousine Commission (TLC) számára. Az utazások adatait nem a TLC hozta létre, amely így nem is vállal felelősséget ezek pontosságáért.
Tekintse meg az eredeti adatkészlet helyét és az eredeti használati feltételeket.
Oszlopok
Név | Adattípus | Egyedi | Values (sample) | Leírás |
---|---|---|---|---|
dispatchBaseNum | húr | 1,144 | B02510 B02764 | Az utazást kiosztó taxiállomás TLC-bázisengedélyszáma |
doLocationId | húr | 267 | 265 132 | A TLC-taxizóna amelyben az utazás véget ért. |
dropOffDateTime | időbélyeg | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | A leszállás dátuma és ideje. |
pickupDateTime | időbélyeg | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | Az utasfelvétel dátuma és ideje. |
puLocationId | húr | 266 | 79 161 | Az út kiindulópontjának TLC taxizónája. |
puMonth | egész | 12 | 1 12 | |
puYear | egész | 5 | 2018 2017 | |
srFlag | húr | 44 | 1 2 | Azt jelzi, hogy az utazás része volt-e egy nagy volumenű FHV-vállalat által kínált megosztott utazási láncnak (például Uber Pool, Lyft Line). Megosztott utak esetén az érték 1. Nem megosztott utak esetén ez a mező null. MEGJEGYZÉS: A legtöbb nagy kötetű FHV-vállalat esetében csak azokat a megosztott utakat jelöli meg a rendszer, amelyeket az utazás során kértek és egyeztek meg egy másik megosztott utazásra vonatkozó kéréssel. A Lyft azonban (alaprendszámok: B02510 + B02844) azokat az utakat is megjelöli, amelyeknél a megosztott út igénylése megtörtént, de nem sikerült másik utast rendelni hozzá – tehát az említett két rendszámkészletből származó SR_Flag=1 megjelölésű utak VAGY az első utat jelzik egy megosztott láncon belül, VAGY egy igényelt, de másik úttal nem összekötött utat. A felhasználók arra számíthatnak, hogy a rendszer több, Lyft által teljesített megosztott utat jelenít meg. |
Előnézet
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 2019. 06. 30. 11:59:57 | 2019.07.01. 12:07:21 | 264 | null | null | 2019 | 6 |
B01667 | 2019.06.30. 11:59:56 | 2019.07.01. 12:28:06 | 264 | null | null | 2019 | 6 |
B02849 | 2019. 06. 30. 11:59:55 | 2019.07.01. 12:14:10 | 264 | null | null | 2019 | 6 |
B02249 | 2019. 06. 30. 11:59:53 | 2019.07.01. 12:15:53 | 264 | null | null | 2019 | 6 |
B00887 | 2019. 06. 30. 11:59:48 | 2019.07.01. 12:29:29 | 264 | null | null | 2019 | 6 |
B01626 | 2019. 06. 30. 11:59:45 | 2019.07.01. 12:18:20 | 264 | null | null | 2019 | 6 |
B01259 | 2019.06.30. 11:59:44 | 2019.07.01. 12:03:15 | 264 | null | null | 2019 | 6 |
B01145 | 2019.06.30. 11:59:43 | 2019.07.01. 12:11:15 | 264 | null | null | 2019 | 6 |
B00887 | 2019. 06. 30. 11:59:42 | 2019.07.01. 12:34:21 | 264 | null | null | 2019 | 6 |
B00821 | 2019. 06. 30. 11:59:40 | 2019.07.01. 12:02:57 | 264 | null | null | 2019 | 6 |
Az adatok elérése
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Következő lépések
Tekintse meg a többi adathalmazt az Open Datasets katalógusban.