import pyarrow.dataset as ds

# Path to local datalake
datalake_path = "F:/datalake/AABBCCDD/CAN2_GnssSpeed"

# Create dateset containing multiple files
ds_gnss_speed = ds.dataset(datalake_path, format="parquet")

# Read into memory in batches
for record_batch in ds_gnss_speed.to_batches():

    # Work on batch data here
    pass