How to import multiple csv files in a single load?

Use wildcard, e.g. replace 2008 with *:

df = sqlContext.read
       .format("com.databricks.spark.csv")
       .option("header", "true")
       .load("../Downloads/*.csv") // <-- note the star (*)

Spark 2.0

// these lines are equivalent in Spark 2.0
spark.read.format("csv").option("header", "true").load("../Downloads/*.csv")
spark.read.option("header", "true").csv("../Downloads/*.csv")

Notes:

Replace format("com.databricks.spark.csv") by using format("csv") or csv method instead. com.databricks.spark.csv format has been integrated to 2.0.
Use spark not sqlContext

More Related Contents:

Finding duplicates from large data set using Apache Spark
Overwrite specific partitions in spark dataframe write method
How to save/insert each DStream into a permanent table
How to melt Spark DataFrame?
Spark SQL: apply aggregate functions to a list of columns
Unpivot in spark-sql/pyspark
Spark SQL replacement for MySQL’s GROUP_CONCAT aggregate function
DataFrame join optimization – Broadcast Hash Join
Spark SQL – load data with JDBC using SQL statement, not table name
Spark Dataframe validating column names for parquet writes
How to check if spark dataframe is empty?
How to improve performance for slow Spark jobs using DataFrame and JDBC connection?
TypeError: Column is not iterable – How to iterate over ArrayType()?
How to connect to remote hive server from spark [duplicate]
Spark DataFrame: does groupBy after orderBy maintain that order?
Filtering a spark dataframe based on date
Pyspark : forward fill with last observation for a DataFrame
Spark DataFrame Schema Nullable Fields
multiple conditions for filter in spark data frames
How do I add an persistent column of row ids to Spark DataFrame?
Rename more than one column using withColumnRenamed
Convert null values to empty array in Spark DataFrame
DataFrame partitionBy to a single Parquet file (per partition)
What should be the optimal value for spark.sql.shuffle.partitions or how do we increase partitions when using Spark SQL?
Temp table caching with spark-sql
PySpark: How to fillna values in dataframe for specific columns?
How to get Kafka offsets for structured query for manual and reliable offset management?
How to calculate Median in spark sqlContext for column of data type double
Spark: disk I/O on stage boundaries explanation
PySpark error: AttributeError: ‘NoneType’ object has no attribute ‘_jvm’

Spark 2.0

More Related Contents:

Leave a Comment Cancel reply