Всем привет!! А подскажите как бы вы прочитали в Spark sequnce-файл вида
key1\t{"a":1,"b":2}
Я знаю, что можно сделать
1) spark.read.csv(.., sep="\t"), потом from_json(col2, schema)
2) через rdd и json.loads
3) возможно как-то через newHadoopFile
4) я уверен, как-то можно через spark.read.json, но не знаю как
я понимаю, что можно сначала через csv, потом записать вторую колонку на диск, а потом прочитать через spark.read.json.
Можно ли обойтись без записи на диск?