В части автоматизации распознавания таблиц, смысл записей можно вытащить как из названия колонок, так и из состава полей. В значительной степени это автоматизируется. Сейчас, скорее, это работы по автоматизации выравнивания схем данных.
Если схема данных распознана, то построить типовую предсказательную модельку под эту область, тоже особых проблем нет.
Это очередная попытка сделать time series формат, но это вектор структур, вместо структуры векторов. То есть по сути это row-major таблица, для некоторых задач оказалось удобнее, чем column based.
Ну и джойны мне очень нравятся в таком подходе: очень легко данные склеивать, можно протягивать данные по времени (то есть если событие случилось в момент времени t0, то повторить это значение на протяжении нескольких следующих моментов времени) и т.п.
Просто у меня это обсуждение уже целиком в голове не помещается - слишком много всего) Поэтому было бы полезно убрать часть функционала в другой пакет.