В целом концепция инструмента в том, что он является кодо-генератором и сам трансформации не выполняет (т.е. подход ELT), хотя частично и сам может делать трансформации. В нем есть т.н. Knowledge modules, которые и отвечают за генерацию кода (для конкретной технологии,например, oracle, teradata, spark, etc) и дальнейшего его запуска на выполнение. Т.е. аналогия работы в следующем: если бы вы сами сделали параметризованные различные шаблоны трансформаций (например, шаблон: подключиться к Oracle, взять данные и загрузить из в RDD. В качестве параметров было бы: параметры подключения, название таблички, какие-то параметры Spark, etc) и сделали бы библиотеку таких шаблонов. Естественно там есть мониторинг, безопасность и прочая обвязка.