Size: a a a

2021 October 20

AZ

Anton Zadorozhniy in Data Engineers
это другой вопрос, это определение нужно чтобы показать спектр, дальше мы начинаем расслаблять требования и получать определения других гарантий
источник

N

Nikolay in Data Engineers
если убрать эту мгновенность, то это будет уже другая модель. просто для разных моделей разные названия. на том же вики вот что написанно про strick consistency "Its practical relevance is restricted to a thought experiment and formalism, because instantaneous message exchange is impossible. It doesn't help in answering the question of conflict resolution in concurrent writes to the same data item, because it assumes concurrent writes to be impossible."
источник

AZ

Anton Zadorozhniy in Data Engineers
да, исследователи так и рассуждают про них
источник

N

Nikolay in Data Engineers
это как в математике. есть определение. не важно нужно оно или нет для жизни. практично или нет. формализм )
источник

NN

No Name in Data Engineers
Просто питон + просто пайспарк + просто ещё пара либ, которые тут импортнули.
Думаю, что доку погуглить хватит.
источник

AK

Alex K in Data Engineers
понял, попробую. пока pyspark не просто)
источник

AZ

Anton Zadorozhniy in Data Engineers
так это и есть математика 😊
источник

DT

Dmitry Titov in Data Engineers
в каждый дц поставить атомные часы и не отдавать ок, пока не стукнет это время и транзакция станет видимой для всех в один момент?
Вроде spanner на похожих принципах основан
источник

AZ

Anton Zadorozhniy in Data Engineers
когда в распределенных системах рассуждают про "доступность", оно относится к processors, то есть всем участникам распределенной системы (серверам, читателям и писателям)
источник

AS

Alexey Stavrov in Data Engineers
Как-то незамечал раньше такого в определении strict consistency. Так выглядит невозможным.

НО вот ниже написано следующее:
The strict model diagram and non-strict model diagrams describe the time constraint – instantaneous. It can be better understood as though a global clock is present in which every write should be reflected in all processor caches by the end of that clock period. The next operation must happen only in the next clock period.

Т.е. как будто бы время можно поделить на интервалы и в течении определённого интервала должна выполнится операция на всех узлах.
Меняем нашу выдуманную базу следующим образом:
При получении запроса рассылаем его на все узлы и все узлы одновременно выполняют запрос за определённый квант времени.
Тут есть нюансы:
1. где-то запрос может выполняться дольше (медленнее)
2. где-то запрос по сети может идти дольше

Получается, чтобы поддержать это свойство, нужно иметь определённые гарантии на сеть и на то, что доступ к памяти на сохранение и чтение одинаковый. Наверное в худшем случае такое обеспечить нельзя.
Вот хорошо бы у Яндекса узнать теперь ответы на эти вопросы...
источник

AZ

Anton Zadorozhniy in Data Engineers
гарантии на сеть и требования на запросы, условно между квантами времени ваших специальных часов (которые вам нужно растянуть чтобы успеть) запросы не могут поступать

вы заходите на территорию ОСРВ, там используются подобные методы и рассуждения, но это не имеет отношения к consistency models в computer science
источник

DT

Dmitry Titov in Data Engineers
Ок, хорошо
источник

А

Артем in Data Engineers
Добрый день Господа, может была у кого нибудь такая же ошибка при переносе из рсубд в hive - Cannot run program "hive": error=2, No such file or directory,
Использую пакет org.apache.sqoop на java

Если переносить просто в hdfs (без hive import), то все красиво переносится
источник

А

Артем in Data Engineers
источник

T

T in Data Engineers
источник

ПФ

Паша Финкельштейн... in Data Engineers
Стоп, они же худи хостят
источник

ПФ

Паша Финкельштейн... in Data Engineers
источник

ПФ

Паша Финкельштейн... in Data Engineers
Но мы можем делать апдейт произвольной части и произвольного размера блоба
источник

AZ

Anton Zadorozhniy in Data Engineers
и худи тоже

но я больше знаю про айсберг, а туда они отрядили разработчиков и архитекторов, сделали хорошую поддержку в 0.11 и дальше допиливают
источник

ПФ

Паша Финкельштейн... in Data Engineers
А где у них айсберг? Я вижу интеграцию, но не вижу поставки
источник