Ещё такой вопрос, есть 200 гигабайтный файл, его надо очистить от дублей (повторяющиеся строки), чем быстрее всего это можно сделать? Уже операционная система роли не играет. Правильно ли я понимаю, что самое быстрое решение будет через линукс команду sort -u ?
сразу в голову пришло 2 варианта:
- с помощью файловой системы reiserfs в линуксе, она позвоняет в одной папке держать милион мелких файлов с низкой сокростью доступа
- с помощью базы данных, если построчно в строчке не менее 10 символов, это это 20 лямов записей
дело в неделях не стоит, тут в часах