У всех очистки разные, и сильно зависят от задачи.
В том смысле, что кому-то одна очистка хороша, а кому-то одна ухудшает ситуацию. Самый наглядный пример: японском "р" и "л" одна фонема, а у нас две. В японском неразличение этих звуков увеличивает качество, а в русском -- уменьшает. И если отсюда появилась мысль про настройку на язык, то в русском есть ещё вологодский окцент, неразличение/различение е/ё и и/й, проблемы с "…" и "...", "-", "—" и "–"... Конкретно с кавычками: "арт-группа «зеленые бампера» устроили потасовку в гостинице «космос»", – сообщают «Известия». Посмотрим, как это будет работать после нормализации кавычек, учитывая, что пробелы и капс не всегда правильно расставлены...
" арт - группа " зелёные бампера " устроили потасовку в гостинице " космос " " ,- сообщают " известия " .
Так хотите сделать? Будет хуже работать, чем без нормализации.