Size: a a a

R language and Statistical data analysis

2020 April 29

AB

Alexey Burnakov in R language and Statistical data analysis
результат
источник

AB

Alexey Burnakov in R language and Statistical data analysis
пройдусь аккуратно по кейсам. Ищу \r\n not followed by 39 . Мои айдишники.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
и на пробел заменяю
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Регулярка для Notepad++: \r\n(?!39)
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Заработало!!
источник

Ю

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis
Костыльное решение, а если в файл ещё данные добавлятся? Опять руками в нотпаде?
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Юрий 🐙💻🤖📊📈🚬
Костыльное решение, а если в файл ещё данные добавлятся? Опять руками в нотпаде?
Можно написать через readLines, как было предложено. Я не уверен, правда, что будет всегда пустая строка
источник

Ю

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis
Alexey Burnakov
Можно написать через readLines, как было предложено. Я не уверен, правда, что будет всегда пустая строка
Если не секрет, что за данные, что за исходник? Новости?
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Юрий 🐙💻🤖📊📈🚬
Если не секрет, что за данные, что за исходник? Новости?
Это новости. Они в закрытом доступе, получаются из Терминала ТАСС по подписке другими СМИ
источник

Ю

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis
Alexey Burnakov
Это новости. Они в закрытом доступе, получаются из Терминала ТАСС по подписке другими СМИ
Это в таком виде файл, или его парсили?
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Юрий 🐙💻🤖📊📈🚬
Это в таком виде файл, или его парсили?
Это выгрузка для меня, я не знаю как именно сделали ее. Точнее, это даже не новости, это фото-база ТАСС и тоже закрытая
источник

Ю

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis
Alexey Burnakov
Это выгрузка для меня, я не знаю как именно сделали ее. Точнее, это даже не новости, это фото-база ТАСС и тоже закрытая
Понятно, спасибо, ну тогда успехов ;)
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Юрий 🐙💻🤖📊📈🚬
Понятно, спасибо, ну тогда успехов ;)
Спасибо, я учту совет, я не сразу понял. ;)
источник

A

Andrey in R language and Statistical data analysis
Stepler
Есть вопрос, есть ли у нас в чате те, у кого есть ресурсы железа для обучениЯ моделей? И какие могут предоставить условия использования?
а сколько нужно? :) Ресурсов-то
источник

АК

Артём Клевцов in R language and Statistical data analysis
Юрий 🐙💻🤖📊📈🚬
Прочитать файл readLines(), пройтись gsub() по каждой строке, сохранить файл writeLines(), и его уже читать fread
#вредныесоветы
Лучше так не делать, т.к. всё грузится в память, а размер данных не известен, что можно привести к OOM.
источник

АК

Артём Клевцов in R language and Statistical data analysis
В fread можно передать команду, которую он выполнит перед чтением файла. Что-нибудь с sed/tr/grep/awk обычно сильно упрощает ситуацию и работает крайне быстро и эффективно.
источник

Ю

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis
Артём Клевцов
В fread можно передать команду, которую он выполнит перед чтением файла. Что-нибудь с sed/tr/grep/awk обычно сильно упрощает ситуацию и работает крайне быстро и эффективно.
Согласен, но на условиях что было, то и быстро придумалось
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Артём Клевцов
В fread можно передать команду, которую он выполнит перед чтением файла. Что-нибудь с sed/tr/grep/awk обычно сильно упрощает ситуацию и работает крайне быстро и эффективно.
Посмотрю, что это. Спасибо
источник

A

Andrey in R language and Statistical data analysis
gunzip -c data.zip | recode cp1251..utf8 | awk -F ',' 'BEGIN{OFS=\"|\";} NR==18575 || NR==18576 {next} {print $3, $5, $6, $22, $69, $91}'

я вот такое когда-то написал. Сейчас не скажу, что оно делает, но работало, и работало быстро на файле весом 20 Гб (3 Гб в архиве)
источник

АК

Артём Клевцов in R language and Statistical data analysis
Andrey
gunzip -c data.zip | recode cp1251..utf8 | awk -F ',' 'BEGIN{OFS=\"|\";} NR==18575 || NR==18576 {next} {print $3, $5, $6, $22, $69, $91}'

я вот такое когда-то написал. Сейчас не скажу, что оно делает, но работало, и работало быстро на файле весом 20 Гб (3 Гб в архиве)
Извлекает из zip-архива, перекодирует из виндовой кодировки в ютф и извлекает столбцы (вроде бы).
источник