Size: a a a

Сообщество Python Программистов

2020 May 02

ЕО

Егор Овчинников... in Сообщество Python Программистов
Ок! Спасибо! Быду смотреть и рыть дальше! 👍🏻🤝
источник

ОК

Олег К. in Сообщество Python Программистов
Alexander T
Ну разберешься, не разберешься пиши.
к сожалению, самостоятельно не получилось..
проблема заключается в следующем. файлы прочитались, но в них посреди текста в листе стоят "\n" (см. на скрине).
пробовал их убрать при добавлении в лист с помощью
for line in file:
   line.replace("\n", " ")
но тогда летит вся структура листа, так как он каждую новую строку заключает в отдельные "".
кто нибудь знает вариант, как убрать знаки переноса строки из середины текстов без разбиения этих текстов на разные элементы листа?
спасибо
источник

AT

Alexander T in Сообщество Python Программистов
Олег К.
к сожалению, самостоятельно не получилось..
проблема заключается в следующем. файлы прочитались, но в них посреди текста в листе стоят "\n" (см. на скрине).
пробовал их убрать при добавлении в лист с помощью
for line in file:
   line.replace("\n", " ")
но тогда летит вся структура листа, так как он каждую новую строку заключает в отдельные "".
кто нибудь знает вариант, как убрать знаки переноса строки из середины текстов без разбиения этих текстов на разные элементы листа?
спасибо
всмысле убрать? тогда все файлы станут одной строкой
источник

AT

Alexander T in Сообщество Python Программистов
но вообще ‘’.join(x.strip() for x in f.readlines()) что-то такое
источник

ОК

Олег К. in Сообщество Python Программистов
хм
я этим начал заниматься, потому что tf-idf иначе считает слова вместе с "\n" и это будет корявый feature extraction
источник

AT

Alexander T in Сообщество Python Программистов
а, надо на слова разбиить?
источник

AT

Alexander T in Сообщество Python Программистов
что в листе должно быть элементом?
источник

ОК

Олег К. in Сообщество Python Программистов
план примерно такой:
элемент листа - текст.
тексты должны быть разбиты на отдельные слова, я их потом в CountVectorizer засуну
источник

ОК

Олег К. in Сообщество Python Программистов
никогда не работал с самопальными датасетами, вот и корячусь
источник

AT

Alexander T in Сообщество Python Программистов
Олег К.
план примерно такой:
элемент листа - текст.
тексты должны быть разбиты на отдельные слова, я их потом в CountVectorizer засуну
текст разбитый на слова это что, строка со словами через пробел?
источник

ОК

Олег К. in Сообщество Python Программистов
да
источник

ОК

Олег К. in Сообщество Python Программистов
хотя, похоже, это не понадобится
источник

ОК

Олег К. in Сообщество Python Программистов
прошу прощения
источник

AT

Alexander T in Сообщество Python Программистов
Олег К.
прошу прощения
ну если понадобится то держии пиздец
for fname in fnames:
   with open(fname) as f:
       lst.append(' '.join(' '.join(x.strip().split()) for x in f.readlines()))
источник

ОК

Олег К. in Сообщество Python Программистов
в датасете 20newsgroups есть символы переноса строк и всё нормально работает
источник

ОК

Олег К. in Сообщество Python Программистов
Alexander T
ну если понадобится то держии пиздец
for fname in fnames:
   with open(fname) as f:
       lst.append(' '.join(' '.join(x.strip().split()) for x in f.readlines()))
ух бля)
источник

ОК

Олег К. in Сообщество Python Программистов
спасибо еще раз
источник

ОК

Олег К. in Сообщество Python Программистов
Alexander T
ну если понадобится то держии пиздец
for fname in fnames:
   with open(fname) as f:
       lst.append(' '.join(' '.join(x.strip().split()) for x in f.readlines()))
+
источник

A

Axenia in Сообщество Python Программистов
yasnohmuro (0) увеличил карму alext18 (506.52)
источник

A

Axenia in Сообщество Python Программистов
🏆Самые почётные люди группы «Сообщество Python Программистов»:

entressi (673.72)
borntohack (544.21)
k4m454k (543.98)
alext18 (506.52)
Rud356 (392.18)
bomzheg (334.28)
s0hard (166.08)
bbclub  (144.57)
let45fc (105.68)
bpro_off (105.61)
Подробнее..
источник