Телеграмм чат группы python_scripts страница 14648

2020 May 02

ЕО

Егор Овчинников... in Сообщество Python Программистов

Ок! Спасибо! Быду смотреть и рыть дальше! 👍🏻🤝

источник

14:11пожаловаться #1

ОК

Олег К. in Сообщество Python Программистов

Alexander T

Ну разберешься, не разберешься пиши.

к сожалению, самостоятельно не получилось..
проблема заключается в следующем. файлы прочитались, но в них посреди текста в листе стоят "\n" (см. на скрине).
пробовал их убрать при добавлении в лист с помощью
for line in file:
line.replace("\n", " ")
но тогда летит вся структура листа, так как он каждую новую строку заключает в отдельные "".
кто нибудь знает вариант, как убрать знаки переноса строки из середины текстов без разбиения этих текстов на разные элементы листа?
спасибо

источник

14:20пожаловаться #2

AT

Alexander T in Сообщество Python Программистов

Олег К.

к сожалению, самостоятельно не получилось..
проблема заключается в следующем. файлы прочитались, но в них посреди текста в листе стоят "\n" (см. на скрине).
пробовал их убрать при добавлении в лист с помощью
for line in file:
line.replace("\n", " ")
но тогда летит вся структура листа, так как он каждую новую строку заключает в отдельные "".
кто нибудь знает вариант, как убрать знаки переноса строки из середины текстов без разбиения этих текстов на разные элементы листа?
спасибо

всмысле убрать? тогда все файлы станут одной строкой

источник

14:20пожаловаться #3

AT

Alexander T in Сообщество Python Программистов

но вообще ‘’.join(x.strip() for x in f.readlines()) что-то такое

источник

14:21пожаловаться #4

ОК

Олег К. in Сообщество Python Программистов

хм
я этим начал заниматься, потому что tf-idf иначе считает слова вместе с "\n" и это будет корявый feature extraction

источник

14:21пожаловаться #5

AT

Alexander T in Сообщество Python Программистов

а, надо на слова разбиить?

источник

14:22пожаловаться #6

AT

Alexander T in Сообщество Python Программистов

что в листе должно быть элементом?

источник

14:22пожаловаться #7

ОК

Олег К. in Сообщество Python Программистов

план примерно такой:
элемент листа - текст.
тексты должны быть разбиты на отдельные слова, я их потом в CountVectorizer засуну

источник

14:24пожаловаться #8

ОК

Олег К. in Сообщество Python Программистов

никогда не работал с самопальными датасетами, вот и корячусь

источник

14:25пожаловаться #9

AT

Alexander T in Сообщество Python Программистов

Олег К.

план примерно такой:
элемент листа - текст.
тексты должны быть разбиты на отдельные слова, я их потом в CountVectorizer засуну

текст разбитый на слова это что, строка со словами через пробел?

источник

14:25пожаловаться #10

ОК

Олег К. in Сообщество Python Программистов

да

источник

14:25пожаловаться #11

ОК

Олег К. in Сообщество Python Программистов

хотя, похоже, это не понадобится

источник

14:26пожаловаться #12

ОК

Олег К. in Сообщество Python Программистов

прошу прощения

источник

14:26пожаловаться #13

AT

Alexander T in Сообщество Python Программистов

Олег К.

прошу прощения

ну если понадобится то держии пиздец

for fname in fnames:
    with open(fname) as f:
        lst.append(' '.join(' '.join(x.strip().split()) for x in f.readlines()))

источник

14:27пожаловаться #14

ОК

Олег К. in Сообщество Python Программистов

в датасете 20newsgroups есть символы переноса строк и всё нормально работает

источник

14:27пожаловаться #15

ОК

Олег К. in Сообщество Python Программистов

Alexander T

ну если понадобится то держии пиздец

for fname in fnames:
    with open(fname) as f:
        lst.append(' '.join(' '.join(x.strip().split()) for x in f.readlines()))

ух бля)

источник

14:28пожаловаться #16

ОК

Олег К. in Сообщество Python Программистов

спасибо еще раз

источник

14:28пожаловаться #17

ОК

Олег К. in Сообщество Python Программистов

Alexander T

ну если понадобится то держии пиздец

for fname in fnames:
    with open(fname) as f:
        lst.append(' '.join(' '.join(x.strip().split()) for x in f.readlines()))

+

источник

14:28пожаловаться #18

A

Axenia in Сообщество Python Программистов

yasnohmuro (0) увеличил карму alext18 (506.52)

источник

14:28пожаловаться #19

A

Axenia in Сообщество Python Программистов

🏆Самые почётные люди группы «Сообщество Python Программистов»:

⭐entressi (673.72)
borntohack (544.21)
k4m454k (543.98)
alext18 (506.52)
Rud356 (392.18)
bomzheg (334.28)
s0hard (166.08)
bbclub (144.57)
let45fc (105.68)
bpro_off (105.61)
Подробнее..

источник

14:28пожаловаться #20