Телеграмм чат группы natural_language

то есть я к нему относился именно как к генератору, который в определенных местах с разными вероятностями возьмет разные ветки строк

да вот не хочется самому что-то писать согласование. лень(

Sergey Sikorskiy in Natural Language Processing

21:23пожаловаться #1

cnstntn kndrtv

да вот не хочется самому что-то писать согласование. лень(

В своем примере Вы описали не только согласование, но и разные временные формы, плюс более сложные трансформации (рама мамой моется)

21:32пожаловаться #2

Sergey Sikorskiy

Да. Чем сложнее, тем лучше. Конечно не всё можно получить простым способом. Как обычно хочется всего и быстро.

21:34пожаловаться #3

Ross in Natural Language Processing

Пражский привет коллеги, всех с наступающим! Росс из CryptoMood с вами)
Есть небольшая проблема с конвертацией данных из BSON в csv, можете выручить?

21:36пожаловаться #4

Ross

если нет напрямую, может быть bson->json->csv? каждая пара по отдельности есть.

21:38пожаловаться #5

Ross in Natural Language Processing

cnstntn kndrtv

если нет напрямую, может быть bson->json->csv? каждая пара по отдельности есть.

pm sent!

Sergey Sikorskiy in Natural Language Processing

21:41пожаловаться #6

cnstntn kndrtv

Да. Чем сложнее, тем лучше. Конечно не всё можно получить простым способом. Как обычно хочется всего и быстро.

Если сложнее, то не забывайте про вариант "Рама помыта мамой". Рама - это имя, еще поменялся вид глагола.

22:15пожаловаться #7

Sergey Sikorskiy

Если сложнее, то не забывайте про вариант "Рама помыта мамой". Рама - это имя, еще поменялся вид глагола.

пора бы уже забыть мне это "хочу сделать по-быстрому")

Sergey Sikorskiy in Natural Language Processing

22:16пожаловаться #8

Именно. Там еще можно развить тему про мыло душистое ...

22:17пожаловаться #9

2019 December 28

Коллеги, а как вы вы текст, не используя regex разбивали на параграфы?

Alex Surname in Natural Language Processing

18:37пожаловаться #10

ну если встречаешь перевод строки и за ним пробелы, табы значит параграф

Yuri Baburov in Natural Language Processing

18:38пожаловаться #11

Sebastian Pereira

Коллеги, а как вы вы текст, не используя regex разбивали на параграфы?

А почему нельзя взять регэксп простой? paras = re.split('\n\s+', text) скажем

20:18пожаловаться #12

Yuri Baburov

А почему нельзя взять регэксп простой? paras = re.split('\n\s+', text) скажем

Сейчас re.split('\s{4,}',text) - хочу посмотреть, что будет работать быстрее. Ну и вообще - regex это боль.

Alex Surname in Natural Language Processing

20:20пожаловаться #13

так это неправильный регексп. должен быть перевод строки

20:21пожаловаться #14

Aragaer in Natural Language Processing

а у меня встречный вопрос. Сколько параграфов тут:

Слова слова. Слова слова слова.

Еще слова, опять слова. Много слов.

20:22пожаловаться #15

Alex Surname

так это неправильный регексп. должен быть перевод строки

Не очень понимаю вопрос. У меня настроено под текст с моего pdf файла кривого.

20:30пожаловаться #16

20:30пожаловаться #17

Vlad in Natural Language Processing

Aragaer

а у меня встречный вопрос. Сколько параграфов тут:

Слова слова. Слова слова слова.

Еще слова, опять слова. Много слов.

Один, тут же нет после \r\n пробелов)

Alex Surname in Natural Language Processing

20:30пожаловаться #18

Sebastian Pereira

Не очень понимаю вопрос. У меня настроено под текст с моего pdf файла кривого.

\s не гарантирует наличие \n

20:31пожаловаться #19

Aragaer in Natural Language Processing

по-моему там даже \r нету