Size: a a a

Natural Language Processing

2019 December 26

D

Den in Natural Language Processing
тренировал на этом
источник

AS

Alex Surname in Natural Language Processing
попробуй взять за основу русскую модель
источник

AS

Alex Surname in Natural Language Processing
и дообучить
источник

D

Den in Natural Language Processing
не совместима с gpt-2-simple
источник

D

Den in Natural Language Processing
насколько я понял
источник

AS

Alex Surname in Natural Language Processing
а зачем тебе совместимость?
источник

AS

Alex Surname in Natural Language Processing
можно еще попробовать препроцессинг
I replaced prefixed whitespace, trimming leading/trailing whitespace in all fields
replace 3+ spaces with newlines
deleted all 2+ spaces
dropped poems with <100 characters (generally a scrape error)
remove Unicode junk
serialize it as title+author+tags (if any) / poem / <|endoftext|> (ie the inline metadata trick, allowing for potentially better learning and a small degree of control in conditional generation)
источник

AS

Alex Surname in Natural Language Processing
источник

D

Den in Natural Language Processing
текст должен быть максимально голым, даже если я тупо скопипастил статьи с ведомостей и затем сразу же с BBC UK в один файл как попало
источник

D

Den in Natural Language Processing
Alex Surname
а зачем тебе совместимость?
чтобы работать и работало чере gpt-2-simple
источник

D

Den in Natural Language Processing
со стихами плохой пример, так как они подчиняются большему количеству правил чем тупо текст
источник

AS

Alex Surname in Natural Language Processing
должен быть - это чем продиктовано?
источник

D

Den in Natural Language Processing
тем что хоть дамп с баша или анекдотру в txt качай и закидывай - это всё должно завестись без проблем
источник

D

Den in Natural Language Processing
дабы не сидеть часами и не форматировать "как надо"
источник

AS

Alex Surname in Natural Language Processing
ну с таким подходом я думаю тебе не стоит ожидать качества
источник

D

Den in Natural Language Processing
а надо бы, хотя бы в пределах правдоподобности "любая переписка в чатике"
источник

A

Aragaer in Natural Language Processing
можно взять датасет от яндекса с перепиской в чатиках
источник

D

Den in Natural Language Processing
пардон, а через какую пятую точку его доставать не в форматах типа xml/raw?
источник

D

Den in Natural Language Processing
чисто txt
источник

D

Den in Natural Language Processing
я чего-то не нашёл
источник