Телеграмм чат группы natural_language_processing страница 612

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1447 membersпожаловаться на группу

2020 March 01

AC

Alexander C in Natural Language Processing

А как такое делается? Ну то есть забудем про вирусы. Просто есть набор строк (рнк) . А мы хотим построить подобное дерево. Какие методы? Пакеты?

источник

21:46пожаловаться #1

AC

Alexander C in Natural Language Processing

Как такое смотрится с тз NLP ?

источник

21:47пожаловаться #2

IS

I Sh in Natural Language Processing

Alexander C

Как такое смотрится с тз NLP ?

Обрабатываются именно как строки и ДНК, и РНК и другие молекулы (белки, например). Но для ДНК и РНК в основном применяют стат-методы, а вот, например, для создания новых белков - можно применять и языковые модели. Например, в прошлом году была статья про применение BERT'а для предсказания третичной структуры белка.

Но тут есть одно "но": просто так Трансформеры для формирования новых молекул не всегда можно применять - последовательность атомов правильно предсказывается (последовательность "букв"), а пространственная структура молекулы - некорректна. Для корректировки химики применяют постобработку - специальные алгоритмы обработки уже сформированного Трансформером "текста" молекулы.

источник

21:56пожаловаться #3

IS

I Sh in Natural Language Processing

И для определения таксономии берут не всю ДНК или РНК, а лишь определённые куски - маркерные гены. Их сравнивают с такими же участками из баз данных - они в открытом доступе.

источник

22:04пожаловаться #4

AC

Alexander C in Natural Language Processing

источник

22:33пожаловаться #5

AC

Alexander C in Natural Language Processing

[1701.06279] dna2vec: Consistent vector representations of variable-length k-mers
https://arxiv.org/abs/1701.06279

https://medium.com/@sergemankovski/exploration-of-dna2vec-embedding-space-of-bacterial-genomes-e615a9252625

Exploration of dna2vec embedding space of single-cell genomes

Spoiler: It might be possible to use latent representations of genomic sequences for building phylogenomic trees

источник

22:33пожаловаться #6

AC

Alexander C in Natural Language Processing

источник

22:33пожаловаться #7

AC

Alexander C in Natural Language Processing

Обрабатываются именно как строки и ДНК, и РНК и другие молекулы (белки, например). Но для ДНК и РНК в основном применяют стат-методы, а вот, например, для создания новых белков - можно применять и языковые модели. Например, в прошлом году была статья про применение BERT'а для предсказания третичной структуры белка.

Но тут есть одно "но": просто так Трансформеры для формирования новых молекул не всегда можно применять - последовательность атомов правильно предсказывается (последовательность "букв"), а пространственная структура молекулы - некорректна. Для корректировки химики применяют постобработку - специальные алгоритмы обработки уже сформированного Трансформером "текста" молекулы.

А скинь ссылку на эту статейку.

источник

22:34пожаловаться #8

2020 March 02

YB

Yuri Baburov in Natural Language Processing

@cointegrated давай сожмём твоей библиотекой https://github.com/avidale/compress-fasttext вектора от @snakers41 на 10 гб : https://t.me/snakers4/2175
наверное, раз в 10-20. что надо делать для этого? какие опции лучше включить?

avidale/compress-fasttext

Tools for shrinking fastText models (in gensim format) - avidale/compress-fasttext

источник

12:48пожаловаться #9

YB

Yuri Baburov in Natural Language Processing

@cointegrated давай сожмём твоей библиотекой https://github.com/avidale/compress-fasttext вектора от @snakers41 на 10 гб : https://t.me/snakers4/2175
наверное, раз в 10-20. что надо делать для этого? какие опции лучше включить?

avidale/compress-fasttext

Tools for shrinking fastText models (in gensim format) - avidale/compress-fasttext

т.к. проблема с векторами из rusvectores — это вектора по леммам.

источник

12:49пожаловаться #10

D(

David (ddale) Dale in Natural Language Processing

@cointegrated давай сожмём твоей библиотекой https://github.com/avidale/compress-fasttext вектора от @snakers41 на 10 гб : https://t.me/snakers4/2175
наверное, раз в 10-20. что надо делать для этого? какие опции лучше включить?

avidale/compress-fasttext

Tools for shrinking fastText models (in gensim format) - avidale/compress-fasttext

А насколько сильно хочется пожать?
Если хочется получить несколько десятков мб, то можно использовать дефолтное compress_fasttext.prune_ft_freq(big_model, pq=True)
Если хочется модель побольше и поточнее, ставь compress_fasttext.prune_ft_freq(big_model, pq=True, new_vocab_size=100_000, new_ngrams_size=400_000, qdim=300)
Ну и параметры new_vocab_size и new_ngrams_size можно пробовать увеличивать ещё больше.

источник

12:56пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

David (ddale) Dale

А насколько сильно хочется пожать?
Если хочется получить несколько десятков мб, то можно использовать дефолтное compress_fasttext.prune_ft_freq(big_model, pq=True)
Если хочется модель побольше и поточнее, ставь compress_fasttext.prune_ft_freq(big_model, pq=True, new_vocab_size=100_000, new_ngrams_size=400_000, qdim=300)
Ну и параметры new_vocab_size и new_ngrams_size можно пробовать увеличивать ещё больше.

было: 10 гб
хочется: 500 мб

источник

12:57пожаловаться #12

YB

Yuri Baburov in Natural Language Processing

явно самому считать, 500e6/300 * 0.2 и * 0.8 ?

источник

12:57пожаловаться #13

D(

David (ddale) Dale in Natural Language Processing

было: 10 гб
хочется: 500 мб

Бери тогда второй вариант, откручивай new_vocab_size и new_ngrams_size до максимума (текущие значения); тогда модель сожмется только за счет квантизации и выкидывания неиспользуемых n-грамм.
Если в 500 мб не уложишься, то уменьшай их в одном темпе.

источник

12:58пожаловаться #14

YB

Yuri Baburov in Natural Language Processing

ну, я вроде бы сразу точно посчитал, сколько надо, для определённого размера финальной модели :)

источник

12:59пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

ок, сейчас попробую

источник

12:59пожаловаться #16

YB

Yuri Baburov in Natural Language Processing

спасибо

источник

12:59пожаловаться #17

D(

David (ddale) Dale in Natural Language Processing

ну, я вроде бы сразу точно посчитал, сколько надо, для определённого размера финальной модели :)

Нет, не точно, т.к. prune_ft_freq выкидывает n-граммы, не использованные ни разу, и заготовки для эмбеддингов слов.

источник

12:59пожаловаться #18

YB

Yuri Baburov in Natural Language Processing

David (ddale) Dale

Бери тогда второй вариант, откручивай new_vocab_size и new_ngrams_size до максимума (текущие значения); тогда модель сожмется только за счет квантизации и выкидывания неиспользуемых n-грамм.
Если в 500 мб не уложишься, то уменьшай их в одном темпе.

а как можно узнать текущее количество vocab и ngrams? искать, как это в keyedvectors делается?

источник

13:00пожаловаться #19

D(

David (ddale) Dale in Natural Language Processing

а как можно узнать текущее количество vocab и ngrams? искать, как это в keyedvectors делается?

model.vectors.shape[0], model.vectors_ngrams.shape[0], как-то так

источник

13:01пожаловаться #20