Телеграмм чат группы natural_language

Yuri Baburov in Natural Language Processing

19:43пожаловаться #1

YB

Tari

Всем привет!
Я хочу собрать небольшую статистику по использованию библиотеки DeepPavlov в nlp
Пожалуйста, щёлкните на опрос,если пользуетесь!

да, хотелось бы посмотреть на распределение голосов... а для этого нужно хотя бы вариант "не использую". но вообще, я немного использовал, в сравнительных исследованиях для работы (это микс вариантов 1 и 3).

Denis Kirjanov in Natural Language Processing

19:47пожаловаться #2

DK

Nikolay Karelin

... и варианта "Планирую использовать"

И «не планирую использовать» ))

Alexander in Natural Language Processing

19:52пожаловаться #3

A

Ребят, вот скажем у меня есть модель на Берте. Какие есть способы сделать deployment этой модели в продакшен? Её же невозможно использовать со спарком (pyspark или scala)...

https://underrated.sigmaratings.com/post/187988777561/a-practical-intro-to-using-spark-nlp-bert-word

23:46пожаловаться #4

2020 February 27

NO

Nikita O in Natural Language Processing

sigmaratings

A Practical Intro to using Spark-NLP BERT word embeddings

Leveraging Google’s Bert via Pyspark The seemingly endless possibilities of Natural Language Processing are limited only by your imagination... and compute power. What good are ground breaking word...

Alexander in Natural Language Processing

00:54пожаловаться #5

A

Nikita O

https://underrated.sigmaratings.com/post/187988777561/a-practical-intro-to-using-spark-nlp-bert-word

sigmaratings

A Practical Intro to using Spark-NLP BERT word embeddings

Leveraging Google’s Bert via Pyspark The seemingly endless possibilities of Natural Language Processing are limited only by your imagination... and compute power. What good are ground breaking word...

Это получается BERT для embedding можно запустить на спарке или BERT целиком?

01:02пожаловаться #6

NO

Nikita O in Natural Language Processing

Резонный вопрос. Если честно я на pyspark часто пишу, а именно Spark-NLP не пользовался. Вообще у меня такое ощущение что через pyspark можно запустить (predict) вообще любой питоновской ML-модели. Если возвращаться к берту, то вот пример запуска на пайспарке пайторчевой модели.

https://docs.databricks.com/_static/notebooks/deep-learning/pytorch-images.html

02:00пожаловаться #7

NO

Nikita O in Natural Language Processing

02:02пожаловаться #8

D

Коллеги, чем бы вы решали задачу:
Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE.
Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.

05:26пожаловаться #9

D

Похожесть складывается из длины цепочки и порядка элементов

05:28пожаловаться #10

D

Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN

05:33пожаловаться #11

D

Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN

Хотя наверное будет слишком много сравнений, так как цепочек много.

Futorio Franklin in Natural Language Processing

07:14пожаловаться #12

FF

Коллеги, чем бы вы решали задачу:
Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE.
Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.

Очень похоже на поиск подстроки в строке

08:57пожаловаться #13

D

Ну тут не только поиск подстроки в строке

08:57пожаловаться #14

D

Смысл задачи найти группы близких по порядку и длине последовательностей

08:58пожаловаться #15

V

Vanya in Natural Language Processing

Коллеги, чем бы вы решали задачу:
Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE.
Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.

Дамерау-Левенштейн (и порядок букв и длину цепочки учтет) + кластеризация

09:42пожаловаться #16

D

Vanya

Дамерау-Левенштейн (и порядок букв и длину цепочки учтет) + кластеризация

Спасибо, значит в правильную сторону копаю

Алексей Пахомов in Natural Language Processing

09:46пожаловаться #17

АП

Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN

Я решал эту задачу алгоритмами для секвенирование днк

10:16пожаловаться #18

D

Вот, я тоже в сторону BioNLP смотрю, вроде есть специализированные библиотеки для этого

10:19пожаловаться #19

D

Правда у меня тут не ДНК