Size: a a a

Natural Language Processing

2020 February 26

NK

Nikolay Karelin in Natural Language Processing
... и варианта "Планирую использовать"
источник

YB

Yuri Baburov in Natural Language Processing
Tari
Всем привет!
Я хочу собрать небольшую статистику по использованию библиотеки DeepPavlov в nlp
Пожалуйста, щёлкните на опрос,если пользуетесь!
да, хотелось бы посмотреть на распределение голосов... а для этого нужно хотя бы вариант "не использую". но вообще, я немного использовал, в сравнительных исследованиях для работы (это микс вариантов 1 и 3).
источник

DK

Denis Kirjanov in Natural Language Processing
Nikolay Karelin
... и варианта "Планирую использовать"
И «не планирую использовать» ))
источник

A

Alexander in Natural Language Processing
Ребят, вот скажем у меня есть модель на Берте. Какие есть способы сделать deployment этой модели в продакшен? Её же невозможно использовать со спарком (pyspark или scala)...
источник
2020 February 27

NO

Nikita O in Natural Language Processing
источник

A

Alexander in Natural Language Processing
Это получается BERT для embedding можно запустить на спарке или BERT целиком?
источник

NO

Nikita O in Natural Language Processing
Резонный вопрос. Если честно я на pyspark часто пишу, а именно Spark-NLP не пользовался. Вообще у меня такое ощущение что через pyspark можно запустить (predict) вообще любой питоновской ML-модели. Если возвращаться к берту, то вот пример запуска на пайспарке пайторчевой модели.
источник

NO

Nikita O in Natural Language Processing
источник

D

Dmitry in Natural Language Processing
Коллеги, чем бы вы решали задачу:
Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE.
Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.
источник

D

Dmitry in Natural Language Processing
Похожесть складывается из длины цепочки и порядка элементов
источник

D

Dmitry in Natural Language Processing
Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN
источник

D

Dmitry in Natural Language Processing
Dmitry
Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN
Хотя наверное будет слишком много сравнений, так как цепочек много.
источник

FF

Futorio Franklin in Natural Language Processing
Dmitry
Коллеги, чем бы вы решали задачу:
Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE.
Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.
Очень похоже на поиск подстроки в строке
источник

D

Dmitry in Natural Language Processing
Ну тут не только поиск подстроки в строке
источник

D

Dmitry in Natural Language Processing
Смысл задачи найти группы близких по порядку и длине последовательностей
источник

V

Vanya in Natural Language Processing
Dmitry
Коллеги, чем бы вы решали задачу:
Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE.
Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.
Дамерау-Левенштейн (и порядок букв и длину цепочки учтет) + кластеризация
источник

D

Dmitry in Natural Language Processing
Vanya
Дамерау-Левенштейн (и порядок букв и длину цепочки учтет) + кластеризация
Спасибо, значит в правильную сторону копаю
источник

АП

Алексей Пахомов in Natural Language Processing
Dmitry
Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN
Я решал эту задачу алгоритмами для секвенирование днк
источник

D

Dmitry in Natural Language Processing
Вот, я тоже в сторону BioNLP смотрю, вроде есть специализированные библиотеки для этого
источник

D

Dmitry in Natural Language Processing
Правда у меня тут не ДНК
источник