Всем привет! Я хочу собрать небольшую статистику по использованию библиотеки DeepPavlov в nlp Пожалуйста, щёлкните на опрос,если пользуетесь!
да, хотелось бы посмотреть на распределение голосов... а для этого нужно хотя бы вариант "не использую". но вообще, я немного использовал, в сравнительных исследованиях для работы (это микс вариантов 1 и 3).
Ребят, вот скажем у меня есть модель на Берте. Какие есть способы сделать deployment этой модели в продакшен? Её же невозможно использовать со спарком (pyspark или scala)...
Резонный вопрос. Если честно я на pyspark часто пишу, а именно Spark-NLP не пользовался. Вообще у меня такое ощущение что через pyspark можно запустить (predict) вообще любой питоновской ML-модели. Если возвращаться к берту, то вот пример запуска на пайспарке пайторчевой модели.
Коллеги, чем бы вы решали задачу: Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE. Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.
Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN
Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN
Хотя наверное будет слишком много сравнений, так как цепочек много.
Коллеги, чем бы вы решали задачу: Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE. Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.
Коллеги, чем бы вы решали задачу: Есть N последовательностей (текст) разных длин из алфавита A,B,C,D,E..., Например ADCA, ABCEBD, AB, DCE. Надо выделить кластеры по похожести, учитывать порядок букв и длину цепочки.
Дамерау-Левенштейн (и порядок букв и длину цепочки учтет) + кластеризация
Думаю что схожесть по порядку элементов можно было бы превратить в число через Дамерау-Левенштна, получит две координаты схожести: длина цепочки и ДЛ и кластеризовать через DBSCAN
Я решал эту задачу алгоритмами для секвенирование днк