Size: a a a

Natural Language Processing

2021 March 11

FF

Futorio Franklin in Natural Language Processing
dePuff
Но если в наглую долго и печально перед подачей в сетку создать вектора на каждый токен, то вроде ничего не мешает этому работать
Так тогда потеряется смысл предобученных эмбеддингов
источник

d

dePuff in Natural Language Processing
Я сонный и не понимаю почему
источник

FF

Futorio Franklin in Natural Language Processing
dePuff
Я сонный и не понимаю почему
Такие эмбеддинги нужно учить с нуля, вместо того, чтобы взять уже предобученные
источник

d

dePuff in Natural Language Processing
Модель на входе оперирует чиселками из предобученных эмбеддингов, всё честно
источник

d

dePuff in Natural Language Processing
Под долго и печально я понимаю скармливание токенов предобученному фасттексту
источник

FF

Futorio Franklin in Natural Language Processing
А ну собственно да, как я и предложил первоначально
источник

d

dePuff in Natural Language Processing
Я извиняюсь, что непонятно выразился
источник

DD

David Dale in Natural Language Processing
dePuff
Но если в наглую долго и печально перед подачей в сетку создать вектора на каждый токен, то вроде ничего не мешает этому работать
А почему долго-то?
Чтоб получить вектор ft, нужно сделать несколько лукапов в таблице эмбеддингов и усреднить найденные вектора - не должно быть медленнее, чем форвард по паре слоёв нейронки.
источник

d

dePuff in Natural Language Processing
David Dale
А почему долго-то?
Чтоб получить вектор ft, нужно сделать несколько лукапов в таблице эмбеддингов и усреднить найденные вектора - не должно быть медленнее, чем форвард по паре слоёв нейронки.
Дольше, чем когда у нас в модели лежат нужные вектора
источник

d

dePuff in Natural Language Processing
Не более того
источник
2021 March 12

BS

Bekassyl Syzdykov in Natural Language Processing
Всем привет ребят, есть кто подал в mbzuai?
источник

АК

Александр Календарев... in Natural Language Processing
Bekassyl Syzdykov
Всем привет ребят, есть кто подал в mbzuai?
а что эьто?
источник

A

Andrei in Natural Language Processing
David Dale
Я это делаю так. Беру текст, разрезаю на предложения. Потом каждое предложение разбираю парсером зависимостей, полученное дерево разрезаю на кустики (правила разрезания придумал эвристически). Далее каждый кустик (который просто подстрока) прогоняю через fasttext и усредняю по словам. Полученный вектор заталкиваю в искалку соседей. Работает.
а про парсер зависимостей, и "разрезание дерева на кустики"

а удавалость чтобы это для русского работало? или для англа?

и для такого лучше spacy или natasha?
источник

DD

David Dale in Natural Language Processing
Andrei
а про парсер зависимостей, и "разрезание дерева на кустики"

а удавалость чтобы это для русского работало? или для англа?

и для такого лучше spacy или natasha?
Я делал это для русского с наташей.
источник

N

Natalia in Natural Language Processing
Andrei
а про парсер зависимостей, и "разрезание дерева на кустики"

а удавалость чтобы это для русского работало? или для англа?

и для такого лучше spacy или natasha?
spacy пока очень свежий релиз, и там пока есть нюансы какие-то вроде
источник

N

Natalia in Natural Language Processing
а так непонятно, почему бы это не должно было работать, мы оперируем составляющими "главное слово + зависимые" очень много когда (вон даже вопрос про question answering был, там тоже это по сути нужно)
источник

A

Andrei in Natural Language Processing
Natalia
а так непонятно, почему бы это не должно было работать, мы оперируем составляющими "главное слово + зависимые" очень много когда (вон даже вопрос про question answering был, там тоже это по сути нужно)
я просто не встречал тьюториалов/решений где бы такое юзали и оно бы хорошо заходило на практике, для русского языка

может не там ходил?
источник

N

Natalia in Natural Language Processing
для русского языка просто ещё и маловато публикаций/либ/прочего
источник

N

Natalia in Natural Language Processing
источник

A

Andrei in Natural Language Processing
клёво!

и ксати вроде spacy тоже умеет выделять подобные чанки
источник