Size: a a a

Глубинное обучение (группа)

2016 August 23

YB

Yuri Baburov in Глубинное обучение (группа)
ID:183006445
кто что скажет за w2v?
в языках с морфологией нужен комбинированный подход: вместо вектора слова индексируемого по ID слова использовать комбинации (вектор из ID-леммы, часть-речи, морф. характеристики), которые подавать на вход.
к сожалению, в word2vec Hierarchical Skip-Gram сложно устроен, чтобы напрямую этот комбинированный подход туда впендюрить.
наверное, можно попробовать в gensim такое добавить.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
потому что без комбинированного подхода словарь становится очень большим  (2GB для 300 координат) и точность на редких словах сильно падает, и даже огромный корпус не сильно спасает.
ну а второе направление развития word2vec — не соседние слова использовать, а слова, близкие в  графе синтаксических связей. должно ещё повысить точность.
источник
2016 August 24

NK

ID:183006445 in Глубинное обучение (группа)
Yuri Baburov
могу ещё даже и лексикализованные с помощью solarix :

ВАЛЕНТИН:С МИХАЙЛОВИЧ:С АЛЕКСЕЕВ:С
тридцатилетняя:ПРИЛАГ война:С
пособие:С для:ПР учителя:С
в:ПР брошюре:С рассказывается:Г о:ПР крупнейшем:ПРИЛАГ военном:ПРИЛАГ конфликте:С позднего:ПРИЛАГ средневековья:С - тридцатилетней:ПРИЛАГ войне:С 1618:N
показав:ДЕЕПР дипломатическую:ПРИЛАГ и:СОЮЗ военную:ПРИЛАГ подготовку:С войны:С , автор:С освещает:Г военные:ПРИЛАГ действия:С , тактику:С , стратегию:С
глава:С 1:NUM ...
у меня есть некая самодельная штука, она прямо по зализняку может часть речи и тип словоизменения расставлять по словарю wiktionary. а в solarix словари есть какие-то? ага, вижу что есть, надо скачать
источник

NK

ID:183006445 in Глубинное обучение (группа)
Yuri Baburov
потому что без комбинированного подхода словарь становится очень большим  (2GB для 300 координат) и точность на редких словах сильно падает, и даже огромный корпус не сильно спасает.
ну а второе направление развития word2vec — не соседние слова использовать, а слова, близкие в  графе синтаксических связей. должно ещё повысить точность.
вот и я о том же, либо теряем связность из-за словоформ, либо добавляем бреда, убрав словоизменение
источник

NK

ID:183006445 in Глубинное обучение (группа)
Редозубов статью написал, ВАУ!
источник

NK

ID:183006445 in Глубинное обучение (группа)
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:183006445
у меня есть некая самодельная штука, она прямо по зализняку может часть речи и тип словоизменения расставлять по словарю wiktionary. а в solarix словари есть какие-то? ага, вижу что есть, надо скачать
solarix умеет снимать морфологическую неоднозначность для русского языка с неплохой точностью, для этого и использовал.
источник

N

Nikolay добряш in Глубинное обучение (группа)
как думаете в какой формат из xlsx лучше для обработки данные перевести csv или ещё какой нибудь?
источник

NK

ID:183006445 in Глубинное обучение (группа)
какие данные, для какой обработки?
источник

N

Nikolay добряш in Глубинное обучение (группа)
для визуализации думаю
источник

N

Nikolay добряш in Глубинное обучение (группа)
текстовые
источник

N

Nikolay добряш in Глубинное обучение (группа)
там всякие даты суммы
источник

N

Nikolay добряш in Глубинное обучение (группа)
более конкретно спросите)
источник

N

Nikolay добряш in Глубинное обучение (группа)
в цсв что то ексел не хорошо экспортирует, вопросики одни
источник

NK

ID:183006445 in Глубинное обучение (группа)
ты уверен, что чатом не ошибся?
источник

I

I Апрельский in Глубинное обучение (группа)
это вопрос про архитектуру сети, которая учится экпортировать эксель в цсв
источник

I

I Апрельский in Глубинное обучение (группа)
все норм вроде
источник

NK

ID:183006445 in Глубинное обучение (группа)
кстати, о корпусах текстов - все видели что телеграмные чаты кто-то парсит и выкладывает?
источник

I

I Апрельский in Глубинное обучение (группа)
комбот?
источник

NK

ID:183006445 in Глубинное обучение (группа)
не думаю, что они lentius.ru
источник