Size: a a a

Natural Language Processing

2020 June 30

АК

Алексей Кожушко... in Natural Language Processing
Всем привет, можете пожалуйста подсказать, как лучше векторизовать предложения для обучения?
Читал про такой способ:
Создаётся вокабуляр и если в предложение есть слово из вокабуляра, то за это слово ставится 1, если нет 0
Не слишком ли это ресурсозатратно?
источник

AK

Anton Kolonin in Natural Language Processing
Вместо слов можно брать N-gram-ы слов или M-скип-N-грамы слов но это будет еще ресурсозатратно. А можно еще слова бить на "word-pieces" или "грамы" опять таки, чтобы наверняка ресурсы исчерпать 😉
источник

АК

Алексей Кожушко... in Natural Language Processing
Спасибо)
источник

AK

Anton Kolonin in Natural Language Processing
К слову, практика показывает (для английского и русского), что с точки зрения оптимального баланса между ресурсосбережением и точностью,для слов  лучше брать N=2-3, M=1-2, то есть работать с биграмами или триграмами слов, где между словами 1 или 2 слова может быть пропущено. Брать больше - выигрыш точности не стоит ресурсопотребления, брать меньше - жалко точности 😊
источник

AK

Anton Kolonin in Natural Language Processing
Применительно к сентимент-анализу я недавно выписал свежие соображения по этому поводу в конце: https://blog.singularitynet.io/aigents-sentiment-detection-personal-and-social-relevant-news-be989d73b381
источник

AK

Anton Kolonin in Natural Language Processing
Стоит ли заморачиваться с разбиением млов на word-pieces и би/три-грамы букв - уже сильно зависит от языка и задачи, во многих случаях - не обязательно.
источник

АК

Алексей Кожушко... in Natural Language Processing
Ок, ещё раз спасибо большое
источник

SS

Sergey Sikorskiy in Natural Language Processing
Anton Kolonin
Более "узко-специфичного" чата нет 😊 Если только более "общий": https://t.me/agirussia
Спасибо. Насколько я понимаю, @singularitynet - это Ваши товарищи, которые не понимают по-русски …
Или я ошибаюсь?
источник

AK

Anton Kolonin in Natural Language Processing
Sergey Sikorskiy
Спасибо. Насколько я понимаю, @singularitynet - это Ваши товарищи, которые не понимают по-русски …
Или я ошибаюсь?
Там разные товарищи есть, смотря с кем вы говорили 🙂
источник

SS

Sergey Sikorskiy in Natural Language Processing
Anton Kolonin
Там разные товарищи есть, смотря с кем вы говорили 🙂
IMHO, там сложно с кем-то поговорить. Там какая-то гиганская каша из слов. Но количесво участников этого безумия впечатляет. 🙂
Насколько я понял, Вы занимаетесь семантическими сетями и синт/сем анализом в явном виде. Во всяком случае пытаетесь это делать.
Так сказать, вопреки общему тренду …
источник

AK

Anton Kolonin in Natural Language Processing
Sergey Sikorskiy
IMHO, там сложно с кем-то поговорить. Там какая-то гиганская каша из слов. Но количесво участников этого безумия впечатляет. 🙂
Насколько я понял, Вы занимаетесь семантическими сетями и синт/сем анализом в явном виде. Во всяком случае пытаетесь это делать.
Так сказать, вопреки общему тренду …
Мне трудно понять о чем вы - где какая каша 🥴
источник

$

$○| in Natural Language Processing
А есть что то более легковесное чем deeppavlov для вопросно ответных систем?
источник

SS

Sergey Sikorskiy in Natural Language Processing
Anton Kolonin
Мне трудно понять о чем вы - где какая каша 🥴
источник

AK

Anton Kolonin in Natural Language Processing
Sergey Sikorskiy
Спасибо. Насколько я понимаю, @singularitynet - это Ваши товарищи, которые не понимают по-русски …
Или я ошибаюсь?
Если вы про упомянутую группу, то я её не читаю почти, но похоже вы правы в чем то 😂
источник

AK

Anton Kolonin in Natural Language Processing
Ну, по мне так любой чат в Телеграме это какая то каша, из-за отсутствия ветвлений, как в ФБ и Реддите😃 В случае SingularityNET содержательную информацию лучше на блоге черпать https://blog.singularitynet.io/
источник

AK

Anton Kolonin in Natural Language Processing
Ну или вот на прошлой неделе конференция прошла - много внятных докладов https://underline.io/conferences/23-agi-20
источник

SS

Sergey Sikorskiy in Natural Language Processing
Anton Kolonin
Ну или вот на прошлой неделе конференция прошла - много внятных докладов https://underline.io/conferences/23-agi-20
Спасибо. Интересно что где-то треть докладчиков - русско-язычные. Даже Tatiana Shavrina там каким-то образом оказалась ...
источник

AK

Anton Kolonin in Natural Language Processing
Sergey Sikorskiy
Спасибо. Интересно что где-то треть докладчиков - русско-язычные. Даже Tatiana Shavrina там каким-то образом оказалась ...
Это только в этом году так поскольку формально конференция в России проводится. Например на IJCAI в прошдом году китайцев было две трети ибо проводилась в Макао 😉
источник

РН

Роман Некрасов... in Natural Language Processing
Anton Kolonin
Ну, по мне так любой чат в Телеграме это какая то каша, из-за отсутствия ветвлений, как в ФБ и Реддите😃 В случае SingularityNET содержательную информацию лучше на блоге черпать https://blog.singularitynet.io/
а ещё лучше академическая литература наподобие творения профессора Кронгауза
источник
2020 July 01

SS

Sergey Sikorskiy in Natural Language Processing
Роман Некрасов
а ещё лучше академическая литература наподобие творения профессора Кронгауза
Не совсем понятна эмоциональная окраска слова "творения" 😊
источник