Всем привет, можете пожалуйста подсказать, как лучше векторизовать предложения для обучения? Читал про такой способ: Создаётся вокабуляр и если в предложение есть слово из вокабуляра, то за это слово ставится 1, если нет 0 Не слишком ли это ресурсозатратно?
Вместо слов можно брать N-gram-ы слов или M-скип-N-грамы слов но это будет еще ресурсозатратно. А можно еще слова бить на "word-pieces" или "грамы" опять таки, чтобы наверняка ресурсы исчерпать 😉
К слову, практика показывает (для английского и русского), что с точки зрения оптимального баланса между ресурсосбережением и точностью,для слов лучше брать N=2-3, M=1-2, то есть работать с биграмами или триграмами слов, где между словами 1 или 2 слова может быть пропущено. Брать больше - выигрыш точности не стоит ресурсопотребления, брать меньше - жалко точности 😊
Стоит ли заморачиваться с разбиением млов на word-pieces и би/три-грамы букв - уже сильно зависит от языка и задачи, во многих случаях - не обязательно.
Там разные товарищи есть, смотря с кем вы говорили 🙂
IMHO, там сложно с кем-то поговорить. Там какая-то гиганская каша из слов. Но количесво участников этого безумия впечатляет. 🙂 Насколько я понял, Вы занимаетесь семантическими сетями и синт/сем анализом в явном виде. Во всяком случае пытаетесь это делать. Так сказать, вопреки общему тренду …
IMHO, там сложно с кем-то поговорить. Там какая-то гиганская каша из слов. Но количесво участников этого безумия впечатляет. 🙂 Насколько я понял, Вы занимаетесь семантическими сетями и синт/сем анализом в явном виде. Во всяком случае пытаетесь это делать. Так сказать, вопреки общему тренду …
Ну, по мне так любой чат в Телеграме это какая то каша, из-за отсутствия ветвлений, как в ФБ и Реддите😃 В случае SingularityNET содержательную информацию лучше на блоге черпать https://blog.singularitynet.io/
Спасибо. Интересно что где-то треть докладчиков - русско-язычные. Даже Tatiana Shavrina там каким-то образом оказалась ...
Это только в этом году так поскольку формально конференция в России проводится. Например на IJCAI в прошдом году китайцев было две трети ибо проводилась в Макао 😉
Ну, по мне так любой чат в Телеграме это какая то каша, из-за отсутствия ветвлений, как в ФБ и Реддите😃 В случае SingularityNET содержательную информацию лучше на блоге черпать https://blog.singularitynet.io/