Коллеги, прошу вашего совета, очень хочу устроиться на Джуна, прошёл собеседование по скайпу, теперь прислали решить тестовое задание:
мы предлагаем решить одну из таких задач: определить, что русское и английское названия принадлежат одной компании
train_data.tsv - данные для обучения. Данные состоят из трех колонок:
ru_name - российское название компании;
eng_name - англоязычное название компании;
answer - значение типа bool, которое показывает, относятся ли названия к одной компании
Вопрос в том каким путём изначально пойти:
1) BagOfWords все токенизировать, а потом через двухголовую сеть пропускать
2) На вход Эмбединг поставить и затем так же через двухголовую сеть пропускать
Посоветуйте, как лучше решать?
Спасибо