Size: a a a

Machine learning

2021 February 01

i

igor in Machine learning
Почему просто но на курсах такое не учили
источник

GS

Gennady Shtekh in Machine learning
Sergey Salnikov
ухты, интересные вопросы, накидайте ещё, на подумать
Entity Linkage.
Предположим у нас есть 250 000 документов. Каждый может быть от 5000 до 100 000 токенов. Таким образом датасет достаточно большой.
Сущностей всего 9 типов.
- номер документа, название, какой-то идентификатор в правовой системе в относительно свободной форме
- упоминание другого документа из корпуса
- упоминание другого документа не из корпуса (например на законодательства РФ)
- упоминание "ответственного" лица, например руководителя, который подписал приказ или инструкцию
- упоминание исполнителей приказа или инструкции
- упоминание юрлиц
- упоминание адресов
- упоминания дат "начала" (например поставок или трудового договора)
- упоминания дат "конца"

Есть разметка сущностей на 1366 документах.

Так же есть метаданные для документов. Где могут содержаться сущности, упомянутые выше, без привязки к тексту (мы знаем, что сущность в тексте должна быть, но не знаем где), известно, что как минимум в 60% случаев метаданные корректны. Однако они могут устареть, могут содержать опечатки и тд. При несовпадении сущностей из документа и метаданных корректными считаются сущности из текста документа.

2 задачи:
- для корпуса документов проверить, корректность метаданных каждого документа
- в реальном времени находить документы, которые ссылаются на документ, который мы запросили (в качестве запроса отдаём документ, в ответ получаем список документов, в которых на него есть ссылка)
источник

GS

Gennady Shtekh in Machine learning
Gennady Shtekh
Мне очень лень, у меня заготовленного списка нет.
Но есть задачка на подумать. Я ее даю в качестве тестового стажерам, если они на питон слабы. Минутку...
Собственно, текст.

Ответ — относительно развернутое эссе страницы на две с предложенными подходами и аргументацией.
источник

V

Valery in Machine learning
соискатель:
*слаб на питон*
Геннадий:
вот, держи нлп задание
источник

V

Valery in Machine learning
(просто шучу))
источник

SS

Sergey Salnikov in Machine learning
igor
Почему просто но на курсах такое не учили
просто теорвер и татстат как-то мимо меня прошли, хотя учился на математика, сейчас самостоятельно подтягиваю, но с переменным успехом, т.к. в реальных задачах такие задачки не особо нужны
источник

DP

Dmitry Penzar in Machine learning
Gennady Shtekh
"Чем отличается логистическия регрессия от персептрона с сигмоидой?"
"Как влияет количество фолдов на результат, если модель планируется в прод?"
"Что делать, если размеченных данных для классификации очень мало, а классифицировать нужно?"

Чисто навскидку 3 вопроса, ответы на которые не найти в курсах.
+++
источник

DP

Dmitry Penzar in Machine learning
красивые)
источник

GS

Gennady Shtekh in Machine learning
Valery
соискатель:
*слаб на питон*
Геннадий:
вот, держи нлп задание
Ну НЛПшник я, да. :(

Опять же на питон у меня задачки зверские. За неделю-две не осилить без уверенного владения.
А тут почитать и проанализировать методы за неделю-две можно. Я надеюсь. :)
источник

V

Valery in Machine learning
ну да, если это задание на несколько дней, то при наличии мотивации - должно решаться качественно
источник

K

K-S in Machine learning
Высокая должна быть мотивация однако)
источник

GS

Gennady Shtekh in Machine learning
K-S
Высокая должна быть мотивация однако)
Это да.
Однако люди находятся. И если проходят — то потом себя здорово показывают.
источник

V

Valery in Machine learning
ну мало ли, человек во что бы то ни стало хочет сменить сферу, например
источник

SS

Sergey Salnikov in Machine learning
да, это задача прям "из прода", подобное часто требуют, судя по соревнованиям компаний
источник

V

Valery in Machine learning
или это на какие позиции?
источник

SS

Sergey Salnikov in Machine learning
и народ решает их какими-то монстрами типа берта
источник

SS

Sergey Salnikov in Machine learning
хотя я бы для начала сделал бейзлайн на регулярках
источник

GS

Gennady Shtekh in Machine learning
Valery
или это на какие позиции?
Текстовая на стажера. Можно дать джуну, у которого с программной задачей не очень получилась.
источник

SS

Sergey Salnikov in Machine learning
а програмная задача? огласите весь списочек пжлста
источник

K

K-S in Machine learning
Я помню как-то подавался на мл инженера в одну контору. Требования были классические: ML ну и DL на уровне таблиц (то есть MLP/CNN/RNN), без экзотики. А прислали тестовое задание на Imitation Learning. Я подумал, что за то, чтоб я разбирался в RL мне не платили, а медалек за выполнение тестового задания тоже не дают. Ну и все :DDD
источник