Size: a a a

Natural Language Processing

2021 May 07

V

Vic in Natural Language Processing
Поучаствовал вчера в семинаре от  сообщества AGIRussia (посвящено разработке сильного ИИ) Нужно ли нам объединиться для построения AGI? И если да — то как? — 6 мая, 18:00-20:30 (время Московское) Модератор: Игорь Пивоваров, организатор OpenTalks конфы по ИИ.
https://aigents.timepad.ru/event/1412596/

Обсуждение было под запись, но она не будет опубликована, как обычно.
Я предложил там разные варианты организации, такие, как стандартные ООО, чистая рисеч команда от университета или экзотическая ДАО с прозрачностью(для контроля расходов, голосования за перспективные разработки, отслеживания перфоманса внутренних команд). И интересно, что эта же мысль была и у других людей, я не буду писать у кого, т.к. все в разработке, но, возможно, скоро у нас появится система, которая в корне решит проблему финансирования AGI рисеча.
Лейтмотивом многих выступлений было посыл "давайте объединяться". По опросу, который был опубликован в чате сообщества недавно, около половины всех проектов ведутся одиночками, у которых команды нет или нет денег, чтобы платить зп команде (что взаимосвязано).
Вопрос как всегда в финансировании, и вообще стоит ли это делать как отдельный проект(может и нет, пусть корпорации этим только занимаются).
Но тут в чем фишка: обычный венчур на Аги стартап не даст денег, тк горизонт результата может быть более 5 лет, без гарантии продаж, то есть риски ещё намного выше, чем давать денег просто в ИИ стартап. В итоге получить можно либо мега гранты от научных фондов либо, и вот тут вопрос к ним: грант от топ популяризаторов типа Мильнера, Богуславского, Рябенького, Гинзбурга, зная, что они учреждают премии и филантропы в целом с ценностями развития чего-то прорывного и нового в технологиях.
Стадия большинства проектов(то, что я знаю): seed или pre-seed, ранние МВП, даже у корпораций почти нет разработок по АГИ. Но у нас есть шанс начать этот процесс, сразу по нескольким отраслям и наконец-то перестать плакать, что всех победит Китай. Тем более, что наверху, кажется, все осознали и декларируют, что "кто владеет ИИ, тот владеет миром."

В ФБ я вчера потегал известных инвесторов в ИИ: Богуславский Леонид Борисович Mark Ginzburg Igor Shoifot Игорь Рябенький Yuri Milner Сергей Марков. Они правда не пришли на семинар, но по крайней мере они узнали, что инициатива развивать AGI в России есть, а Игорь Шойфот из Стартап Котиков даже в ФБ тегал для нас других людей)
источник

V

Vic in Natural Language Processing
gpt-like
источник

AW

Alex Wortega in Natural Language Processing
Кстати а у gpt dilog от Майкрософт есть параметр уверенности в ответе?
источник

iy

it ya in Natural Language Processing
Доброго времени суток. Пытаюсь разобраться с DeepPavlov. Обучил модель. В последней ячейке получил:
источник

iy

it ya in Natural Language Processing
Text sample: "Линейка")))
True label: neutral
Predicted probability distribution: {'neutral': 0.9710734, 'positive': 0.013640344, 'skip': 0.025679827, 'speech': 0.0065270364, 'negative': 0.0058786273}
Predicted label: neutral
источник

iy

it ya in Natural Language Processing
Но как далее ввести свой текст в модель?
источник

iy

it ya in Natural Language Processing
Из массива.
источник

iy

it ya in Natural Language Processing
источник

iy

it ya in Natural Language Processing
Тут есть пример подключение без конфига, но там как-то неправильно сделано.
источник

iy

it ya in Natural Language Processing
Особенно смущает эта строка. sentiment_labels = vocab(prob2labels(model(embedder(tokenizer(preprocessor(input_texts))))))
источник

וק

ולדימיר קון... in Natural Language Processing
судя по ноутбуку , достаточно вызвать SentimentPipeline()(здесь свой текст) PS поскольку я несильно знаком с api deeppavlov я бы просто взял бертовую модель и использовал ее в стандартном pipeline от хаггингфейс , хотя исходники все есть и можно разобраться - https://github.com/deepmipt/DeepPavlov/blob/40bc7ed4666a4975c34deefe0ad11481f58eb0ad/deeppavlov/models/bert/bert_classifier.py
источник

AO

Alex Orgish in Natural Language Processing
Микрософт выложил в open source свои токенизаторы, заявляют 4-5 раз быстрее huggingface и 10 раз быстрее spacy
https://github.com/microsoft/BlingFire
источник

OS

Oleg Serikov in Natural Language Processing
bert_classifier(bert_preprocessor(["мама, блин, прекращай мыть раму!"]))
источник

OS

Oleg Serikov in Natural Language Processing
а вообще вот живой чат диппавлова: https://t.me/DeepPavlovDreamDiscussions
источник

EU

Egor Urvanov in Natural Language Processing
https://us02web.zoom.us/j/85812259892?pwd=T0VOSWJIc2NBdGloemxBb2Uvd28vQT09

Parsing Conf. Залетайте, сейчас

https://t.me/parsing_conf

1. "Микрооптимизации парсинга в промышленных масштабах"
2. "Как добывать данные когда их не хотят отдавать"
источник

ОК

Оля Криволейко... in Natural Language Processing
Добрый день, пытаюсь обучить берт для классификации, где на входе два предложения, при помощи BertForSequenceClassification по примеру из курса по нлп на степике https://github.com/Samsung-IT-Academy/stepik-dl-nlp/blob/master/task9_bert_sentiment_analysis.ipynb, добавив token_type_ids, но выводится ошибка out of memory, пробовал и в колабе и локально, но падает при вызове но падает при вызове loss = model(b_input_ids, token_type_ids=b_seg, attention_mask=b_input_mask, labels=b_labels)

Вряд ли проблема в вычислительных ресурсах, не понимаю, в чем может быть ошибка? Кто-нибудь сталкивался с таким? Или мб кто-нибудь знает подробный гайд c файнтюнингом берта по semantic similarity?
источник

OS

Oleg Serikov in Natural Language Processing
С потолка хочется предложить попробовать уменьшить батчсайз...
источник

iy

it ya in Natural Language Processing
Спасибо! Буду проверять. Сессия в коллабе упала, к сожалению.
источник

iy

it ya in Natural Language Processing
Благодарю за чат.
источник

ES

Eugene Solomatin in Natural Language Processing
Привет.
А есть запись конфы?
источник