Телеграмм чат группы hadoopusers страница 2209

в сторону какой функции смотреть

00:47пожаловаться #1

АС

update: Преобразовал текстовик в json — > в dataFrame (получился key, value), теперь нужно сделать как в sql, только для 1 строки в df искать все значения(word) из словаря:
{"word": "abandons", "value": "-2"}
{"word": "abducted", "value": "-2"}
{"word": "abduction", "value": "-2"}
{"word": "abductions", "value": "-2"}
и если есть совпадения - то в новый(отдельный столбец делать сумму value)
C помощью какой функции можно это сделать? Или есть более простой способ это реализовать, чем мой

Андрей Жуков in Data Engineers

01:38пожаловаться #2

АЖ

Да они осатанели!

Андрей Жуков in Data Engineers

10:18пожаловаться #3

АЖ

Куда там в нетологию писать, чтоб они СММ разогнали?

10:18пожаловаться #4

A

привет, есть таблица, в которой есть поле с тектом (ранее это был большой json), также есть тхт-файл, содержание котрого "Слово - цифра", как проверить наличие слов из текстового файла в поле текст из json'a и вывести в отдельный столблец сумму цифр?

проверить по строгому совпадению слова ?

10:24пожаловаться #5

АС

как для 1 строки проверить проверить весь список слов и суметь сохранить сумму для этой строки в новый столбец

10:25пожаловаться #6

A

если да - то возможно следущая идея дурацкая, но она заключается в том, что первый DataFrame с текстовым полем модифицировать в DF где текст поля будет разбит на отдельные слова и каждое слово будет представлено отдельным рядком. А потом по словам сделать JOIN между первым и вторым DF и затем в результуючем DF сделать сумму цифр

10:27пожаловаться #7

АС

думаю не совсем удобно, т.к. слов может быть и 20 и 100 и 400, например так:
есть текст "слово1 слово2 слово3 текст машина утка"
есть справочник:
машина 1
утка 3
слово1 10
и по конкретно этй строке я хочу получить вот так:
слово1 слово2 слово3 текст машина утка ———- (10+3+1) 14
слово1 слово2 слово3 текст машина метла ———- (10+1) 11

10:39пожаловаться #8

GT

Gennady Timofeev in Data Engineers

думаю не совсем удобно, т.к. слов может быть и 20 и 100 и 400, например так:
есть текст "слово1 слово2 слово3 текст машина утка"
есть справочник:
машина 1
утка 3
слово1 10
и по конкретно этй строке я хочу получить вот так:
слово1 слово2 слово3 текст машина утка ———- (10+3+1) 14
слово1 слово2 слово3 текст машина метла ———- (10+1) 11

Юдф можно написать, а текстовик в мапу превратить, если небольшой. В юдф бегать по массиву слов и проверять их наличие в мапе, при наличии - прибавлять к сумме значение.

10:53пожаловаться #9

АС

а без udf?

10:54пожаловаться #10

АС

только с pyspark.sql.functions

10:54пожаловаться #11

GT

Gennady Timofeev in Data Engineers

pyspark.sql.functions.udf 🌝

10:55пожаловаться #12

A

думаю не совсем удобно, т.к. слов может быть и 20 и 100 и 400, например так:
есть текст "слово1 слово2 слово3 текст машина утка"
есть справочник:
машина 1
утка 3
слово1 10
и по конкретно этй строке я хочу получить вот так:
слово1 слово2 слово3 текст машина утка ———- (10+3+1) 14
слово1 слово2 слово3 текст машина метла ———- (10+1) 11

Используйте тогда Spark и слов может быть хоть триллион тогда, если кластер соответствующий найдете

10:58пожаловаться #13

АС

Gennady Timofeev

pyspark.sql.functions.udf 🌝

udf нельзя (так сказано в задании)

10:59пожаловаться #14

D

Dasha in Data Engineers

Андрей Жуков

%sql = %spark.sql

Спасибо, попробую поправить

11:00пожаловаться #15

A

думаю не совсем удобно, т.к. слов может быть и 20 и 100 и 400, например так:
есть текст "слово1 слово2 слово3 текст машина утка"
есть справочник:
машина 1
утка 3
слово1 10
и по конкретно этй строке я хочу получить вот так:
слово1 слово2 слово3 текст машина утка ———- (10+3+1) 14
слово1 слово2 слово3 текст машина метла ———- (10+1) 11

Ну мой алгоритм с разбивкой на слова — точно так и сработает как вам нужно - join на двух DF, а потом сумма по результирующему DF в группах.

11:03пожаловаться #16

GT

Gennady Timofeev in Data Engineers

udf нельзя (так сказано в задании)

Можете массив слов разобрать в отдельные записи (explode), после чего заджойнить и подсчитать сумму

11:03пожаловаться #17

АС