Size: a a a

Python для анализа данных

2021 December 21

T

Tishka17 in Python для анализа данных
ну хорошо.  вот есть
crc32(s) и есть crc32(crc32(s)) - скажите, какой их них имеет больше вероятность коллизий
источник

PZ

Pavel Zheltouhov in Python для анализа данных
это совершенно все равно. для данного чата
источник

T

Tishka17 in Python для анализа данных
это может быть важно для применения хэша. Иначе можно просто взять хэш-функцию вида def myhash(s): return len(s) и не париться
источник

PZ

Pavel Zheltouhov in Python для анализа данных
очевидно, никому в голову не придет называть len хешем.
как и дискутировать о нюансах олимпиадного погроммирования.
источник

T

Tishka17 in Python для анализа данных
почему не придет?
источник

T

Tishka17 in Python для анализа данных
хорошо, len(s)&(2**32-1)
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Ну потому что аналитики нормальные люди, а не постоянно сосредоточенные на поиске крайних условий программисты.
источник

T

Tishka17 in Python для анализа данных
Я не хочу никого обидеть, но рассуждать о свойствах хэша глядя на его исходник - это очень самонадеенно. Есть разные классы хэшей с разными требованиями к их свойствам. И если для популярных алгоритмов хэширования эти свойства кто-то уже вычислил, но для их хитрых производных или кривых реализаций все может быть достаточно неочевидно.
источник

T

Tishka17 in Python для анализа данных
В частности, я совершенно не уверен что хэш функция вообще должна обладать каким-то фиксированным свойством для вычисления по сумме двух строк
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Я считаю код crc32 удачный примером чтобы судить об свойствах остальных хешей чисто по внешним признакам.
На один экран помещается - ну и норм. Ну можно еще что-то попроще поискать.
Если подходить как математик, конечно все не так очевидно.
вот и все
источник

D

Da in Python для анализа данных
Привет всем. Ищем в команду мидл разработчика. Международный сравнения цен
источник

T

Tishka17 in Python для анализа данных
давайте посмотрим на реализацию crc32.
https://rosettacode.org/wiki/CRC-32#Implementation_5

о каких свойствах вы можете рассказать глядя на нее?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
о том что я не хочу туда смотреть
источник

МК

Максим Коротченков... in Python для анализа данных
Ребят, кто знает почему cross_val_score возвращает nan
источник

МК

Максим Коротченков... in Python для анализа данных
А если установить accuracy, то расчет идет
У меня многоклассовая классификация
источник

А

Александр in Python для анализа данных
Привет, собираю свой DF из листа excel, делаю проверку, Условие, могут быть только целые числа(int) И пропуски (nan) а вот текста (str) и десятичных чисел (float) быть не должно.
Но после сохранения elsx > df тип пустой ячейки class 'float'
Этот код не пропускает пустые ячейки, но пропускает float и str:
data = staff_month.iloc[:, 5:18]
   for y in data:
       if data[y].isnull().sum():
           print('1: .')
       else:
           print('false')

Этот код в принципе работает правильно но не пропускает пустые ячейки
datatypes = staff_month.iloc[:, 5:18]
   for y in datatypes:
       if datatypes[y].dtype == np.float64:
           pass
       else:
           print('false')
источник

В

Ваня in Python для анализа данных
Всем добрый вечер, пожалуйста, помогите сделать правильно и красиво.
Имеется следующий датафрейм

df = pd.DataFrame(
{'Действие':('1', '2', '3', '4', '5'),
'Продукт':('A', np.nan, 'B', 'C', np.nan),
'Кол-во':(1, np.nan, 1, 1, np.nan),
'Продукт(n)':(np.nan, 'A', np.nan, np.nan, 'D'),
'Кол-во(n)':(np.nan, 1, np.nan, np.nan,1) })
df

Требуется преобразовать данные таким образом, чтобы для каждой строки таблицы информация по продукту и кол-ву находилась в 2-х столбцах, а не в n-ом кол-ве как в исходнике.

У меня получилось сделать нужное преобразование каждой строки.

Product = df.loc[1].to_frame(name='Product')
Value = df.loc[1].to_frame(name='Value').shift(periods=-1)
Temp = Product.merge(Value, how = 'left', left_index=True, right_index=True)
Temp.filter(like='родукт', axis=0).dropna(subset=["Product"])


Вот только моих знаний не хватает для применения данной функции ко всем строкам таблицы.
Буду признателен, если поможете добавить 2 правильных столбца в исходный датафрейм.
источник

M

Man of War in Python для анализа данных
А в чём вопрос?
источник

А

Александр in Python для анализа данных
Как задать условие, что бы поймать числа с запятой (float)  а не пробелы(nan).
источник

А

Александр in Python для анализа данных
Вопрос в том, что вот это условие принимает за истину и пропуски и значения float:
datatypes = staff_month.iloc[:, 5:18]
   for y in datatypes:
       if datatypes[y].dtype == np.float64:
источник