Size: a a a

Natural Language Processing

2017 February 02

DV

Dima Veselov in Natural Language Processing
должно работать (например, https://travis-ci.org/bureaucratic-labs/natasha-factRuEval-2016 работает с master бранчами)
источник

NT

Nick Turusin in Natural Language Processing
А ведь и в правду почистить всего на всего надо было
источник
2017 February 03

NT

Nick Turusin in Natural Language Processing
File "/usr/local/lib/python2.7/dist-packages/ml/utils.py", line 94, in preprocess_string
   text = personalinfo_cleaner(text, lang)
 File "/usr/local/lib/python2.7/dist-packages/ml/utils.py", line 145, in personalinfo_cleaner
   for grammar, match in combinator.resolve_matches(matches):
 File "/usr/local/lib/python2.7/dist-packages/yargy/parser.py", line 209, in resolve_matches
   matches = sorted(matches, key=lambda m: len(m[1]), reverse=True)
 File "/usr/local/lib/python2.7/dist-packages/yargy/parser.py", line 204, in extract
   for (rule, match) in self.parser.extract(text):
 File "/usr/local/lib/python2.7/dist-packages/yargy/parser.py", line 166, in extract
   for token in stream:
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 37, in next
   return self.__next__()
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 139, in __next__
   match = next(self.get_next_token())
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 113, in get_next_token
   token = next(self.stream)
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 37, in next
   return self.__next__()
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 139, in __next__
   match = next(self.get_next_token())
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 113, in get_next_token
   token = next(self.stream)
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 37, in next
   return self.__next__()
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 139, in __next__
   match = next(self.get_next_token())
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 113, in get_next_token
   token = next(self.stream)
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 37, in next
   return self.__next__()
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 139, in __next__
   match = next(self.get_next_token())
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 113, in get_next_token
   token = next(self.stream)
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 37, in next
   return self.__next__()
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 139, in __next__
   match = next(self.get_next_token())
 File "/usr/local/lib/python2.7/dist-packages/yargy/pipeline.py", line 113, in get_next_token
   token = next(self.stream)
 File "/usr/local/lib/python2.7/dist-packages/yargy/tokenizer.py", line 108, in transform
   token = transform_method(value, position)
 File "/usr/local/lib/python2.7/dist-packages/yargy/tokenizer.py", line 183, in transform_int_range
   return Token(range(*values), position, [
OverflowError: Python int too large to convert to C long
источник

NT

Nick Turusin in Natural Language Processing
получил в yargy такую интересную ошибку
источник

NT

Nick Turusin in Natural Language Processing
я так понимаю, что там в конце трейсбека рекурсивная функция отрабатывает?
источник

DV

Dima Veselov in Natural Language Processing
Ой, нет, с токенизатором что-то.
источник

NT

Nick Turusin in Natural Language Processing
к сожалению не залогировал эту строку, могу вернуться сюда с ней
источник

NT

Nick Turusin in Natural Language Processing
через некоторое время
источник

DV

Dima Veselov in Natural Language Processing
вообще, вот это приведение типов, особенно в range обхекты как-то плохо работает, может его вообще убрать?
источник

DV

Dima Veselov in Natural Language Processing
так-то, конечно, прикольно, когда на выходе из токенизатора что-то вроде [range(5, 10), 'лет'] вместо 5-10 лет
источник

NT

Nick Turusin in Natural Language Processing
ага
источник

NT

Nick Turusin in Natural Language Processing
я пока не могу понять причину точно, возможно я как-то неприлично использую метод
источник

NT

Nick Turusin in Natural Language Processing
потому что у меня на большом объеме данных это отрабатывало 3 часа
источник

NT

Nick Turusin in Natural Language Processing
и потом свалилось
источник

NT

Nick Turusin in Natural Language Processing
то есть куча строк была обработана
источник

NT

Nick Turusin in Natural Language Processing
а потом раз и упало
источник

DV

Dima Veselov in Natural Language Processing
обидно (:
источник

DV

Dima Veselov in Natural Language Processing
а что парсишь, если не секрет?
источник

NT

Nick Turusin in Natural Language Processing
Да сообщения чищу от всего что мне хотелось бы в них видеть
источник

NT

Nick Turusin in Natural Language Processing
Имена собственные - часть этого
источник