Fork me on GitHub
#clojure-russia
<
2015-08-14
>
shinych05:08:22

@nicola: а что это за sloc в табличке?

niquola06:08:21

@shinych sloc реализаций языков

gordon07:08:30

сумма не бьется)

ponimas08:08:53

да, странные суммы, как на выборах прям

dottedmag08:08:41

Где не совпадает - всегда сумма выше, чем языки отдельно. Значит всякие мейкфайлы-иксэмэлы не включены в табличку.

gordon08:08:05

да это понятно, но такой агитацией я бы не размахивал)

dottedmag08:08:25

Да, могли бы и "other" вписать

abtv16:08:25

@kirillov по поводу mystem - я его использовал года так 3-4 назад и могу сказать, что он выполняет очень неплохой морфологический анализ для русского языка, особенно если в тексте встречается нестандартное слово - фамилия или вообще отсутствующее по каким-то причинам в словаре слово. Его результаты были настолько неплохи, что на его основе я написал минимальный синтаксический анализатор и примитивный извлекатель шаблонов-фактов. Есть два момента, первый - это действительно только морфоанализатор, дающий много неоднозначностей (например, в определении падежа), поэтому на этапе синт. анализа пришлось часть неоднозначости снимать. Второй момент - я вызывал этот файл как процесс и скармливал ему порядка 8 Кб текста за раз. Не знаю, есть ли сейчас такие ограничения, все-таки много времени прошло, но тогда они лечились параллельным запуском нескольких экземпляров mystem и очередями на процессинг текста.

kirillov19:08:59

@abtv: спасибо большое. Тоже присматривался к нему. Жаль, что Яндекс не выносит его в opensource. Скорее всего там тот же русский корпус) Посмотрю повнимательнее на него.