вторник, 9 октября 2012 г.

Heaps' law

Наткнувшись в Introduction to Information Retrieval на Heaps' law (с ростом объема текста количество уникальных слов растет как степенная функция, для ангоийского языка показатель степени где-то между 0.4 и 0.6) мне жутко захотелось проверить его на реальныйх текстах и сравнить распределение для разных авторов.