Добавлено: Mon Mar 15, 2010 8:04 pm Заголовок сообщения: Технический анализ книг
Я начал потихоньку проводить сбор информации по встречаемости слов в книгах Пратчетта. Сбор этот на еще довольно начальном этапе. Пока обработаны 6 книг, и выводы какие либо делать рано.
Но, чтобы это занятие было не таким уж скучным, начал предварительный анализ собранного материала, чтобы отслеживать прогресс написания книг. Результаты этого предварительного анализа в виде выкладываю тут.
Общие замечания.
Идет подсчет
всех слов книг Диска (+Нация). Почему только диска? Потому что эти книги написаны в более менее одном формате и примерно одного размера. Весь сопровождающий материал (Дневники, карты и т.п.) пока не учитывается. Так же, книги написанные в соавторстве тоже пропущены. Книги вне Мира Диска - в графиках не учитываются, хотя будут общитаны так же.
Какие слова учитываются? Абсолютно все слова с длинной 3 буквы и больше. Включая служебные слова вроде предлогов. Исключен артикль "the". Артикль "a", "an" исключен так же, как двухбуквенное слово.
Графики строятся на основе хронологического написания.
График уникальных слов. Общее число слов которое встречается в тексте хотя бы один раз. Если число встречается в слове больше чем один раз, оно все равно считается как одно. Дает представление об активном словаре автора.
В графике 3 линии.
Первая, синяя, - просто общее число уникальных слов.
Вторая, розовая (я не выбирал цвета!) - "Скользящее Среднее-3". Это означает что значение данной книги учитывает среднеарифметическое последних двух книг и текущей книги. Это сделано для сглаживания резких случайных скачков по одной книге, чтобы лучше видеть тенденцию, а не текущее значение.
Треться, желтая (я не выбирал цвета!) - тоже самое что второе, только учитываются не три, а пять книг, это дает еще большую "сглаживаемость" результатов.
*********************
Общее число слов.
Дает представление об общем объеме написанных книг. Так же даны "скользящее среднее" 3 и 5, для трех и пяти книг соотвественно.
*********************
Коэфициент Уникальности.
Соотношение уникальных слов к общему числу слов. Если, скажем, есть две книги, обе по 50 тысяч слов, но в первой книге уникльных слов было 5 тысяч (10%), а в другой книге 10 тысяч (20%) то можно сделать предположение что словарный запас автора второй книги - намного богаче.
Так же приведены "среднее скользящее" 3 и 5.

_________________
Игнорируйте мою подпись!!!