Автор / Сообщение

Технический анализ книг

Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Mon Mar 15, 2010 8:04 pm     Заголовок сообщения: Технический анализ книг

Я начал потихоньку проводить сбор информации по встречаемости слов в книгах Пратчетта. Сбор этот на еще довольно начальном этапе. Пока обработаны 6 книг, и выводы какие либо делать рано.

Но, чтобы это занятие было не таким уж скучным, начал предварительный анализ собранного материала, чтобы отслеживать прогресс написания книг. Результаты этого предварительного анализа в виде выкладываю тут.

Общие замечания.

Идет подсчет всех слов книг Диска (+Нация). Почему только диска? Потому что эти книги написаны в более менее одном формате и примерно одного размера. Весь сопровождающий материал (Дневники, карты и т.п.) пока не учитывается. Так же, книги написанные в соавторстве тоже пропущены. Книги вне Мира Диска - в графиках не учитываются, хотя будут общитаны так же.

Какие слова учитываются? Абсолютно все слова с длинной 3 буквы и больше. Включая служебные слова вроде предлогов. Исключен артикль "the". Артикль "a", "an" исключен так же, как двухбуквенное слово.

Графики строятся на основе хронологического написания.

График уникальных слов. Общее число слов которое встречается в тексте хотя бы один раз. Если число встречается в слове больше чем один раз, оно все равно считается как одно. Дает представление об активном словаре автора.



В графике 3 линии.
Первая, синяя, - просто общее число уникальных слов.
Вторая, розовая (я не выбирал цвета!) - "Скользящее Среднее-3". Это означает что значение данной книги учитывает среднеарифметическое последних двух книг и текущей книги. Это сделано для сглаживания резких случайных скачков по одной книге, чтобы лучше видеть тенденцию, а не текущее значение.
Треться, желтая (я не выбирал цвета!) - тоже самое что второе, только учитываются не три, а пять книг, это дает еще большую "сглаживаемость" результатов.

*********************
Общее число слов.
Дает представление об общем объеме написанных книг. Так же даны "скользящее среднее" 3 и 5, для трех и пяти книг соотвественно.






*********************

Коэфициент Уникальности
.
Соотношение уникальных слов к общему числу слов. Если, скажем, есть две книги, обе по 50 тысяч слов, но в первой книге уникльных слов было 5 тысяч (10%), а в другой книге 10 тысяч (20%) то можно сделать предположение что словарный запас автора второй книги - намного богаче.
Так же приведены "среднее скользящее" 3 и 5.


_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Mon Mar 15, 2010 8:08 pm     Заголовок сообщения:

Пока без особых неожиданностей.

Вторая и третья книги имели меньшее число уникальных слов, потом количиство уникальных слов начало расти.

Объем книг тоже стал увеличиваться, тенденция довольно заметная.

Коэфициент уникальности немного падает, что прекрасно объясняется возросшими объемами книг, т.к. книга теоретически не имеет предала к росту, а активный запас автора все ж таки лимитирован, и при дальнейшем росте объема книги не может и не должен за ним поспевать.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Tue Mar 16, 2010 5:59 am     Заголовок сообщения:

Народ, пришлите кто нибудь Пирамиды на английском, в виде Ворда или просто текста, на maratgub хотмейл ком. Или маратгуб яху дот ком. Или тоже самое яндекс.ру.

Очень нужно и посрочнее.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
M.



Зарегистрирован: 31.01.2008
Сообщения: 7951
Откуда: Bonk
Ответить с цитатой
СообщениеДобавлено: Tue Mar 16, 2010 7:13 am     Заголовок сообщения:

Лови в зиповском архиве нa хотмейл.
Пришло?

PS. У меня отпять свет отрубился, так что на некоторое время пропаду со связи.
_________________
Уши кота могут вращаться быстро.
Посмотреть профиль Отправить личное сообщение
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Tue Mar 16, 2010 4:53 pm     Заголовок сообщения:

Спасибо, завтра обновлю графики.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Tue Mar 16, 2010 10:54 pm     Заголовок сообщения:

Я тут анализирую данные потихоньку, мне кажется соотношение уникальности слов к общему числу слов практически ничего не дает.

Чем короче книга, тем ниже "уникальность".

Думаю сделать побочную обработку. Из книги случайным образом выделяется участок в 10 или 20 тысяч слов. И по нему пробегается программа выискивая уникальные слова. Это дает преимущество, что от размера книги уникальность не зависит.

Но это уже позже. Наверное, когда все обработаю. Может это ничего и не даст, просто колебания небольшие от одной книги к другой.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
M.



Зарегистрирован: 31.01.2008
Сообщения: 7951
Откуда: Bonk
Ответить с цитатой
СообщениеДобавлено: Wed Mar 17, 2010 6:24 pm     Заголовок сообщения:

Пионер, можно еще такой способ. Берешь общее количество слов в книге, рядом - количество "уникальных слов" в этой книге. И вычисляешь коэффициент (это если мы хотим, например, узнать - меняется ли он в разные периоды творчества, или в разных циклах, допустим, больше ли его в книгах про Стражу или Смерть).

Если прога так долго работает, я сейчас не смогу ею пользоваться - что-то у нас тут погодное, перебои с электричеством. Sad
(А еще недавно в доме был пожар, в соседнем подъезде, отключали свет на время тушения).
_________________
Уши кота могут вращаться быстро.
Посмотреть профиль Отправить личное сообщение
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Wed Mar 17, 2010 10:48 pm     Заголовок сообщения:

М., насчет помощи - не проблема, я посчитаю все сам, просто займет чуток больше времени (и меньше головной боли для меня).

А коэффициент я так и считаю, посмотри третий график, он как раз про это. Но боюсь он плохо работает (хотя смотреть забавно).

Но с увеличением размера книги - этот коэффициент падает. Если на первую тысячу добавляется 500-600 новых слов, то в районе прочтения 100 тысяч слов, на тысячу добавляется 10-20 слов. То бишь, чем длинее книга, тем ниже уровень уникальности. Эх, надо было УУ назвать. Smile
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 12:13 am     Заголовок сообщения:

Народ, я обновил графики, полюбуйтесь, если кому интересно, в первом посте.

Если у кого-то браузер не обновил картинку, нажмите на кнопке "перезагрузить страницу" с нажатой клавишей шифт.

Пока видна четкая тенденция увеличения количества уникальных слов от книги к книге, увеличения смыслового объема книги, а так же снижения уровня уникальности (УУ). Снижение УУ в связи с ростом объема книги вполне закономерно.

Заметно что особняком стоят (выделяются из общих тенденций) книги Эрик, Пирамиды и Цвет Волшебства.

ЦВ - среднего объема книга, с большим уровнем УУ, это необычно. Эрик - очень маленькая книга, с гиганским УУ. Пирамиды, можно заметить, тоже имеют относительно много уникальных слов, при среднем объеме.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
M.



Зарегистрирован: 31.01.2008
Сообщения: 7951
Откуда: Bonk
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 1:54 am     Заголовок сообщения:

Ух ты, как с "Эриком" получилось. Интересно, за счет чего это? Вообще есть что-то загадочное в "Эрике", меня когда-то очень прикололо, что там начало белыми стихами написано. Женечка, помнишь, мы на эту тему разговаривали? Laughing

Пионер, а может, дело как раз в необльшом объеме книги? Посчитай УУ для какого-нибудь рассказа, или для "Моря и рыбок" - тогда будет видно.
_________________
Уши кота могут вращаться быстро.
Посмотреть профиль Отправить личное сообщение
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 2:40 am     Заголовок сообщения:

М., ты читаешь что я пишу? Laughing

Я как раз говорю, что дело в малом объеме книги.

поэтому я хочу отдельно прогнать все книги только фиксированными отрывками, скажем, по 5 или 10 тысяч слов, может несколько на книгу, случайным образом выбранные, и посмотреть, сколько будет уникальных слов в этом случае.

Но в некоторых случаях, обратите внимание, 2 книги с одинаковым объемом, а УУ различается заметно.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 2:44 am     Заголовок сообщения:

Посмотрите, например, 3 подряд идущие книги.

Sourcery, Вещие Сестрички и Пирамиды.

Первая и вторая равны по количеству уникальных слов, но объем книг различается заметно.

А вторая и третья почти равны по объему, но в Пирамидах заметно больше уникальных слов.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
M.



Зарегистрирован: 31.01.2008
Сообщения: 7951
Откуда: Bonk
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 2:47 am     Заголовок сообщения:

Pioner писал(а):
Но в некоторых случаях, обратите внимание, 2 книги с одинаковым объемом, а УУ различается заметно.

Ну так и я об этом. Laughing Дело не только в объеме книги.
_________________
Уши кота могут вращаться быстро.
Посмотреть профиль Отправить личное сообщение
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 2:52 am     Заголовок сообщения:

С Эриком думаю дело как раз таки в объеме, вообще, обрати внимание, что Эрик по объему практиески в 2 раза меньше всех остальных книг, и даже в 3 раза других.

Попробую завтра написать отдельный скрипт который замерит 2 отдельных отрывка по 10 тысяч слов. Будут более объективные данные.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Nanny Ogg



Зарегистрирован: 09.02.2005
Сообщения: 14338
Откуда: Ланкр, что на Плоском Мире
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 6:32 am     Заголовок сообщения:

Цитата:
Думаю сделать побочную обработку. Из книги случайным образом выделяется участок в 10 или 20 тысяч слов.

Пионер, мне кажется, что с выборочным просчитыванием именно и можно лохануться. И это связано как раз с моим предположением о том, почему так много (относительно общего объема) уникальных слов в "Цвете волшебства" и в "Эрике".
Обе книги построены по принципу "героев непредсказуемо швыряет из одной реальности в другую". Причем каждая новая реальность -- это букет (кластер) аллюзий на базовые штампы "белого знания" в нарративе: в ЦВ -- преимущественно на стереотипы масс-культуры, в "Эрике" -- на литературную классику.
Каждый новый кластер требует использования новых ключевых терминов -- вот и растет количество уникальных слов. Но классика в принципе разнообразнее, чем фэнтези-масс-культура, что и отражается на тезаурусе (словарном запасе)...

Если же ты выделишь отдельный кусок на 10 тысяч слов -- ты рискуешь попать на один единичный кластер, и коэффициент уникальности резко упадет.
С другой стороны -- это будет неплохая проверка моей гипотезы Laughing

* * * * *
И еще.
Целых две линии средних скользящих -- на мой взгляд, зряшный перевод твоей работы и лишнее отвлечение внимания.
Одного СС -- более чем. Имхо.
А вот зато сравнить на одном графике две линии -- а) уникальных слов и б) коэффициент уникальности -- это, имхо, будет показательно.
Можно совместить и с соответствующими средними скользящими (я бы ограничилась СС-3 в обоих случаях).
_________________
As the Harvard Law of Animal Behaviour puts it: 'Experimental animals, under carefully controlled laboratory conditions, do what they damned well please.'
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 8:10 am     Заголовок сообщения:

Nanny, идеально сделать что-то сложно, но мне кажется 10 тысяч слов - достаточно большой отрезок (это 20% книги Эрика), чтобы "поймать" несколько отрезков. При этом, Moving Pictures содержал 139 тысяч слов. Разница почти в три раза. (слова в данном случае означает все, и одно- и двухбуквенные и т.п.).

Причем я предложил брать 2 отрезка, случайным образом выбранные, и неналагаемые друг на друга. В принципе задачу можно еще и по другому сделать, скажем прогнать 5-10 раз каждый раз случайным образом выбирая 10 тысяч (на накладывание кусков друг на друга не проверять). И подсчитать среднеарифмитическое. Тут никоим образом нельзя будет предположить что получили случайное значение.

Какой путь кажется более интересным? Вопрос ко всем, у кого есть мнение по этому вопросу, не стесняйтесь.

Я завтра, если будет время, попробую скрипт написать.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 8:15 am     Заголовок сообщения:

Да, на счет линий СС, я согласен, 2 многовато. Но я пока испытываю, какая более правильная, пока поделаю вот так, а потом уже посмотрим.

Цитата:
А вот зато сравнить на одном графике две линии -- а) уникальных слов и б) коэффициент уникальности -- это, имхо, будет показательно.

Да, это можно сделать, по моему будет довольно показательно, согласен. Посмотрим, когда я получу какие-то данные.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
M.



Зарегистрирован: 31.01.2008
Сообщения: 7951
Откуда: Bonk
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 2:45 pm     Заголовок сообщения:

Пионер, мне кажется - текстовый анализ книги имеет смысл, только если брать книгу целиком. Выборочный кусок текста ничего не дает (в смысле, результат-то ты получишь, но его корректность можно будет поставить под вопрос). Художественное произведение - это же не просто набор слов, не однородная масса, где можно взять на пробу кусочек из любого места. Допустим, ты хочешь узнать, какие цвета художник использовал в картине - ты ведь не будешь брать для этого только фрагмент картины.

Скажем, если книга калейдоскопична. Возьму общий пример: путевой дневник туриста; он посещает множество разных мест, описывает их - конечно, текст будет пестреть громадным колличеством новых слов. Или "декорации" книги аскетичны, действие сконцентрировано в замкнутом пространстве или происходит на фоне подчеркнуто однообразного пейзажа (пустыня, допустим). Третий пример: в книге много диалектизмов или архаизмов.

Число новых слов будет очень зависеть от сюжета и вообще характера повествования, а не только от соотношения к объему книги.
_________________
Уши кота могут вращаться быстро.
Посмотреть профиль Отправить личное сообщение
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 6:51 pm     Заголовок сообщения:

Нет, М., не согласен я. Есть ограниченный словарь которым пользуется автор. И расказ в 100 слов написанный восьмиклассницей будет иметь как минимум 60-70 уникальных слов. Просто обычных распростоненных. А роман "Война и Мир" будет иметь 20 тысяч уникальных слов, но на фоне общего объема УУ будет процентов 5.

Ты сравни первые два графика наверху, особенно по СС-5, то бишь желтой линии. Практически одинаковые, вариации минимальны. И третий график который является противоположностью первых двух.

Нет, мне все ж таки кажется, что случайностная выборка даст больше информации о колебании УУ в книге. Пробежка 10 тысячными кусками 5 раз по тексту, или может даже лучше, 5 тысячными кусками, 10 раз по тексту даст как раз таки хорошее усредненное значение, по книге.

Но это абсолютно не противоречит сравнению УУ всей книге, что нам мешает делать и то и другое? Чем мы рискуем, кроме перегревания казенного процессора моего рабочего компьютера?

Cool
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
M.



Зарегистрирован: 31.01.2008
Сообщения: 7951
Откуда: Bonk
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 8:07 pm     Заголовок сообщения:

Погоди, дай подумать. Существует понятие - активный словарь такого-то автора. Как он подсчитывается математически? Не для каждой книги по отдельности, а для всех опубликованных в целом, верно?

Если мы знаем это число, и знаем общее число слов (объем текста), то можем по этим двум определить и коэффициент именно этого автора. В целом. А зная такой коэффициент, можем сравнивать с ним те результаты, которые видим в каждой конкретной книге, если нас интересует этот вопрос. Тогда мы получим полностью точный ответ: в каких книгах автор больше использовал свой активный словарь, в каких - меньше.
_________________
Уши кота могут вращаться быстро.
Посмотреть профиль Отправить личное сообщение
Nanny Ogg



Зарегистрирован: 09.02.2005
Сообщения: 14338
Откуда: Ланкр, что на Плоском Мире
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 8:34 pm     Заголовок сообщения:

Пионер, мне кажется, полный обсчет полюбому точней выборочного.
Статистика мается с выборочными совокупностями именно и только из-за невозможности обычно посчитать всю генеральную.
Но ведь сколько приемов придумано, чтобы выборочную совокупность приблизить к генеральной -- пока ее, 5-%ную, сформируешь, с учетом хотя бы четырех факторов, десять раз подумаешь -- а не проще бы было все сто процентов охватить и не мучиться!
Laughing
_________________
As the Harvard Law of Animal Behaviour puts it: 'Experimental animals, under carefully controlled laboratory conditions, do what they damned well please.'
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 9:57 pm     Заголовок сообщения:

Активный словарь - это совокупность в целом, я не уверен как он подсчитывается, но так или иначе, да, он есть, целостный.

Давайте возьмем 2 примера. Тот же Толстой. Написал Войну и Мир, и скажем, между делом, написал "Каштанку". Laughing

В ВиР 20 тысяч уникальных слов, в Каштанке - 2 тысячи. Почему?

Nanny Ogg
Обрати внимание на графики скользящих. КУ равномерно падает от книги к книге. И объем книги все растет, тоже равномерно.

Опять таки, что нам мешает смотреть на те и на другие данные? Я спросил свой процессор, он не отказывается работать. Laughing
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Thu Mar 18, 2010 10:16 pm     Заголовок сообщения:

Обновил графики, 2 книги добавились. Если не видите обновление, перезагрузите страницу с нажатым Шыфтом.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Pioner
Site Admin


Зарегистрирован: 04.02.2005
Сообщения: 6755
Откуда: сами мы не местныя!
Ответить с цитатой
СообщениеДобавлено: Fri Mar 19, 2010 4:39 pm     Заголовок сообщения:

Я кажется придумал способ, как удовлетворить и волк и овец.

Придумал как переделать алгоритм подсчета слов, мне кажется он будет побыстрее. Кроме того, из-за особенности этого алгоритма, у меня будет возможность оценить книгу в целом. Я могу разбить книгу на куски по 10 тысяч слов, посчитать среднеарифметическое для каждого куска, потом посчитать среднеарифмилическое для всей книги.

То есть, если книга содержит 53 тысячи слов, я разбиваю на 5 кусков, считаю средеарифметическое для каждого куска, и потом средарифметическое этих 5 значений.
_________________
Игнорируйте мою подпись!!!
Посмотреть профиль Отправить личное сообщение Посетить сайт автора Yahoo Messenger MSN Messenger ICQ Number
Nanny Ogg



Зарегистрирован: 09.02.2005
Сообщения: 14338
Откуда: Ланкр, что на Плоском Мире
Ответить с цитатой
СообщениеДобавлено: Fri Mar 19, 2010 6:36 pm     Заголовок сообщения:

Среднеарифметическое КУ?
Или просто количества уникальных слов на тысячу?
_________________
As the Harvard Law of Animal Behaviour puts it: 'Experimental animals, under carefully controlled laboratory conditions, do what they damned well please.'
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Часовой пояс: GMT
На страницу 1, 2, 3  След.
 


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах