Добавлено: Fri Mar 12, 2010 1:42 pm Заголовок сообщения:
Пионер вчера мне скинул экселевский файл, в котором просчитаны его прогой "The Nation" и "Color of Magic".
Он был ваще в таком энтузиазме, ух!
Отслеживал обсчет и прям в процессе все мне про него рассказывал!
И я его понимаю, честно говоря -- данные могут получиться очень интересными, и притом их можно будет "копать" и интерпретировать самыми многообразными способами.
(Именно за это некоторые и причисляют статистику к третьей и самой зловредной разновидности лжи -- данными можно жонглировать всячески
)
Просто Клондайк для литературоведов и лингвистов. Ведь прога не только для анализа книг ТП может использоваться.
Но надо чуток подчистить имеющиеся уже данные -- и составить список игнорируемых слов (чтобы чуть сократить время обработки).
Ну, артикли, разумеется, можно спокойно отбросить. Или нет?
Также можно отбросить все считаемые отдельно точки, многоточия, ряды последовательно поставленных восклицательных и вопросительных знаков... Или нет? В "Маскараде" они играют свою роль -- тогда их нужно считать и в других книгах, для сравнения.
Основные предлоги (on, in, into. at, to, up, down)? Или что-то может оказаться интересным, по вашему?
И насчет местоимений -- они неинформативны, или можно, ориентируясь на то, какие именно употребляются чаще, как-то судить о творческом стиле Прэтчетта? Допустим, свойствен ли его текстам в большей мере (и/или для каких произведений) прямой диалог, внутренний монолог, описание от третьего лица...
Что делать с именами собственными -- особенно если это слова типа Smith, Brown, Baker и проч.
Что делать со служебными словами типа "will", "would", "shall", "should", "can", "could", "may", "might"? (Особенно если учесть, что "will", "can", "might" могут быть не только модальными глаголами, но и очень важными существительными...)
Как вообще разделять омонимы? Возможно, этот вопрос вообще на первое место поставить надо было.
И еще такая фишка (непосредственно связанная со служебными словами): кроме полных форм типа "I will", "you are", "I have" -- в текстах ТП полно сокращенных форм -- "I'll", "you're". "I've"...
Разделять ли их на два слова -- "you" и "will", "I" и "have" и т.п.? Пока что машин считает их за одно.
И плюс к тому -- местами "простонародные" формы произношения -- "I 'ave" (о явных вульгаризмах, как в речи Детрита -- я не говорю -- с ними все ясно, они необходимы). Объединять ли такие формы с "литературными" или не надо, они тоже в чем-то показательны при анализе книг ТП?
Ну, и наконец, для каждой книги имеющийся (вычищенный!) список уникальных слов надо ранжировать по частоте использования -- ну, это просто, эксель сам все сделает
Хорошо бы, чтобы кто-то еще посмотрел эти данные и вынес свое веское суждение, а?
_________________
As the Harvard Law of Animal Behaviour puts it: 'Experimental animals, under carefully controlled laboratory conditions, do what they damned well please.'