Сборник статей. 1. Краснянский Анатолий Владимирович Краснянский, кандидат химических наук, старший научный сотрудник Химического факультета МГУ имени М.В. Ломоносова. Системный анализ исторических документов. 2. Алексей Львов. Лингвистический анализ текста и распознавание автора.

В системном анализе исторических документов можно выделить следующие основные операции: 1.1. Анализ исторической информации. 1.2. Лингвистический анализ. 1.3. Логический анализ. 1.4. Юридический анализ. 1.5. Психологический анализ. 1.6. Географический анализ. Цель системного анализа исторических документов – наиболее полно исследовать эти документы.







Анатолий Владимирович Краснянский, кандидат химических наук, старший научный сотрудник Химического факультета МГУ имени М.В. Ломоносова

Системный анализ исторических документов

  1. Системный анализ – метод исследования какого-либо объекта как системы   (целостного множества взаимосвязанных элементов). При целенаправленном изучении на первом шаге осуществляется разбиение (разделение)  системы на подсистемы (этап анализа системы). Каждая из подсистем рассматривается затем как система. Анализ – операция разделения вещи, явления, свойства,  отношения между предметами (объектами) или исторического документа на составные части, выполняемая в процессе познания и практической деятельности.  В системном анализе исторических документов можно выделить следующие основные операции: 1.1. Анализ исторической информации. 1.2. Лингвистический анализ. 1.3. Логический анализ. 1.4. Юридический анализ. 1.5. Психологический анализ. 1.6. Географический анализ. Цель системного анализа исторических документов – наиболее полно исследовать эти документы.

1.1. Анализ исторической информации. Проверка достоверности исторических фактов в документе и выявление фактических ошибок.

1.2. Лингвистический анализ. . Проводится анализ особенностей текста как носителя информации о его авторе. В большинстве случаев анализ сводится к лингвистической экспертизе исторического документа , когда  предположительный автор документа есть, но его авторство вызывает сомнения.

1.3. Логический анализ.   При логическом анализе исторический документ рассматривается как подсистема, элементами которой являются понятия, суждения, умозаключения, доказательства, объяснения. В логическом анализе можно выделить следующие операции:   1) анализ структуры документа; 5) анализ обоснований и   доказательств; 6) анализ объяснений.   Целью анализа на первом этапе является обнаружение логических противоречий, и затем – выявление ложных суждений. Если в документе не обнаружены несовместимые суждения и объяснения, то есть основания предполагать, что в документе нет ложной информации.

1.4. Юридический анализ. Цель юридического анализа – выявить противоречия в изложении событий с позиций права и тем самым выявить ложную информацию.

1.5. Психологический анализ. Поступки отдельных людей и или групп людей могут быть обусловлены психологическими связями. Цель психологического анализа – выявить противоречия в изложении событий с точки зрения психологии.

1.6. Географический анализ. Цель географического анализа – выявить противоречия в изложении событий с точки зрения места и времени происходящих событий.

     Первые результаты работы по теме "Системный анализ исторических документов" опубликованы в журнале "Исторические науки", № 2, 2008 и в журнале "Современные гуманитарные исследования", № 2, 2008.

 

Алексей Львов

   Лингвистический анализ текста и распознавание автора

Источник информации — http://fantlab.ru/article374 

Лингвистический анализатор, описываемый в данной статье, разрабатывался в течение 2007-2008 годов в рамках сайта «Лаборатории Фантастики». Изначально ставилась цель проанализировать тексты русскоязычных писателей-фантастов и выявить значимые их характеристики, описывающие в совокупности авторский стиль, или так называемый «авторский лингвопрофиль».

Для достижения поставленной цели был написан програмный код, получающий на входе текст, скажем, романа, и выдающий на выходе более тысячи различных его статистических характеристик, среди которых:

    Средняя длина предложения (СДП), знаков
    СДП авторского текста, знаков
    СДП диалога, знаков
    Доля диалогов в тексте
    Доля авторского текста в диалогах
    Динамика использование диалогов по тексту (график)
    Использовано уникальных слов (всего уникальных слов, как словарных, так и выдуманных автором)
    Активный словарный запас (количество уникальных словарных слов в тексте)
    Активный несловарный запас (количество уникальных выдуманных слов в тексте — сюда входят все имена, названия и неологизмы)
    Удельный АСЗ на 3000 слов текста (среднее количество уникальных словарных слов на 3000 слов текста)
    Удельный АСЗ на 10000 слов текста
    Удельный АСЗ на 100000 слов текста
    Динамика изменения УАСЗ-3000 от начала до конца произведения (график)
    Статистика использования частей речи: процент существительных, прилагательных, глаголов, местоимений-существительныхм, местоименных прилагательных, местоимений-предикативов, числительных (количественных), числительных (порядковых), наречий, предикативов, предлогов, послелогов, союзов, междометий, вводных слов, фразовых глаголов, частиц, кратких прилагательных, причастий, деепричастий, кратких причастий и инфинитивов. А также — неопределённых частей речи и т.н. служебных частей речи.
    Биграммы частей речи — частота употребления пар «существительное-глагол», «наречие-прилагательное» и т.д. для всех перечисленных выше частей речи.
    Части речи на позициях в предложении — как часто первым словом в предложении является местоимение, как часто вторым является глагол и т.п. По всем частям речи, вплоть до 20й позиции.
    Частоты всех известных знаков препинания.
    Биграммы буквенных пар — простой подсчёт частот всех алфавитных пар «аа», «аб», «ав»… «ба», «бб» и т.д.
    Биграммы «соединительных символов» (частоты пар первой буквы текущего слова и последней буквы предыдущего — исключая имена, названия и пр.)  и пр.)

Пару слов скажу о словарном запасе. Словарный запас — это, грубо говоря, количество уникальных слов, которые знает автор. Но знает ещё не значит, что они их употребляет в своих текстах. Поэтому гораздо более актуальной характеристикой является «активный словарный запас», что для случая конкретной книги означает количество использованных в ней уникальных слов. Но, учитывая тот факт, что книги различаются по объёму, логичным будет считать т.н. «удельный активный словарный запас», то есть количество уникальных слов на сколько-то слов текста. Если мы вычленим из текста 10000 идущих подряд слов, удалим из них повторяющиеся и посчитаем сколько осталось, то мы получим ни что иное как «удельный АСЗ на 10000 слов текста». И ещё один нюанс: несловарные слова (названия, имена, выдуманные автором слова) в подсчёте АСЗ и УАСЗ не участвуют. Количество этих слов считается как отдельная характеристика — «активный несловарный запас».

Для определения значимых в формировании авторского лингвопрофиля характеристик были построены их функции распределения плотности вероятности. Выяснилось, что подавляющее большинство характеристик имеет нормальное Гауссово распределение.

 Полный тескт смотрите в разделе: http://fantlab.ru/article374 .

……………………….

Интересно:

Программы лингвистического анализа и обработки текста

    Лингвистические технологии и системы

    Утилиты лингвистического анализа текста (морфология, синтаксис)

    Утилиты статистического анализа текста

1. Лингвистические технологии и системы

 (http://asknet.ru/IS/Analytics/programms.htm#Лингвистические технологии и системы).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: