Версия для печати

-   Соционический форум SOCIOCLUB.ORG http://www.socioclub.org/
--  Соционика http://www.socioclub.org//145/
--- Контент-анализ по ключевым словам http://www.socioclub.org//145/726/




-- 4X_Pro написал 5 марта 2007 20:43
Недавно мне дали идею — сделать автоматизированный контент-анализатор. Причем чисто технически это довольно несложно, причем даже можно сделать с учетом словоформ. Основная проблема — это составить словари.
Соответственно, у меня два вопрос такой: а) занимался ли этим кто-нибудь прежде и насколько эффективен этот метод, б) кто может помочь с составлением словарей для анализа, особенно по тем аспектам, которые для меня чужды.


-- slonoslon написал 5 марта 2007 21:06
Indigo на оргиях делал такой анализ вручную, каждое слово текста привязывая к аспекту. Имхо, определенные корреляции с осознанностью функций могут быть. Есть правда немалая вероятность того, что эти зависимости тонут в шуме от речевых привычек и текущего состояния автора. Но попробовать стоит, конечно.
Я бы для начала проверил по встречаемости форм слов 'время' и 'возможность', как наиболее явно относящихся к соответствующим аспектам и достаточно часто применяемых.



-- 4X_Pro написал 5 марта 2007 21:10
Соответственно, "время" — это БИ, а "возможность" — ЧИ?
Кстати, я вспомнил, что где-то (кажется, в какой-то книге по аспектонике) видел наборы слов, характеризующие данный аспект.


-- slonoslon написал 5 марта 2007 21:19

XXXX Pro написал:
[q]
Соответственно, "время" — это БИ, а "возможность" — ЧИ?
Кстати, я вспомнил, что где-то (кажется, в какой-то книге по аспектонике) видел наборы слов, характеризующие данный аспект.
[/q]

да. Но наборы - чем обширнее, тем больше сомнений вызывают сами по себе (вспомни например тему про ТИМные ценности). Поэтому стоит попробовать на самых бесспорных словах, а дальше уже добавлять другие и проверять, сохраняются ли закономерности.



-- slonoslon написал 5 марта 2007 21:59
c возможностью тоже не все так гладко - похоже, она не так уж часто и встречается. Прогнал простейший частотный анализ по текстам Пушкина и Льва Толстого, у обоих слово "возможность" встречается реже 1 раза на 10000 других слов.
из других наблюдений:
у Толстого частота "я" 0.78%, "он" 1.66%
у Пушкина соответственно 1.37% и 1.03%



-- 4X_Pro написал 5 марта 2007 22:04
Оффтопик: А кто Пушкин по соционическому типу?



-- slonoslon написал 5 марта 2007 22:06

XXXX Pro написал:
[q]
Оффтопик: А кто Пушкин по соционическому типу?
[/q]

чаще всего в Гексли и Напы типируют.



-- Andre написал 6 марта 2007 16:57
Чувак по имени Balancer на недружественном тебе (и мне) форуме проводил подобное исследование, используя фильтр Байеса.

Словарь аспектов, вероятно, есть у Ермака В.Д. на сайте школы Системной Соционики.


-- 4X_Pro написал 6 марта 2007 20:10
К сожалению, не очень хорошо представляю себе, как работает фильтр Байеса.
У меня была такая идея: сначала тупая проверка по заданным ключевым словам, потом, когда это будет работать нормально, сделать еще накопление информации о часто встречающихся словах (чтобы их потом можно было тоже сопоставить аспектам).


-- Светлый написал 6 марта 2007 21:07

slonoslon написал:
[q]

XXXX Pro написал:
[q]
Оффтопик: А кто Пушкин по соционическому типу?
[/q]


чаще всего в Гексли и Напы типируют.
[/q]

Гексли определенно


-- kaprizka написал 7 марта 2007 1:50

slonoslon написал:
[q]
у Толстого частота "я" 0.78%, "он" 1.66%
у Пушкина соответственно 1.37% и 1.03%
[/q]


А какие тексты сравнивались?
Если у одного проза, у другого поэзия - то сравнение некорректно.
Да и в прозе слово "я" будет встречацца в зависимости не от социотипа, а от способа повествования - от первого или от третьего лица. Ессно, один автор может по-разному в разных книгах поступить.

Можно было бы предлоги сравнивать, но тут возможно влияние времени: разные авторы жили в разные моменты, а язык со временем меняется.

Кстати, какой социотип может сказать фразу:
"Некрасивая работа никому не нужна"?






-- slonoslon написал 7 марта 2007 2:02
У Толстого - "Война и мир", первый том. У Пушкина - "романы и повести". Проза и там и там. С по-разному в разных книгах - для серьезного исследования, разумеется, надо все доступное творчество прогонять. Я просто поленился прикручивать качалку, которая пройдется по всем текстам автора. Но думаю, что все-таки есть устойчивые склонности писать от первого или от третьего лица. И подсклонности, касающиеся предпочтительного способа изображения мыслей и слов героев. Хотя и риск нарваться на исключения тоже есть, и он тем выше, чем меньше текстов анализируется.
Вот, кстати, еще одна такая неполная статистика:
Маркес, Сто лет одиночества.
частота "я" = 0.0935%




-- Andre написал 7 марта 2007 7:27
Про фильтр Байеса можно прочитать в инете (если ты еще этого не сделал). Спаморезки с адаптивными фильтрами его используют... Имхо, для контент анализа очень адекватная вещь.


-- Механик написал 8 августа 2007 14:46

XXXX Pro написал:
[q]
Недавно мне дали идею - сделать автоматизированный контент-анализатор. Причем чисто технически это довольно несложно, причем даже можно сделать с учетом словоформ. Основная проблема - это составить словари.Соответственно, у меня два вопрос такой: а) занимался ли этим кто-нибудь прежде и насколько эффективен этот метод, б) кто может помочь с составлением словарей для анализа, особенно по тем аспектам, которые для меня чужды.
[/q]

В соционике-то, Для тЕпирования?
Вотъ

http://www.geshtalt.ru/psycholingvist_author.php (http://www.geshtalt.ru/psycholingvist_author.php)

А вообще для научных исследований, в том числе в области психологии и психоанализа - И.В.Фоменко, профессор филологии Тверского университета.
Фоменко составляет частотный (определяющий число повторений каждого слова) словарь служебных слов (предлоги, союзы и частицы) того или иного произведения и на основании всей этой 'шелухи' (т.е. второстепенных элементов) определяет мироощущения автора, в котором тот сам может не отдавать себе отчета. Дело в том, что когда пишутся значимые, знаменательные слова, работает сознание автора. При написании служебных слов срабатывает подсознание.
Например, при анализе пространственных предлогов (в, на, к, от, над, под и т.д.) получаются очень интересные результаты. Александр Блок в поэме 'Двенадцать' неимоверное число раз употребляет наречие 'вперед', которое у него звучит как у Маяковского. Однако нет ни одного предлога, который означал бы нечто, расположенное впереди или движущееся вперед. Не является ли это подсознательным стремлением к небытию, в котором ничего нет?

PS
Механику подход Фоменко представляется гораздо более прагматичным, направленным на решение насущных задач встающих перед человеком в в его повседневной жизни
Полный спесок публикаций Фоменко

http://ktl.nm.ru/fomenko.htm (http://ktl.nm.ru/fomenko.htm)


-- Wic написал 8 августа 2007 15:00
На Оргиях когда-то давно такой проект был - составляли списки достоверно затипированных товарищей чтобы потом прога собрала статистику по их постам с целью поиска кореляций.

Не в курсе, чем все это закончилось.


Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект
2006--2008, SOCIOCLUB.ORG