![]() |
Соционический форум SOCIOCLUB.ORGСоционика и психософия (психе-йога) |
Соционический форум SOCIOCLUB.ORG » Проблемы и методы типирования » Соционика » Контент-анализ по ключевым словам |
![]() |
| <<Назад Вперед>> | Модераторы: Kath, srez | Печать |
| 4X_Pro
Здешних мест хозяин
Философ и Воин Интернета ТИМ: ЛИИ ("Робеспьер") ПЙ-тип: нет Откуда: Москва, Перово Всего сообщений: 7165 Рейтинг пользователя: 218 Ссылка Дата регистрации на форуме: 2 июня 2006 |
Недавно мне дали идею — сделать автоматизированный контент-анализатор. Причем чисто технически это довольно несложно, причем даже можно сделать с учетом словоформ. Основная проблема — это составить словари. Соответственно, у меня два вопрос такой: а) занимался ли этим кто-нибудь прежде и насколько эффективен этот метод, б) кто может помочь с составлением словарей для анализа, особенно по тем аспектам, которые для меня чужды. |
| slonoslon |
Indigo на оргиях делал такой анализ вручную, каждое слово текста привязывая к аспекту. Имхо, определенные корреляции с осознанностью функций могут быть. Есть правда немалая вероятность того, что эти зависимости тонут в шуме от речевых привычек и текущего состояния автора. Но попробовать стоит, конечно. Я бы для начала проверил по встречаемости форм слов 'время' и 'возможность', как наиболее явно относящихся к соответствующим аспектам и достаточно часто применяемых. |
| 4X_Pro
Здешних мест хозяин
Философ и Воин Интернета ТИМ: ЛИИ ("Робеспьер") ПЙ-тип: нет Откуда: Москва, Перово Всего сообщений: 7165 Рейтинг пользователя: 218 Ссылка Дата регистрации на форуме: 2 июня 2006 |
Соответственно, "время" — это БИ, а "возможность" — ЧИ? Кстати, я вспомнил, что где-то (кажется, в какой-то книге по аспектонике) видел наборы слов, характеризующие данный аспект. |
| slonoslon |
Профиль | Игнорировать
NEW! Сообщение отправлено: 5 марта 2007 21:19 Сообщение отредактировано: 5 марта 2007 21:19 XXXX Pro написал: Соответственно, "время" — это БИ, а "возможность" — ЧИ? да. Но наборы - чем обширнее, тем больше сомнений вызывают сами по себе (вспомни например тему про ТИМные ценности). Поэтому стоит попробовать на самых бесспорных словах, а дальше уже добавлять другие и проверять, сохраняются ли закономерности. |
| slonoslon |
c возможностью тоже не все так гладко - похоже, она не так уж часто и встречается. Прогнал простейший частотный анализ по текстам Пушкина и Льва Толстого, у обоих слово "возможность" встречается реже 1 раза на 10000 других слов. из других наблюдений: у Толстого частота "я" 0.78%, "он" 1.66% у Пушкина соответственно 1.37% и 1.03% |
| 4X_Pro
Здешних мест хозяин
Философ и Воин Интернета ТИМ: ЛИИ ("Робеспьер") ПЙ-тип: нет Откуда: Москва, Перово Всего сообщений: 7165 Рейтинг пользователя: 218 Ссылка Дата регистрации на форуме: 2 июня 2006 |
Оффтопик: А кто Пушкин по соционическому типу? |
| slonoslon |
XXXX Pro написал: Оффтопик: А кто Пушкин по соционическому типу? чаще всего в Гексли и Напы типируют. |
| Andre |
Чувак по имени Balancer на недружественном тебе (и мне) форуме проводил подобное исследование, используя фильтр Байеса. Словарь аспектов, вероятно, есть у Ермака В.Д. на сайте школы Системной Соционики. |
| 4X_Pro
Здешних мест хозяин
Философ и Воин Интернета ТИМ: ЛИИ ("Робеспьер") ПЙ-тип: нет Откуда: Москва, Перово Всего сообщений: 7165 Рейтинг пользователя: 218 Ссылка Дата регистрации на форуме: 2 июня 2006 |
К сожалению, не очень хорошо представляю себе, как работает фильтр Байеса. У меня была такая идея: сначала тупая проверка по заданным ключевым словам, потом, когда это будет работать нормально, сделать еще накопление информации о часто встречающихся словах (чтобы их потом можно было тоже сопоставить аспектам). |
| Светлая |
slonoslon написал:
Гексли определенно |
| kaprizka
Долгожитель форума
Сказка ТИМ: ЛИИ ("Робеспьер") ПЙ-тип: нет Откуда: 56°E58°N Всего сообщений: 1635 Рейтинг пользователя: 173 Ссылка Дата регистрации на форуме: 16 июля 2006 |
slonoslon написал: у Толстого частота "я" 0.78%, "он" 1.66% А какие тексты сравнивались? Если у одного проза, у другого поэзия - то сравнение некорректно. Да и в прозе слово "я" будет встречацца в зависимости не от социотипа, а от способа повествования - от первого или от третьего лица. Ессно, один автор может по-разному в разных книгах поступить. Можно было бы предлоги сравнивать, но тут возможно влияние времени: разные авторы жили в разные моменты, а язык со временем меняется. Кстати, какой социотип может сказать фразу: "Некрасивая работа никому не нужна"? |
| slonoslon |
У Толстого - "Война и мир", первый том. У Пушкина - "романы и повести". Проза и там и там. С по-разному в разных книгах - для серьезного исследования, разумеется, надо все доступное творчество прогонять. Я просто поленился прикручивать качалку, которая пройдется по всем текстам автора. Но думаю, что все-таки есть устойчивые склонности писать от первого или от третьего лица. И подсклонности, касающиеся предпочтительного способа изображения мыслей и слов героев. Хотя и риск нарваться на исключения тоже есть, и он тем выше, чем меньше текстов анализируется. Вот, кстати, еще одна такая неполная статистика: Маркес, Сто лет одиночества. частота "я" = 0.0935% |
| Andre |
Про фильтр Байеса можно прочитать в инете (если ты еще этого не сделал). Спаморезки с адаптивными фильтрами его используют... Имхо, для контент анализа очень адекватная вещь. |
| Механик
Долгожитель форума
ТИМ: Не типирован ПЙ-тип: нет Всего сообщений: 936 Рейтинг пользователя: -30 Ссылка Дата регистрации на форуме: 17 апр. 2007 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 8 августа 2007 14:46 Сообщение отредактировано: 8 августа 2007 15:13 XXXX Pro написал: Недавно мне дали идею - сделать автоматизированный контент-анализатор. Причем чисто технически это довольно несложно, причем даже можно сделать с учетом словоформ. Основная проблема - это составить словари.Соответственно, у меня два вопрос такой: а) занимался ли этим кто-нибудь прежде и насколько эффективен этот метод, б) кто может помочь с составлением словарей для анализа, особенно по тем аспектам, которые для меня чужды. В соционике-то, Для тЕпирования? Вотъ http://www.geshtalt.ru/psycholingvist_author.php А вообще для научных исследований, в том числе в области психологии и психоанализа - И.В.Фоменко, профессор филологии Тверского университета. Фоменко составляет частотный (определяющий число повторений каждого слова) словарь служебных слов (предлоги, союзы и частицы) того или иного произведения и на основании всей этой 'шелухи' (т.е. второстепенных элементов) определяет мироощущения автора, в котором тот сам может не отдавать себе отчета. Дело в том, что когда пишутся значимые, знаменательные слова, работает сознание автора. При написании служебных слов срабатывает подсознание. Например, при анализе пространственных предлогов (в, на, к, от, над, под и т.д.) получаются очень интересные результаты. Александр Блок в поэме 'Двенадцать' неимоверное число раз употребляет наречие 'вперед', которое у него звучит как у Маяковского. Однако нет ни одного предлога, который означал бы нечто, расположенное впереди или движущееся вперед. Не является ли это подсознательным стремлением к небытию, в котором ничего нет? PS Механику подход Фоменко представляется гораздо более прагматичным, направленным на решение насущных задач встающих перед человеком в в его повседневной жизни Полный спесок публикаций Фоменко http://ktl.nm.ru/fomenko.htm |
| Wic |
На Оргиях когда-то давно такой проект был - составляли списки достоверно затипированных товарищей чтобы потом прога собрала статистику по их постам с целью поиска кореляций. Не в курсе, чем все это закончилось. |
| <<Назад Вперед>> | Модераторы: Kath, srez | Печать |
Соционический форум SOCIOCLUB.ORG » Проблемы и методы типирования » Соционика » Контент-анализ по ключевым словам |
![]() |
| Вы не можете отправлять сообщения Вы не можете создавать темы Вы не можете голосовать в опросах Вы не можете создавать опросы | Вы не можете редактировать свои сообщения Вы не можете прикреплять к сообщениям файлы Вы не можете модерировать раздел Вы не можете видеть IP-адреса |
| 1 посетитель просмотрел эту тему за последние 15 минут |
| В том числе: 1 гость, 0 скрытых пользователей |