Плотность концептуального пространства и качество онтологии
У идей (концепций) есть более или менее типовые интерпретации. Некоторые идеи легко обозначить знаками и проиллюстрировать, выбрав их воплощения в типичных индивидах.
Например, идею «стола» можно проиллюстрировать несколькими типовыми вариантами стола. Но, скорее всего, вы просто представите себе свой стол, за которым вы чаще всего сидите.
Поиск типичных интерпретаций действует и для более длинных языковых выражений.
Когда вы слышите «компьютер упал со стола», вы представляете именно свой ноутбук, падающий с вашего стола. Это характерные для вас референции, так как вы каждый день видите именно этот ноутбук и этот стол. Если кто-то другой видит другие ноутбук и стол, то и представит он себе иных характерных представителей этих идей, с учетом контекста и опыта. Мы все представим себе разные ноутбуки и разные столы, но ни у кого из нас не возникнет мысль о стакане с кока-колой, улетающем в космос!
Знаки для некоторых идей люди понимают более одинаково, чем другие.
Когда мы говорим «стол» или «телефон лежит на столе» - люди представляют себе более похожие вещи, чем когда мы говорим «справедливость» или «справедливый обмен».
Есть идеи, для которых число вариантов референции знаков (интерпретации, поиска воплощения) очень велико, и некоторые из них очень сильно отличаются друг от друга.
Возьмите концепцию «любовь», — она довольно сложная и абстрактная. Бывает «любовь к женщине», «братская любовь», «родительская любовь», «любовь к своей стране», «любовь к человечеству», «любовь к своей профессии», и много чего ещё. Если же вас попросить представить себе ситуацию в жизни, иллюстрирующую «любовь» - разброс будет ещё больше. Скорее всего вы представите себе совсем не то, что ваш сосед или коллега.
Но, скорее всего, всё, что вы представите —будут ситуации, которые лежат в одном сегменте обстоятельств и ощущений, и не лежат в каком-то другом. В этом сегменте будет мало проявлений насилия (хотя...), или, например, равнодушия.
Чтобы охарактеризовать эти различия – есть теория плотности концептуального пространства.
Постарайтесь представить себе «пространство языковых знаков» и наложенное на него «пространство объектов», воплощающих идеи, выражаемые этими знаками. Где-то в этом пространстве будут равномерно густо расположены знаки и соответствующие им однородные объекты. Такие понятия мы называем определёнными, с плотным концептуальным пространством.
Например, все столы будут «столы», все ноутбуки будут «ноутбуки», и для каждой конкретной подкатегории столов (например, «офисного стола» или «ломберного стола) будут легко представимые объекты, входящие именно в эту подкатегорию.
В других областях этого пространства рядом с одним знаком будет множество очень непохожих объектов, ситуаций. Один знак («любовь» или «справедливость», например) оказывается как-бы размазан по множеству ситуаций, воплощающих множество идей, а не одну только идею «любви». Мы будем говорить, что это понятия с разреженным концептуальным пространством.
Самой простой причиной разреженности концептуального пространства является омонимия (когда одно и то же слово имеет разные значения). Если у нас есть просто многозначное слово – для уточнения его значения достаточно отсылки к словарной статье, как со словом «проект».
Однако это не единственная возможная причина. Для многих понятий с разреженным концептуальным пространством простое словарное разъяснение термина не помогает представить единственного типового представителя, воплощающего все черты соответствующего концепта с исчерпывающей полнотой.
Концептуальное пространство понятия «проект», что в инженерном, что в менеджерском значении, является не слишком плотным: проекты в разных областях, в разных отраслях, в разных фирмах бывают очень различными. Разговаривая о «проекте», два менеджера из разных отраслей или стран могут всё равно представлять себе совсем разные вещи.
Можно заметить, что всё-таки в инженерном контексте концептуальное пространство «проекта» относительно плотнее, чем в менеджерском. Хотя и не все инженеры, и не все менеджеры с этим согласятся!
Компьютерная лингвистика смогла формализовать понятие плотности концептуального пространства с помощью математической статистики. Для этого берут тексты (документы, книги) одного или нескольких семантических сообществ (то есть тексты одной или нескольких предметных областей), и кодируют каждое вхождение слова, термина координатами в многомерном пространстве так, чтобы находящимся рядом словам (или словам в одном документе) соответствовали близкие точки. В получившемся пространстве, как-то заполненном этими точками, некоторые точки, соответствующие одному слову, располагаются очень кучно, и это значит, что все говорят об этом предмете примерно одинаково, в одном и том же контексте. А если разрежено — значит, понятие не очень-то определенное.
Например, если взять все русские тексты без разбору (художественные, менеджерские, инженерные, медицинские, …), то точки для слова «проект» будут попадать в одну из двух относительно плотных областей (соответствующих менеджерскому и инженерному употреблениям), а также будут относительно размазаны по всему прочему пространству, отражая «обычное», неспециальное, употребление этого слова в разных других смыслах.
Нам необходимо хорошо представлять себе плотность концептуального пространства в различных предметных областях и для разных ролей, с которыми мы сталкиваемся (как сами исполняя эти роли, так и работая с другими агентами в этих ролях).
Даже работая с понятиями в концептуальном пространстве с высокой плотностью, всё равно необходимо тщательно выбирать точные термины (знаки), но там более-менее есть, из чего выбирать.
Когда же мы сталкиваемся с разреженным концептуальным пространством – нам необходимо гораздо больше времени посвящать точному выделению объектов, пониманию стоящих за ними идей, подбору знаков (наименований) с точной референцией. Наши объяснения становятся более многословными, возникает необходимость в более точных языках.
Без понимания этого коммуникация в разреженном концептуальном пространстве всегда будет под угрозой срыва.
Вернёмся теперь к моделированию и онтологиям, но с новым багажом знаний о знаковых системах.
Как мы обсуждали, когда онтолог выделяет объекты и определяет их названия – он не может делать это без какой-то ролевой позиции (которую он знает лучше, или с которой он начал). Нельзя сформировать онтологию из роли наблюдателя, совершенно не вовлеченного ни во что описываемое —выделение объектов уже предполагает чей-то взгляд на предметную область, чей-то способ их выделять для какого-то использования, чье-то представление о методах работы и предназначении этих объектов в рамках этих методов. Но онтолог должен стремиться к тому, чтобы отразить все нужные взгляды, то есть сделать так, чтобы все пользователи видели в созданной им модели нужные им объекты примерно такими, к каким они привыкли. А для незнакомых объектов (объектов других ролей) они должны иметь возможность установить соответствие или связи со знакомыми, увидеть, как именно эти объекты сопоставляются друг с другом (когда это одинаковые объекты с разными именами, когда это более общие или более частные концепты, когда это разные части одного целого и т.п.).
Онтологии, пригодные для разных ролей и их методов – называются нейтральными. Нейтральность позволяет достичь совместимости моделей для разных ролей, как на уровне самих объектов, так и их названий.
Теперь вы можете понять, почему для тех предметных областей, где концептуальное пространство более плотно – легче строить нейтральные онтологии и проще их использовать. Чем более точное соответствие объектов предметной области, воплощаемых в них идей и называющих (именующих) их знаков – тем понятнее выделение концептов, тем проще распознавать объекты, относить их к категориям, корректно формировать отношения между ними, и тем проще понимать модели, составленные другими.
Получая онтологическую модель (текст, диаграмму, таблицу) для той области, в которой концептуальное пространство разрежено, вы тратите непропорционально большое время на референцию – понимание того, какие объекты и идеи стоят за составляющими модель знаками. И сбой на этом этапе (непонимание, что же именно имел в виду автор) может вам очень дорого обойтись в дальнейшем, когда ваша интерпретация окажется несовместимой с интерпретацией автора или других пользователей той же модели.
Поэтому онтологическое моделирование используется относительно успешно в естественно-научных или инженерных предметных областях, где концепты определяются формально и где найти физическое воплощение объектов не составляет большой проблемы. А вот в социально-культурно-философских предметных областях, где концептуальные пространства разрежены, качество моделей (текстов, о других типах формальных моделей в этих областях лучше и не вспоминать) – гораздо ниже. Здесь тексты гораздо хуже обеспечивают успешную коммуникацию, ибо стороны коммуникации делают из одних и тех же моделей (текстов) противоположные или несовместимые выводы об объекте моделирования.
Чтобы хоть как-то обеспечить нейтральность онтологии, необходим, как минимум, очень деятельный подход к её построению. Необходимо анализировать тексты разных типов, ходить и разговаривать с разными заинтересованными лицами, представителями всех групп (исполнителями каждой важной в этой предметной области роли). Тогда можно надеяться на то, что пользователь онтологии (в жизни это будут читатели отчётов, исполнители регламентов, пользователи компьютерной системы, базы знаний, или просто люди, заполняющие таблички отчётности) найдет там свои объекты, притом названные привычным ему способом.