Зависимости в текстах

Что такое учиться на текстах, это немного другое, и про это в следующем разделе.

 

А здесь будут просто примеры зависимостей, наблюдаемых в текстовой информации. Для того, что бы продемонстрировать, что зависимости в текстах имеют абсолютно такие же математические принципы, как и зависимости в других типах данных.

 

Рассмотрим зависимость окончаний прилагательного и существительного:

   = красная машина

   = красную машину

   = красные машины

 

Здесь функцией является зависимость: ая->а, ую->у, ые->ы.

А дистанцией и дополнительным условием, это предшествующее прилагательное и существительное с пробелом между X и Y.

 

Следующий пример, зависимость между словами:

  = Трава летом зеленного цвета.

  = Золото имеет желтый цвет.

  = Снег имеет белый цвет.

 

Здесь функцией является зависимость существительного и его цвета. Дистанция здесь это способ описания, которым задается, что в данном случае подразумевается именно цвет.

 

Для того, что бы представлять, как описывается подобная дистанция, очень полезно знать регулярные выражения. На нем задается конструкция окружения, и оставляются ячейки в которых сидят нужные слова. Это то, как примерно делается в лингвистических интеллектуальных системах - эти правила заданы заранее людьми и под конкретный национальный язык.

 

В моем же случае позиционируется, что система должна найти такие правила. Ту конструкцию регулярного выражения, при применении которой будет проявляться функция существительное->цвет. Найти по признаку, что если эта конструкция подходит, значит в ее ячейках будет однозначное отображение одного слова на другое. Точнее не абсолютно однозначное, а высоковероятное.

 

Как осуществляется поиск такой конструкции. Так же как и в данных прочих типов - перебирать все возможные варианты конструкций, и отбирать из них те, которые имеют высокую вероятность однозначности. Если делать этот алогоритм в лоб - как написано, так и делать - то это неразрешимая задача для текущих компьютеров по объему вычислений. Но тут очень много всяких оптимизаций, и задача в итоге все же решаемая.

 

 

Другой пример, это перевод с одного языка на другой.

Пусть будет текст на русском, и перевод его на английском. Сам перевод с русского на английский это функция, без условий, т.е. без дистанции между X и Y.

 

Если смотреть примеры применения такой функции перевода, скажем в интернете, то всегда между исходным текстом и результатом перевода наблюдается некоторая конструкция, объясняющая, каким образом зависит конечный текст от исходного. Например, гугл-переводчик: слева текст на русском, справа текст на английском, выставленные переключатели типа исходного и типа конечного текста, и сам смысл заголовка страницы "Переводчик" - это все множество условий, при котором в данном случае наблюдаем перевод с исходного в результат. Т.е. наблюдаем исходное значение, результат применения функции перевода, и дистанцию между исходным X и результатом Y.

 

При этом, если переводится целое предложение или целый параграф, то все равно, можно отследить, что какое-то определенные слово из него, переводится в определенное слово на английском. Т.е. есть общая дистанция между переводимыми текстами, а есть и сублокальные дистанции от начала текста до слова, и соответствующая дистанция в переводе от начала до переведенного соответствующего слова. Сложив первую субдистацию, дистанцию между, и субдистанцию до слова-перевода, получим дистанцию между более простой функцией перевода слов, являющейся словарем перевода. Т.е. как я и упоминал, что все функции оперирующие сложными сущностями, в итоге все равно раскладываются на простейшие зависимости. Хотя и с более сложной дистанцией между ними. Но сложность дистанции и условий это отдельная тема.