.RU

Исследования по математической лингвистике - Годовой отчет по гранту ран 14/9 д ф. м н. А. Г. Марчук


^ Исследования по математической лингвистике
В рамках реализуемого проекта продолжается разработка методов, анализа текстов и отдельных предложений на естественном языке. Используются такие методы, как: представление смысла текста в рамках подхода Мельчука и предложенные им лексические функции, методы из работ Апресяна, теоретико-множественные модели Маркуса.

Результаты работы могут быть применены в автоматизированных системах акцепции информации из текстов на естественном языке, интеллектуальных системах поиска информации в сети, при построении систем автоматического резюмирования, электронных переводчиков и словарей. Предполагается использование результатов работы в системах безопасности, работающих с банковской информацией. К некоторым вопросам проявила интерес корпорация IBM. В 2006-м году она выделила грант на поддержку данной работы. Представители корпорации IBM подтвердили, что интерес к данной работе остается и взаимные контакты будут продолжены.
^ Теоретические результаты
Ранее были разработаны разнообразные алгоритмы сопоставления различных предикатов и формул логики первого порядка предложениям на естественном языке. Эти алгоритмы основаны на использовании грамматической и синтаксической структуры слов и предложений. Предложено использовать конструкцию Хенкина из математической логики для построения конечных моделей, которые могут трактоваться как смысл текста.

В настоящее время, используя средства математической логики, проводится теоретический анализ семантических классов глаголов русского языка с целью сформулировать соответствующие машинно-ориентированные алгоритмы, применимые при обработке текстов на естественном языке. Анализируются следующие классы глаголов: фазовые глаголы, глаголы восприятия, глаголы знания, глаголы эмоций, глаголы принятия решения, речевых действий, движения, глаголов звука, бытийных глаголов и др.

Нами установлено, что подход, разработанный ранее для описания грамматических и синтаксических предикатов и их свойств, применим в данном случае, т.е. для описания семантики вышеперечисленных глаголов.

Естественно, что такого рода исследование имеет, в основном, теоретический интерес. Однако, предполагается провести ряд программных экспериментов с целью выяснения частотных характеристик текстов относительно данной проблематики, т.е. сколько и каких глаголов встречается в типичных текстах.

В настоящее время реализована программная система, позволяющая собирать статистику по используемости различных словоформ в текстах разной направленности и жанровой принадлежности. Под статистикой понимается частота использования слов в разных морфологических формах. Результаты работы программы могут быть сохранены в специальной базе данных.




Внешний вид программы статистического анализа текстов




Результаты статистического анализа текстов


Ведется работа по созданию набора XML-файлов, в которых будут отражены семантические свойства упомянутых выше классов глаголов. Программная система будет их использовать при анализе текстов.
^ Эксперименты на ЭВМ
Ведется разработка исследовательской системы для анализа текстов на естественном языке.

Система должна позволять выполнять следующие функции:


Система должна также обеспечивать приемлемое время работы.

Также предполагается решить несколько задач оптимизации существующих решений.

Для реализации были выбраны следующие инструменты.

Получены следующие результаты:






Архитектура программной системы для анализа текстов


Предыдущий этап дал понимание того, что используемые идеи на сегодняшний день могут быть реализованы на практике в виде полезного программного продукта, и очерчен круг потенциальных задач.

В ходе анализа были выделены четыре основных направления дальнейшего развития системы.





Анализатор текстов – внешний вид программы


Рассмотрим подробнее суть направлений и результаты, полученные в каждом из них.

  1. ^ Развитие компонентов анализа и их инфраструктуры

Разработанная архитектура управления компонентами анализатора оказалась достаточно удачной. Потому больших изменений в само ядро программы – программируемый конвейер анализа – в дальнейшем вносить не предполагается. В плане возможностей программного комплекса по проведению анализа предполагается вести работы в обеспечении синтаксического анализа.

Как и два уже созданных ранее анализатора (графематический и морфологический), синтаксический компонент анализатора планировалось реализовать на базе системы Диалинг. На настоящий момент не получено достаточно удовлетворительной работы синтаксического анализатора. Работы в этом направлении продолжася и ещё имеются много различных потенциальных возможностей решения данной задачи.





Результаты морфологического анализа ряда слов



  1. ^ Расширение словарной базы и разработка средств её пополнения

На первом этапе эта часть анализатора была представлена, в некотором смысле, “заглушкой”. В качестве базы выступали 2 словаря.

Первый – лингвистический словарь – являлся внутренней частью компонентов анализатора и использовался непосредственно для проведения графематического и морфологического анализа. Оператор же не имел к нему никакого доступа и вообще мог догадываться о его присутствии лишь по поведению программного комплекса.

Второй – толковый словарь языка – был прототипом будущей словарной базы, реализация которой ведётся на настоящий момент. Для комплекса был разработан формат хранения слов и информации о них. Словарь был переведён из обычного электронного словаря (по сути дела, текстового вида) к данному формату. Сам перевод также осуществлялся программой, входящей в состав программного комплекса.

На сегодняшний момент ведётся работа по совершенствованию программы перевода словарей во внутренний формат программного комплекса. Результатом этой работы должна стать система, способная самостоятельно, или с минимальной помощью оператора формализовать электронные (или оцифрованные путём распознания) словари и включить информацию из них в базу системы. Также разработаны, но ещё не реализованы механизмы пополнения базы через Интернет, а также использование баз словаря Lingvo.






  1. Наделение комплекса возможностями по взаимодействию с другим ПО

В этом разделе рассматриваются три основополагающих направления.

3.1. Распределённый анализ

Естественно, что материалом для систем автоматизированного анализа текста могут служить огромные массивы текстов. Подписки журналов, справочники, циклы статей. Поэтому даже современному персональному компьютеру может понадобиться значительное время на проведение анализа таких источников. Задача распределения вычислений становится очевидной и актуальной.

В ходе работы были выбраны средства и инструменты для реализации системы распределённого анализа на компьютерах, оснащённых экземплярами данной программы. Также были определены этапы развития системы распределённого анализа. От простого, при котором исходный материал будет равными частями делиться между участниками сети, и до такого при котором всё управление ресурсами сети будет происходить динамически, обеспечивая таким образом максимальную производительность в данной конфигурации сети.

^ 3.2. API для использования другими приложениями

В настоящее время уже стало стандартом предоставлять функциональные возможности программ другим программам посредством программного API, или программного интерфейса. В среде Windows для этой задачи, как правило, используют механизм COM. Аналогичные механизмы реализуются на данный момент и в данном программном комплексе.

В настоящий момент заканчивается проектирование архитектуры интерфейса. По завершению проектирования и реализации все важные функции программного комплекса будут доступны для использования из ряда других приложений.

^ 3.3. Доступ через web-сервисы

В связи с бурным развитием Интернет-технологий было бы неосмотрительным упустить такой важный аспект, как удалённый доступ к программному комплексу через глобальную сеть. Платформа Windows позволяет реализовать данную возможность, предоставляя мощную платформу для разработки веб-приложений. Соединив возможности данных технологий с API, мы и получим желаемую функциональность.

На сегодняшний день произведён обзор средств и определены пути решения данной задачи. Реализация данной функциональности отложена до завершения работ над API программного комплекса.

  1. ^ Реализация пользовательского интерфейса с целью доведения комплекса до полноценного приложения, готового к практическому применению

В данное направление выделены все задачи по обеспечению удобства использования программного комплекса такие, как разработка пользовательского интерфейса, обеспечение работы с форматами данных, разработанных специально для комплекса. В основном, эти задачи являются в большой степени технологическими.

  1. ^ Применение системы ANTLR

Данная работа, в основном велась в 2008 году. Сделана попытка применения для анализа естественно-языковых конструкций системы ANTLR, которая, вообще говоря, предназначена для работы с языками программирования при создании трансляторов. Сразу же отметим, что опыт оказался положительным.

ANTLR – это программный комплекс, ориентированный на работу с формальными языками. Он предоставляет инструментарий для конструирования распознавателей, компиляторов и трансляторов из грамматических описаний.

Из формальных грамматик ANTLR генерирует программу, которая определяет, принадлежат ли предложения определенному языку. Другими словами, эта программа пишет другие программы. Добавляя фрагменты кода в грамматическое описание, можно превратить распознаватель в транслятор, или интерпретатор.

ANTLR обеспечивает поддержку продвинутых форм построения синтаксических деревьев (AST), их обхода и трансляции. Также он обеспечивает сложную автоматическую обработку ошибок. Полностью, или частично ANTLR поддерживает следующие языки: Java, C, C++, C#, D, Python, Ruby, LISP, Perl, PHP, Oberon, Ada95, ActionScript, Delphi.




Внешний вид системы ANTLR




Выше на рисунке показаны результаты, которые были получены при применении ANTLR для графематического анализа. На вертикальной оси показано время в минутах.

  1. ^ Абстрактные синтаксические деревья (AST)

Данная работа также, в основном велась в 2008 году, и находится пока на начальной стадии. AST отличаются от классических деревьев грамматического разбора тем, что опускаются узлы и границы синтаксических правил, которые не влияют на семантику программы. Они включают в себя только значимые конструкции языка. Классический пример, это вводные слова, или обособленные уточнения, которые в случае AST скрываются и не входят в конечное дерево.

Также, AST является, по сути, хранилищем лингвистической информации, производимой на всей протяженности процесса начиная с графематического анализатора, который строит первое, графематическое AST из графем исходного текста. Затем каждый последующий анализатор использует дерево, построенное предыдущим. Он знает его структуру и производит с ним действия, соответствующие текущему этапу анализа. Таким образом, дерево накапливает в себе информацию об анализе исходного текста.

Применение AST в данном проекте. Построение AST, а также все операции над ними в данном проекте возложены на систему ANTLR. Построение дерева производится автоматически, в соответствии с формальными грамматиками, описывающимися на декларативном языке ANTLR. Использование средств, встроенных в ANTLR позволяет не заботиться о многих аспектах работы системы.

  1. ^ Поисковая система, использующая лингвистические алгоритмы

Данная работа велась в 2007-2008 годах. Работа посвящена разработке методов оценки релевантности текста поисковому запросу, а также разработке программных систем на их основе.

Основная цель состоит в том, чтобы разработать алгоритмы оценки релевантности базирующиеся на схемах синтаксического разбора предложений. А также реализовать поисковую систему на основе такого подхода.

Синтаксические диаграммы позволяют отслеживать в тексте предложения и словосочетания, имеющие такие же связи, что и в поисковом запросе. Особый интерес представляют случаи, когда части диаграмм запроса лежат в диаграмме проверяемого предложения.

В работе применяется синтаксический анализатор Link Grammar Parser, использующий своё оригинальное (не классическое) представление синтаксических связей между словами в предложении. Оно отличается своей простотой и соответственно быстротой разбора предложений.

Реализована поисковая система iNetFinder, которая автоматизирует процесс общения пользователя с существующими поисковыми системами: получает текстовый запрос от пользователя, отдает его поисковой системе в сети Интернет, получает список URL, которые рекурсивно обходит с использованием своих оценок релевантности текста.

Тестирование показало способность системы к обработке поисковых запросов и достаточно хорошую релевантность найденной информации.




Главное рабочее окно программы iNetFinder


^ Планы дальнейших исследований


Полученные в рамках проекта теоретические и практические результаты и накопленный участниками проекта опыт позволяют перейти к новому этапу исследований — разработке формальных языков и методов спецификации, анализа и синтеза ИС.


Блок A: Разработка универсального логического формализма для описания онтологий на основе комбинации дескриптивного, эпистемического и темпорально-программного подходов


Дальнейшие исследования в этом блоке предполагается проводить по двум направлениям.

В рамках логического направления предполагается исследовать возможности применения различных логических формализмов (логик) к задачам спецификации, анализа и синтеза ИС. Главная задача в рамках этого направления состоит в исследовании синергетики комбинированных логических формализмов для более полного и эффективного решения задач спецификации, анализа и синтеза ИС. Исследования будут концентрироваться на алгоритмических проблемах и выразительной силе комбинированных формализмов для эволюционирующих знаний, онтологий и веб-сервисов.

В рамках формально-языкового направления предполагается исследовать задачу создания новых формальных языков, предназначенных для спецификации, анализа и синтеза ИС.

Будут разработаны логико-программные языки спецификации ИС, комбинирующие конструкции дескриптивной, эпистемической (логики знаний) и темпорально-программной логик с фундаментальными конструкциями языков программирования. Будут исследованы методологические аспекты применения логико-программных языков к спецификации и анализу ИС. Будут предложены формальные семантики для разработанных логико-программных языков, базирующиеся на операционном, аксиоматическом, денотационном и онтологическом подходах или их комбинации. Будет разработано математическое и методическое обоснование методов дедуктивного анализа и анализа проверкой на моделях спецификаций ИС, базирующихся на логико-программных языках.


^ Блок Б: Разработка средств описания предметных областей и их теоретическое обоснование


В рамках этого блока планируется провести следующие исследования.

Будут разработаны методы автоматического построения компонентов ИС на основе онтологий. Будут исследованы подходы к оценке онтологий, их развитию и реинжинирингу. Будут предложены новые методы анализа и визуализации онтологий и информационного наполнения ИС. В частности, будет проведено исследование и выполнен сравнительный анализ различных методов визуализации для различных элементов онтологии ИС. Будет выполнена экспериментальная разработка интерактивных методов визуализации информационного наполнения ИС в виде графа с целью оценки их пригодности для данной задачи. Будут разработаны специализированные методы группирования и размещения объектов в графическом представлении информационного наполнения ИС на основе значений одного или нескольких атрибутов.

Будут продолжены исследования по онтологии неспецифических данных и другим онтологиям фактографической направленности. Будет разработана базовая онтология для проектов исторической и фактографической направленности, ведущихся в ИСИ СО РАН. Будет исследовано взаимодействие средств локального хранения данных и средств, предоставляющих возможности формирования общего поля данных и документов.

Будут продолжены теоретические исследования по обобщенным понятиям разложимости. В частности, предполагается исследовать алгоритмы распознавания разложимости и нахождения разложимых фрагментов в неразложимых теориях.


^ Блок В: Разработка методов и средств автоматического анализа текстов деловых и научных документов


В рамках этого блока планируется провести следующие исследования.

Для улучшения качества работы сервисов обработки текстов предлагается исследовать возможность привлечения знаний, обычно называемых экстралингвистическими, таких как знания о проблемной области, справочная информация, результаты ранее обработанных текстов, статистическая и содержательная информация о корпусе документов и конечных пользователях ЕЯ-сервисов. Эти знания образуют коммуникативно-прагматический контекст обрабатываемого документа.

Для достижения данной цели будут разработаны методы представления коммуникативно-прагматического контекста ЕЯ-сервиса в ИС, которые предполагается использовать их для расширения существующей базы знаний системы анализа документов. Также будет разработана методология формирования лингвистической и коммуникативно-прагматической базы знаний.

Для создания программных средств поддержки ЕЯ-сервиса на основе лингвистических и коммуникативно-прагматических знаний будут разработаны новые и развиты существующие методы автоматического извлечения прагматических данных из текстов деловых или научных документов.

Будет проведен формальный анализ конструкций, применяемых в системах синтаксического анализа с целью их оптимизации. Будут проведены исследования по распараллеливанию лингвистических алгоритмов.


^ Экспериментальное направление


Предложенные языки и методы спецификации и анализа ИС предполагается апробировать на ИС, разработанных в ИСИ СО РАН, с целью улучшения качественных характеристик этих систем. Они также будут использованы при построении новых ИС в рамках прикладных разработок по проектам Сибирского отделения, ИСИ и НГУ.

Будут реализованы программные компоненты, позволяющие эксперту конструировать базу знаний для определенного ЕЯ-сервиса и разработаны универсальные промежуточные формате ее представления. Будут разработаны экспериментальные ЕЯ-сервисы для ИС определенной тематики и проведена оценка качества их работы.

Будет развита имеющаюся в настоящий момент исследовательская система для анализа текстов на естественном языке. Будет разработан ряд словарей с быстрым доступом и созданы на их основе отчуждаемые программные компоненты. Будут созданы специализированные модификации систем синтаксического анализа. Будут проведены эксперименты с лингвистическими алгоритмами на параллельных вычислительных системах.


^ Список публикаций по теме проекта


Всего 87 публикаций.


2006 год


  1. N.V. Shilov, N.O. Garanina, I.S. Anureev. Combining Propositional Dynamic Logic with Formal Concept Analysis // Proc. Workshop on Concurrency, Specification and Programming (CS&P’2006), Humboldt University, Berlin, 2006.

  2. Anureev I.S. An Approach to Formal Human-Oriented Specifications of Programming Languages // Proc. Workshop on Concurrency, Specification and Programming (CS&P’2006), Humboldt University, Berlin, 2006.

  3. Shilov N.V., Garanina N.O., Choe K.-M. Update and Abstraction in Model Checking of Knowledge and Branching Time. Fundameta Informaticae, 72(1-3), pp.347-361, 2006.

  4. Shilov N.V., Garanina N.O. Well-structured Model Checking of Multiagent Systems. Lect. Notes Comput.Sci., 4378, pp.364-377, 2006.

  5. Гаранина Н.О. и Шилов Н.В. Верификация комбинированных логик знаний, действий и времени в моделях. – В сб. Системная информатика, вып.10. Новосибирск, Издательство СО РАН, 2006, С.114-173.

  6. Андреева О.А., Боровикова О.И., Булгаков С.В. и др. Археологический портал знаний: содержательный доступ к знаниям и информационным ресурсам по археологии // Тр. X национальной конф. по искусственному интеллекту с международным участием КИИ'2006. – М.: Физматлит, 2006. – Т. 3. – С. 832-840.

  7. Загорулько Ю.А., Кононенко И.С., Сидорова Е.А. Семантический подход к анализу документов на основе онтологии предметной области // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции Диалог’2006 "Компьютерная лингвистика и интеллектуальные технологии". – М.: Изд. РГГУ, 2006. – С.468–473.

  8. Загорулько Ю.А., Боровикова О.И. О построении онтологий для портала научных знаний // VI международная конференция «Интеллектуальный анализ информации ИАИ-2006», Киев, 16-19 мая 2006 г. Сборник трудов под редакцией Т.А. Таран – Киев, Просвита, 2006, - с. 121-128.

  9. Ю.А. Загорулько, О.А. Андреева, О.И. Боровикова, С.В. Булгаков, Е.А. Сидорова. Организация содержательного доступа к систематизированным знаниям и информационным ресурсам заданной предметной области // Труды VIII международной конференции "Проблемы управления и моделирования в сложных системах" -Самара: Самарский Научный Центр РАН, 2006. -С. 433-438.

  10. Сидорова Е.А. Подход к описанию фактов для задачи фактографического анализа текста // VI международная конференция «Интеллектуальный анализ информации ИАИ-2006» , Киев, 16-19 мая 2006 г. Сборник трудов под редакцией Т.А. Таран – Киев: Просвита, 2006. –С.252–261.

  11. Сидорова Е., Андреева О. Технология разработки тематических словарей на основе сочетания лингвистических и статистических методов // Тезисы докладов конференции-конкурса «Технологии Microsoft в теории и практике программирования». - Новосибирск, 2006. –C.221-223.

  12. Ponomaryov D. Semantic Web basics in logical consideration. // Proc. Applications of Semantic Technologies workshop at the Informatik-2006 conference, Dresden _ 2006 _ P.337-344.

  13. Пономарев Д.К. Проблема разложимости при формальном описании знаний. – Новосибирск, 2006 – 21 стр. – (Препр. / СО РАН. Ин-т систем информатики; N135).

  14. Ponomaryov D., Omelianchuk N, Kolchanov N., Mjolsness E., Meyerowitz E. Semantically rich ontology of anatomical structure and development for Arabidopsis thaliana (L.). // Proc. Bioinformatics of Genome Regulation and Structure (BGRS'2006), Novosibirsk _ 2006 _ P. 227-230.

  15. Mironova V.V., Poplavsky A.S., Ponomaryov D.K., Omelianchuk N.A. Ontology of Arabidopsis Genenet Supplementary Database(AGNS): Cross references to TAIR ontology. // Proc. Bioinformatics of Genome Regulation and Structure (BGRS'2006), Novosibirsk _ 2006 _ P. 209-212.

  16. Ponomaryov D., Omelianchuk N, Kolchanov N., Mjolsness E., Meyerowitz E. A program method for inferring relationships between phenotypic abnormalities of Arabidopsis. // Proc. Bioinformatics of Genome Regulation and Structure (BGRS'2006), Novosibirsk _ 2006 _ P. 231-234.

  17. Ponomaryov D. Lattice semantics for incremental data extraction from declarative knowledge bases. – Новосибирск 2006 – 13 с. – (Препр. / СО РАН. Ин-т систем информатики; N134).

  18. Пономарев Д.К. Задача разложимости элементарных теорий и проблема минимизации из аксиом // Тез. Конференции-конкурса “Технологии Microsoft в информатике и программировании”, Новосибирск, 22-24 февраля, 2006. –С. 213-215

  19. Miginsky D.S., Sokolov S.A., Labuzhsky V.V., Nikitin A.G., Tarancev I.G. Object-Oriented Approach to Bioinformatics Software Resources Integration// Proceedings Of The Fifth International Conference On Bioinformatics Of Genome Regulation And Structure (BGRS'2006), 2006, V.3, P.288-291. ISBN 5-7692-0848-1

  20. Ершов Ю.Л., Клименко О.А., Матвеева И.И., Рабинович Л.Р., Филиппов В.Э., Филиппова М.Я. Древовидный каталог математических Интернет-ресурсов // Информационные ресурсы России — 2006. — №1. — С. 5-8

  21. Батура Т.В., Мурзин Ф.А. Обработка поисковых запросов на естественном языке с помощью REFAL-подобных конструкций. // Проблемы интеллектуализации и качества систем информатики. ИСИ СО РАН, – Новосибирск, 2006. – С. 24 – 33.

  22. Батура Т.В., Мурзин Ф.А. Машинно-ориентированные методы анализа текста на естественном языке. Шестая междунар. Конф. Памяти акад. А.П. Ершова, Рабочий семинар “Наукоемкое программное обеспечение”. – Новосибирск, 2006. – С. 33 – 34.


2007 год


  1. Shilov N.V., Anureev I.S., Garanina N.O. Combining Two Formalism for Reasoning about Concepts // Proceedings of the 2007 International Workshop on Description Logics (DL2007). — Brixen Italy, 2007. — Vol. 250. — P. 459-466.

  2. Anureev I.S. Ontological Transition Systems // Joint NCC&IIS Bulletin, Series Computer Science. — 2007. — Vol. 26 — P. 1-18.

  3. Anureev I.S. A Language of Actions in Ontological Transition Systems // Joint NCC&IIS Bulletin, Series Computer Science. — 2007. — Vol. 26. — P. 19-38.

  4. Загорулько Ю. А., Боровикова О. И. Технология построения онтологий для порталов научных знаний // Вестник НГУ. Серия: Информационные технологии (ISSN 1818-7900), том 5, выпуск 2, -2007. -с. 42-52

  5. Загорулько Ю.А. Построение порталов научных знаний на основе онтологий // Вычислительные технологии. т. 12, спецвыпуск 2, -2007. –c. 169-177.

  6. Загорулько Ю.А. Организация содержательного доступа к научным знаниям и информационным ресурсам // VII Междунар. конф. «Интеллектуальный анализ информации ИАИ-2007», Киев, 15-18 мая 2007 г. / Сб. тр. под ред. С.В. Сирота. – Киев: Просвита, 2007. – C. 109-119.

  7. Загорулько Ю.А., Боровикова О.И. Технология построения онтологий для порталов знаний по гуманитарным наукам // Тр. Всероссийской конф. с международным участием “Знания-Онтологии-Теории ”(ЗОНТ-07) – Новосибирск, 2007. – Т. 1. – С. 191-200.

  8. Загорулько Ю.А., Боровикова О.И., Загорулько Г.Б. Организация содержательного доступа к информационным ресурсам на основе онтологий // Тр. 9-ой Всероссийской научной конф. “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”-RCDL’2007, – Переславль-Залесский, 2007. – Т. 1. – С. 217-224.

  9. Yury Zagorulko, Olesya Borovikova. Methodology of Building and Using Ontology for Providing Content-Based Access to Scientific Information Resources. // New Trends in Software Methodologies, Tools, and Techniques. Proceedings of the six SoMeT_07, Rome, Italy. Hamido Fujita, Domenico M. Pisanelli (Eds.) – IOS Press, -Amsterdam, -2007. -P.105-115

  10. Боровикова О.И., Загорулько Ю.А., Загорулько Г.Б., Кононенко И.С. Подход к построению портала знаний по компьютерной лингвистике // Тр. II Междунар. конф. "Системный анализ и информационные технологии" (10-14 сентября 2007 г., Обнинск, Россия). –М.: Издательство ЛКИ, 2007. – Т.1. – С. 126-129.

  11. Сидорова Е.А. Онтологический подход к представлению знаний для задачи анализа текстовых ресурсов // Материалы Всероссийской конференции с международным участием «Знания – Онтология – Теория» (ЗОНТ–07). Новосибирск: Институт математики им. С.Л. Соболева СО РАН, 2007. Т1. –С. 166-175.

  12. Сидорова Е.А. Использование онтологии при извлечении информации из текстовых ресурсов // Труды IX международной конференции "Проблемы управления и моделирования в сложных системах". – Самара: Самарский Научный Центр РАН, 2007. – С.455-461.

  13. E. Sidorova, Y. Zagorulko, I. Kononenko Knowledge-based approach to document analysis // Proceedings of the XIII-th International Conference “Knowledge – Dialogue – Solution” (KDS'2007), Varna, Bulgaria, June, 2007. – ITHEA, Sofia, 2007. – V2. – pp.527-533.

  14. E. Sidorova, Yu. Zagorulko. Ontology-based approach to text analysis // Joint Bull. of NCC. Ser.: Comput. Sci. — 2007. — Is. 26. –P. 133-146.

  15. Sidorova E.A., Kononenko I.S., ZagorulkoYu.A. Automated Extraction of Facts from Internet-Documents. In: Computer Science and Information Technologies CSIT’2007. Ufa-Krasnousolsk, Russia, 2007, Vol. 1. –pp. 47-51. (Proceedings of the 7th International Workshop)

  16. Городняя Л.В., Мурзин Ф.А. Информационные ресурсы и гуманитарные аспекты программистского образования. Информационные технологии в образовании // В тр. 12-й Байкальской Всероссийской конференции с международным участием “Информационные и математические технологии в науке и управлении”. Иркутск - Байкал, 2 - 9 июля 2007 г., - С. 192-198.

  17. Городняя Л.В., Мурзин Ф.А. Гуманитарные аспекты программистского образования // Пятая открытая Всероссийская конференция “Преподавание ИТ в РФ” – 2007. - С. 22-26.

  18. Батура Т.В., Мурзин Ф.А. О логических методах анализа текста на естественном языке // Междунар. научно-практическая конф. "Казахстанское общество: приоритеты и ключевые факторы конкурентоспособности", том 1, г. Тараз, Унивеситет "Аулие-Ата", Респ. Казахстан, 2007. - С. 240-245.

  19. Батура Т.В. REFAL-подобные конструкции и обработка поисковых запросов на естественном языке // Технологии Microsoft в теории и практике программирования. – Новосибирск, 2007. – С. 88 – 90.

  20. Batura Tatyana, Murzin Feodor Logical Analysis of Texts in a Natural Language and a Sense Representation // Bull. of NCC. Ser.: Comput. Sci. — 2007. — Is. 26. - P. 147-158.

  21. Батура Т.В., Мурзин Ф.А. Формальные модели базовых конструкций языка и формирование речи у человека // Сб. ИСИ СО РАН, 2007, 20 с.

  22. Дунаев А.А. Оптимизация доступа к словарным данным большого объема // Технологии Microsoft в теории и практике программирования. – Новосибирск, 2007. – С. 115 – 117.

  23. Батура Т.В., Дунаев А.А., Позименко А.А. Исследовательская система анализа текстов на естественном языке // Технологии Microsoft в теории и практике программирования. – Новосибирск, 2007. – С. 91 – 92.

  24. D. Ponomaryov. Properties of relatively decomposable theories. // Материалы всероссийской конференции “Знания-Онтологии-Теории” (ЗОНТ-07), Новосибирск, 2007 – Т. I, С. 116-121.

  25. Н.А. Омельянчук, В.В. Миронова, Е.М. Залевский, И.С. Шамов, Н.Л. Подколодный, Д.К. Пономарев, Н.А. Колчанов. Извлечение знаний из опубликованных данных по генетике растений: база данных AGNS и ее приложения. // Материалы всероссийской конференции “Знания-Онтологии-Теории” (ЗОНТ-07), Новосибирск, 2007 – Т. II, С. 54-60.

  26. Morozov, D. Ponomaryov. The decomposability problem for finite Horn theories is undecidable. // Тез. международной конференции «Теория функций, алгебра и математическая логика», посвященная 90-летию академика А.Д. Тайманова, Алматы, 2007 – С. 89-90.

  27. Ponomaryov. Generalized decomposability notions for first-order theories. // Bulletin of the Novosibirsk Computing Center / Computer Science – Novosibirsk, 2007 – IIS Special Issue: 26.

  28. Марчук А.Г., Марчук П.А. Платформа интеграции электронных архивов. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции / Всероссийская научная конференция. – Переславль-Залесский, 2007 – Том 1, – С. 89-94.

  29. Марчук П.А. Технологии создания распределенных фактографических информационных систем. // Исследовано в России / Электронный многопредметный научный журнал. – МФТИ, Москва, 2007 – 9с. – Рекомендована, но пока не размещена

  30. Марчук П.А. Использование специфических онтологий для хранения фактографических данных. // Сборник института систем информатики – Новосибирск, 2007 – 7с.


2008 год


  1. Ануреев И.С. Язык описания онтологических систем переходов OTSL как средство формальной спецификации программных систем // Вестник НГУ, серия «Информационные технологии» , Т. 6, вып. 3. — 2008.

  2. Anureev I.S. Ontological models in OTSL // Problems in Programming. — 2008. — № 2-3. — P. 41-49.

  3. Ануреев И.С. Онтологические системы переходов // Труды XIII Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении», Том 1, 2008. — С. 307-315.

  4. Ануреев И.С. Онтологии и системы переходов // Материалы 11 национальной конференции по искусственному интеллекту с международным участием (КИИ-08), Дубна, 2008. — Том 3. — С. 173-180.

  5. Shilov N.V., Garanina N.O. Modal Logics for reasoning about Multiagent Systems. Encyclopedia of Artificial Intelligence. J.R. Rabuсal, J. Dorado, A.P. Sierra, editors. Information Science Reference. 2008, p.1089-1094.

  6. Shilov N.V., Han S.-Y. A proposal of Description Logic on Concept Lattices. Proceedings of the Fifth International Conference on Concept Lattices and their Applications, 2007. CEUR Workshop Proceedings, v.331, pp.165-176, 2008.

  7. Shilov N.V. Realization Problem for Formal Concept Analysis. Proceedings of the 21st International Workshop on Description Logics (DL2008). CEUR Workshop Proceedings, v.353, 2008, 10 p. (Электронная публикация. Доступна на http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-353/Shilov.pdf.)

  8. Ануреев И.С., Бодин Е.В., Городняя Л.В., Марчук А.Г., Мурзин Ф.А., Шилов Н.В. Проблема классификации компьютерных языков // Материалы 11 национальной конференции по искусственному интеллекту с международным участием (КИИ-08), Дубна, 2008. — Том 3. — С. 199-207.

  9. Городняя Л.В., Марчук А.Г., Мурзин Ф.А., Шилов Н.В. Классификация компьютерных языков: состояние, проблемы, перспективы. // Труды международной конференции “Космос, астрономия и программирование» (Лавровские чтения). — Санкт-Петербургский государственный университет, Санкт-Петербург, 2008. — С. 15-22.

  10. Ануреев И.С. Операционно-онтологическая семантика обработки исключений // Труды международной конференции “Космос, астрономия и программирование» (Лавровские чтения). — Санкт-Петербургский государственный университет, Санкт-Петербург, 2008. — С. 15-22.

  11. Ануреев И.С. Операционно-онтологическая семантика операторов безусловной передачи управления в языке C# // Труды международной конференции “Космос, астрономия и программирование» (Лавровские чтения). — Санкт-Петербургский государственный университет, Санкт-Петербург, 2008. — С. 259-266.

  12. Андреева Т.А., Ануреев И.С., Бодин Е.В., Городняя Л.В., Марчук А.Г., Мурзин Ф.А., Шилов Н.В. Компьютерные языки как форма и средство представления, порождения и анализа научных и профессиональных знаний // Тезисы XV Всероссийской научно-методическая конференции «Телематика 2008», 2008. — С. 10-11.

  13. Загорулько Ю.А., Боровикова О.И. Подход к построению порталов научных знаний // Автометрия. № 1, 2008, т. 44, - с. 100–110.

  14. Загорулько Ю.А. Автоматизация сбора онтологической информации об интернет-ресурсах для портала научных знаний // Известия Томского политехнического университета. – Т. 312. – № 5. Управление, вычислительная техника и информатика. – 2008. -с. 114–119.

  15. Загорулько Ю.А. Методологические проблемы построения онтологий для портала научных знаний // Когнитивные исследования. Выпуск 2. Сб. научных трудов под ред. В.Д. Соловьева, Т.В. Черниговской. М.: Издательство «Институт психологии РАН». –2008, с. 308-317.

  16. О.И. Боровикова, Ю.А. Загорулько, Г.Б. Загорулько, И.С. Кононенко. Организация содержательного доступа к лингвистическим информационным ресурсам // Международная научная конференция «Космос, астрономия и программирование» (Лавровские чтения). Тезисы докладов. СПб: СПбГУ, 2008. с. 146-152.

  17. Загорулько Ю.А., Загорулько Г.Б. Особенности технологии разработки онтологий для порталов научных знаний // Тр. X Междунар. конф. "Проблемы управления и моделирования в сложных системах". – Самара: Самарский Научный Центр РАН, 2008. – С. 457-463.

  18. И.С. Кононенко, О.И. Боровикова, Ю.А. Загорулько, Загоруйко Н.Г. О построении онтологии для портала знаний по компьютерной лингвистике // Третья международная конференция по когнитивным наукам (Москва, 20-25 июня). Тезисы докладов. М.: Художественно-издательский центр, 2008, с. 571-572.

  19. Загорулько Ю.А. Методы и методологии разработки, сопровождения и реинжиниринга онтологий // Симпозиум «Онтологическое моделирование: состояние и направления исследований и применения» (Звенигород, 20-21 мая). М.: ИПИ РАН, 2008. –С. 135–162.

  20. Боровикова О.И., Загорулько Ю.А., Загорулько Г.Б., Кононенко И.С., Соколова Е.Г. Разработка портала знаний по компьютерной лингвистике // Труды 11-ой национальной конференции по искусственному интеллекту с международным участием КИИ-2008 (г.Дубна, Россия). –М.: ЛЕНАНД, 2008. –Т.3. –С.380-388.

  21. E. Sidorova, Y. Zagorulko, I. Kononenko Knowledge-based approach to document analysis // International Jornal “Information technologies and Knowledge”, Vol. 2, Number 1, 2008. – pp.17–22.

  22. Сидорова Е.А. Подход к разработке лингвистических онтологий // Труды 11-ой национальной конференции по искусственному интеллекту с международным участием КИИ-2008 (г.Дубна, Россия). –М.: ЛЕНАНД, 2008. –Т.3. –С.181-189.

  23. Сидорова Е.А. Подход к построению предметных словарей по корпусу текстов // Труды международной конференции «Корпусная лингвистика –2008». –СПб.:С.-Петербургский гос. университет, Факультет филологии и искусств, 2008. –С.365-372.

  24. Сидорова Е.А., Загорулько Ю.А. Инструментальные средства анализа документов в информационных системах, основанных на онтологиях // Тезисы докладов международной научной конференции “Космос, астрономия и программирование” (Лавровские чтения). – СПбГУ, 2008. –C. 108-115.

  25. Сидорова Е.А. Многоцелевая словарная подсистема извлечения предметной лексики // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2008». Вып. 7 (14). - М.: РГГУ, 2008. –С. 475-481.

  26. Батура Т.В., Мурзин Ф.А. О формировании речи человека и и анализе текстов на естественном языке// Междунар. научно-практическая конф. "Казахстан на этапе социально-политического и экономического развития в условиях глобализации", том 1, г. Тараз, Унивеситет "Аулие-Ата", Респ. Казахстан, 2008. - С. 271-273.

  27. Иванова Ю.Г. Математические модели для алгоритмов выявления речевых воздействий на сознание человека // Технологии Microsoft в теории и практике программирования. – Новосибирск, 2008. – С. 126 – 128.

  28. Дунаев А.А. Исследовательская система для анализа текстов на естественном языке // Технологии Microsoft в теории и практике программирования. – Новосибирск, 2008. – С. 118 – 119.

  29. Перфильев А.А. Информационно поисковая система, ориентированная на использование лингвистических алгоритмов // Технологии Microsoft в теории и практике программирования. – Новосибирск, 2008. – С. 152 – 153.

  30. Копылова Н.С., Мурзин Ф.А. Моделирование механизмов социального влияния на основе мультиагентного подхода // Труды 11-ой национальной конференции по искусственному интеллекту с международным участием КИИ-2008 (г.Дубна, Россия). –М.: ЛЕНАНД, 2008. –Т.3. –С.226-234.

  31. Городняя Л.В., Мурзин Ф.А. Гуманитарные аспекты программирования // Труды международной конференции “Космос, астрономия и программирование» (Лавровские чтения). — Санкт-Петербургский государственный университет, Санкт-Петербург, 2008. — 5с.

  32. Пономарев Д.К. Критерий разложимости элементарных теорий. // Сибирский математический журнал, 2008 – Т.49 – N1 – С. 189-192.

  33. Омельянчук Н.А., Миронова В.В., Залевский Е.М., Подколодный Н.Л., Пономарев Д.К., Николаев С.В., Акбердин И.Р., Озонов Е.А., Лихошвай В.А., Фадеев С.И., Пененко А.В., Лавреха В.В., Зубаирова У.С., Колчанов Н.А.. Морфогенез растений: реконструкция в базах данных и моделирование. // «Системная компьютерная биология». Отв. Редакторы: Н.А.Колчанов, С.С.Гончаров, В.А. Лихошвай, В.А. Иванисенко. / Изд. СО РАН, Новосибирск, 2008, С. 539-588.

  34. Ponomaryov D. Decomposability in logical calculi. // Bulletin of the Novosibirsk Computing Center / Computer Science – Novosibirsk 2008 – IIS Special Issue: 27. 7 стр. (в печати).

  35. Марчук А.Г. О распределенных фактографических системах // Электронные библиотеки: перспективные методы и технологии, электронные коллекции / 10-я Всероссийская научная конференция. – Дубна, 2008. –С. 93-102.



^ ДОПОЛНИТЕЛЬНЫЕ ДАННЫЕ


Защита кандидатских диссертаций,

связанных с темой проекта


Батура Татьяна Викторовна

Защитила диссертацию 23.06.2006. (Диссертация утверждена ВАК-ом.)

Тема диссертации:^ МАШИННО-ОРИЕНТИРОВАННЫЕ ЛОГИЧЕСКИЕ МЕТОДЫ

ПРЕДСТАВЛЕНИЯ СМЫСЛА ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ.


Сидорова Елена Анатольевна

Защитила диссертацию 15.12.2006 года

Тема диссертации:^ МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ АНАЛИЗА ДОКУМЕНТОВ НА ОСНОВЕ МОДЕЛИ ПРЕДМЕТНОЙ ОБЛАСТИ


Пономарев Денис Константинович

Защитил диссертацию 26.12.2006 г.

Тема диссертации: ^ СИНТАКСИЧЕСКАЯ ОДНОЗНАЧНОСТЬ ПРИ ПРЕДСТАВЛЕНИИ ЗНАНИЙ В ЛОГИКЕ ПЕРВОГО ПОРЯДКА


Международное сотрудничество


Тема: Нерегулярные структуры данных и алгоритмы и их приложения для обработки текстов на естественном языке

(Irregular data structures and algorithms and their application for the natural language texts processing)

^ Иностранный партнер: IBM (АйБиЭм)

Координаторы проекта: Дженифер Трелевич (США), Мурзин Ф.А. (Россия)

Сроки: 2005-2006


Тема (предварительное название):Теоретические и прикладные аспекты интеграции музейных и архивных ресурсов

Иностранный партнер: Google (Гугл)

^ Координаторы проекта: Дженифер Трелевич (США), Марчук А.Г. (Россия)

Сроки: 2008-2011


Основной целью работы, которая началась во второй половине 2008-го года, является “сращивание” передовых технологий, разработанных в ИСИ СО РАН, с технологиями, разработанными в компании Google, в области создания фактографических информационных систем.

В ИСИ СО РАН предложены в высокой степени обоснованные принципы построения фактографических баз данных, ориентированных на фиксацию исторической информации. Построена онтология неспецифических данных, сформирована архитектура информационных систем архивной направленности, разработана технология сбора и обработки архивных документов и данных, а также интерфейсов просмотра, навигации и поиска.

Предполагается интегрировать вышеупомянутые методы с технологией Mashups и другими технологиями, разработанными в компании Google. Для качественной отработки новых подходов и технологий будут использоваться данные из ряда зарубежных архивов, доступ к которым обеспечит компания Google. Отметим также, что это может представить интерес для отечественных историков.

В случае удачного развития проекта компания Google может осуществить софинансирование проекта.

iiiorganizaciya-informirovaniya-abiturientov-kazanskij-nacionalnij-issledovatelskij-tehnicheskij-universitet.html
iiiperechen-meropriyatij-programmi-programmi-ministerstvo-selskogo-hozyajstva-rossijskoj-federacii-gosudarstvennimi.html
iiiprobeli-i-puti-i-sredstva-ih-ustraneniya-ispolnitelnoe-rezyume.html
iiiprogrammi-vois-vsemirnaya-organizaciya-intellektualnoj-sobstvennosti.html
iiiset-osobo-ohranyaemih-territorij-na-altae-kriterii-videleniya-principi-organizacii-i-funcionirovaniya-ustojchivoe-ekologicheski-sbalansirovannoe-razvitie.html
iiitrebovaniya-k-bezopasnosti-processov-ekspluatacii-i-utilizacii-svyazannih-s-trebovaniyami-k-bezopasnosti-obektov-vnutrennego-vodnogo-transporta.html
  • teacher.bystrickaya.ru/glava-ii-vidi-modalnih-znachenij-i-sredstva-ih-virazheniya-v-russkom-yazike-d-a-alaniya-doktor-filologicheskih-nauk.html
  • znaniya.bystrickaya.ru/programma-povisheniya-kvalifikacii-nauchno-pedagogicheskih-rabotnikov-aktualnie-voprosi-vvedeniya-fgos-sozdanie-sistem-ocenivaniya-rezultatov-obucheniya-v-usloviyah.html
  • composition.bystrickaya.ru/oksana-demchenko-stranica-4.html
  • shkola.bystrickaya.ru/pokazateli-effektivnosti-deyatelnosti-organov-mestnogo-samoupravleniya-gorodskogo-okruga-gorod-tomsk.html
  • esse.bystrickaya.ru/pussy-riot-ocenili-v-desyat-tisyach-rublej-ishem-gran-mezhdu-blagotvoritelnostyu-i-sponsorstvom-22.html
  • grade.bystrickaya.ru/narushenie-gigienicheskih-trebovanij-k-organizacii-uchebnogo-processa.html
  • prepodavatel.bystrickaya.ru/trebovaniyami-gn-2161338-03-utverzhdeni-postanovleniem-administracii-altajskogo-kraya.html
  • lesson.bystrickaya.ru/shutki-melochej-vladimir-lvovich-levi.html
  • knigi.bystrickaya.ru/sabati-tr-aralas-saba-sabati-barisi-jimdastiru-keze-j-tapsirmasin-tekseru-zhaa-saba-anitama.html
  • shpora.bystrickaya.ru/zadachi-vospitivat-lyubov-k-rodine-k-rodnomu-krayu.html
  • exchangerate.bystrickaya.ru/european-monetary-union-essay-research-paper-the.html
  • upbringing.bystrickaya.ru/kodeks-delovoj-etiki.html
  • predmet.bystrickaya.ru/rukovodstvo-k-vospitaniyu-okkultnih-sil-v-cheloveke-stranica-11.html
  • report.bystrickaya.ru/iscelenie-dushi-mirovaya-sensaciya-samij-uspeshnij-izdatelskij-proekt-ssha-51-nazvanie-80-millionov-ekzemplyarov-39-yazikov-v-1999-g-vnesen-v-knigu-rekordov-ginnessa-stranica-6.html
  • prepodavatel.bystrickaya.ru/terrorizm-mozhno-pobedit-tolko-obedinivshis-kratkoe-soderzhanie-vistupleniya-v-smi-direktora-fsb-rossii-n-patrusheva.html
  • letter.bystrickaya.ru/obedinenie-organizacij-vipolnyayushih-stroitelstvo-rekonstrukciyu-i-kapitalnij-remont-obektov-atomnoj-energii-soyuzatomstroj.html
  • znanie.bystrickaya.ru/53vibor-parametrov-lep-diplomnij-proekt-studenta-gr-er-98-rodchenko-t-a-na-temu-proektirovanie-elektroseti.html
  • laboratornaya.bystrickaya.ru/rabochaya-programma-disciplina-informacionnie-tehnologii-v-elektronnom-biznese-specialnost-080801-prikladnaya-informatika-v-menedzhmente.html
  • institute.bystrickaya.ru/glava-14-nyu-jorkskim-zhurnalistam-kotorie-izo-dnya-v-den.html
  • writing.bystrickaya.ru/biznes-plan-planirovanie-finansovo-ekonomicheskoj-deyatelnosti-predpriyatiya-xxxxxx-po-proizvodstvu-novoj-produkcii.html
  • assessments.bystrickaya.ru/devyatij-val-narkomanii-sobranie-sochinenij-tom-3.html
  • exchangerate.bystrickaya.ru/kultura-kaluzhskogo-kraya.html
  • testyi.bystrickaya.ru/8-haos-i-begstvo-iz-haosa-jen-vorres-poslednyaya-velikaya-knyaginya.html
  • uchitel.bystrickaya.ru/rassmatrivayutsya-voprosi-izucheniya-svojstv-nanoalmazov-detonacionnogo-sinteza-stranica-3.html
  • textbook.bystrickaya.ru/kniga-ii-o-nikah-ili-brake-kommentarii-musulmanskogo-prava.html
  • paragraph.bystrickaya.ru/konspekt-lekcij-po-discipline-russkij-yazik-i-kultura-rechi.html
  • knowledge.bystrickaya.ru/moskva-2009-g-rabochaya-programma-po-discipline-pechatnoe-i-poslepechatnoe-oborudovanie-po-specialnosti-261202.html
  • diploma.bystrickaya.ru/vliyanie-radioaktivnih-veshestv-na-organizm-cheloveka-winword972000.html
  • abstract.bystrickaya.ru/3222-kakimi-dolzhni-bit-simvoli-v-pismennosti-i-zdes-luchshe-sdelat-chetire-shaga-vstuplenie-analiz-sintez-itogi-32221.html
  • urok.bystrickaya.ru/pourochnoe-kalendarnoe-planirovanie-rabochaya-programma-po-geografii-dlya-8-klassa-osnovnogo-obshego-obrazovaniya-bazovij-uroven.html
  • tests.bystrickaya.ru/kosmonavti-stalina-stranica-16.html
  • textbook.bystrickaya.ru/imena-na-karte-leningradskoj-oblasti-2012-g-kraevedch-kalendar-otd-kraevedeniya-lounb-sost-i-a-voronova-n-p-mahova-pod-red-t-n-belovoj-v-a-topu-stranica-3.html
  • textbook.bystrickaya.ru/hristianskie-obryadi-k-chitatelyam.html
  • composition.bystrickaya.ru/oficialnij-spisok-uchastnikov-podprogrammi-molodaya-semya-na-2011-god-po-gorodu-tyumeni-stranica-8.html
  • otsenki.bystrickaya.ru/resheniem-arbitrazhnogo-suda-ryazanskoj-oblasti-ot-31-10-2007-iskovoe-trebovanie-udovletvoreno.html
  • © bystrickaya.ru
    Мобильный рефератник - для мобильных людей.