Информационные материалы для подготовки студентов

Расскажи одногруппникам: + 200 к карме:

Разработка и исследование метода автоматической коррекции опечаток в текстах на естественном языке





Содержание

Список сокращений 3

ВВЕДЕНИЕ 4

1) Коррекция орфографических ошибок 6

1.1 Использование автокоррекции 6

1.2 Расстояния Левенштейна 7

1.3 Расстояния Дамерау-Левенштейна 10

1.4 Алгоритмы нечеткого поиска с индексацией (Оффлайн) 12

1.5 Алгоритм расширенной выборки 13

1.6 Метод N-грамм 15

2) Лингвистическое обеспечение систем автоматической обработки текстов 17

2.1 Лингвистические банки данных 18

2.2 Словарь Зализняка 20

Заключение 22

Список литературы 23

Приложения 24

Введение

Компьютерная лингвистика как термин стал все чаще использоваться в публикациях, это связанно с постоянным ростом в сфере разработки различных программных систем. Это обоснованно бурным ростом в обществе текстовой информации и в необходимости автоматической обработки текстов на естественном языке (ЕЯ). Больше всего этому подвержен "Интернет". Все это стимулирует развитие компьютерной лингвистики как область науки и принуждает вести разработку новых лингвистических технологий. В этой сфере было предложено не мало идей, но к сожалению не все смогли найти свое выражение в программных продуктах которые можно было бы использовать на практике. Я бы хотел показать вам, что из себя представляет эта область, какие связи она имеет с другими науками и дать краткий обзор существующих приложений КЛ.

Компьютерная лингвистика (КЛ) - дисциплина между лингвистикой и информатикой, которая касается вычислительных аспектов естественного языка. Это принадлежит когнитивистике и совпадения с областью искусственного интеллекта (ИИ), отраслью информатики.

Естественный язык - самый интересный аспект.

Компьютерная лингвистика поднимает проблемы в теоретической лингвистике и когнитивистике. Они помогают людям лучше понимать язык. На сегодняшний день ЕЯ настолько сложный, что им можно управлять, используя только компьютеры. Вычислительные лингвисты развивают формальные модели, моделирующие аспекты способности естественного языка, и делают на их базе компьютерные программы. Эти программы дают основание для оценки и дальнейшего развития этого направления.

Вся сложность задач КЛ, в том что ЕЯ - очень многообразная система, появившаяся в процессе деятельности человека и постоянно развивающаяся. Так же возникает проблема в разработке КЛ в связи с разнообразием ЕЯ. Различные языки в зависимости от лексики и морфологии могут выражать одно и то же разными способами.

Современный человек подвержен постоянной информационной нагрузке, он смотрит телевизор, сидит в интернете, читает газеты, слушает радио. Информация и вариации ее подачи с каждым годом возрастает в разы. Современные виды информационных технологий становятся все более автоматизированы (средства быстрого информационного поиска, системы перевода и исправления опечаток). Все наше взаимодействие с компьютером сводится к использованию более понятного для человека языка. К сожалению работа с ЕЯ очень сложна из за его структуры и это очень сильно сказывается на разработке программного обеспечения.

Заключение

Приводим основные результаты работы:

· Была предоставлена информация о компьютерной лингвистики и ее связи с естественным языком. Были рассмотрены сферы использования автокоррекции в повседневной жизни и методы ее реализации.

· Были рассмотрены основные алгоритмы нечеткого поиска, являющиеся основой систем проверки орфографии.

· Были проанализированы лингвистические банки данных, разобран один из самых популярных ЛБД - словарь Зализняка и на его основе, написана программа для автоматического исправления опечаток в тексте на естественном языке.

Из проделанной выше работы можно сделать вывод, что технология автоматической коррекции опечаток в тексте очень важна на сегодняшний день. Она не только облегчит жизнь простым пользователям, но и даст возможность разработчикам выйти на более высокий уровень работы с естественными языками. Показанные способы реализация весьма просты и легки в применении. Их можно совершенствовать в зависимости от цели поставленной перед разработчиком и их реализация не должна вызывать трудностей.

Список литературы

1. Морфологический анализатор. / [Электронный ресурс] http://habrahabr.ru/post/49421/. Проверено 18.03.2015.

2. Расстояние Левенштейна. / [Электронный ресурс] http://ru.wikipedia.org/wiki/Расстояние_Левенштейна / Проверено 18.03.2015.

3. Расстояние Дамерау-Левенштейна. / [Электронный ресурс] http://en.wikipedia.org/wiki/Damerau–Levenshtein_distance/ Проверено 18.03.2015.

4. Метод N-грамм. / [Электронный ресурс] http://www.cs.helsinki.fi/u/ukkonen/TCS92.pdf/ Проверено 18.03.2015.

5. Автоматическая обработка текстов на естественном языке. / [Электронный ресурс] http://www.hse.ru/ Проверено 18.03.2015.

6. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии. М., 2004.

7. Прикладное программное обеспечение: системы автоматической обработки текстов./[Электронный ресурс] http://lib.rus.ec/ Проверено 21.04.2015

8. Шемакин Ю.И. "Начала компьютерной лингвистики" // М.: Издательство МГОУ, А/О "Росвузнаука", 1992

9. Михаилян А. "Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах" // 2001


Популярные, наиболее покупаемые работы:

  1. Апелляция в гражданском и арбитражном процессе
  2. Валидность тестов. Виды и типы валидности. Проблемы расчета валидности
  3. Арбитражный процесс задачи
  4. Социология Питирима Сорокина
  5. Формирование певческих навыков у дошкольников
  6. Самооценка: понятие, сущность, развитие
  7. Франция как актор мировой политики
  8. Анализ теоретических основ и практических аспектов совершенствования организационных структур управления предприятием на примере ООО «ВМК».
  9. Планирование и прогнозирование потребности в персонале
  10. Умышленное причинение тяжкого вреда здоровью, совершенное при смягчающих обстоятельствах (при превышении пределов необходимой обороны, мер, необходимых для задержания преступника или в состоянии аффекта)
  11. Комплексная диагностика компании определение сильных и слабых сторон на примере компании Novicam
  12. Принципы уголовного судопроизводства
  13. Характеристика конституции США 1787 г. и Билля о правах 1791
  14. Политическая социология
  15. Правоохранительные органы
  16. Развитие образного мышления младших школьников на уроках музыки средствами ритмопластики
  17. Фотоэлектронная эмиссия и ультрофиолетовая фотоэлектронная спектроскопия
  18. Уголовный процесс
  19. Сохранение здоровья дошкольников на базе программы истоки
  20. МЕРКАНТИЛИЗМ ЗАПАДНОЙ ЕВРОПЫ (Т.МАН, А.МОНКРЕТЬЕН)
  21. Брак и порядок его заключения
  22. Правовое положение и организация работы подразделений по делам несовершеннолетних
  23. ЗДОРОВЫЙ ОБРАЗ ЖИЗНИ
  24. Расторжение брака как социальная и правовая проблема
  25. Ранняя профориентация в дошкольных учреждениях России
Структура реферата:
Как правильно самостоятельно написать:
Как правильно оформить по ГОСТ:
Инструкции по работе с программами: