Информационные материалы для подготовки студентов

Расскажи одногруппникам: + 200 к карме:

Разработка и исследование метода автоматической коррекции опечаток в текстах на естественном языке





Содержание

Список сокращений 3

ВВЕДЕНИЕ 4

1) Коррекция орфографических ошибок 6

1.1 Использование автокоррекции 6

1.2 Расстояния Левенштейна 7

1.3 Расстояния Дамерау-Левенштейна 10

1.4 Алгоритмы нечеткого поиска с индексацией (Оффлайн) 12

1.5 Алгоритм расширенной выборки 13

1.6 Метод N-грамм 15

2) Лингвистическое обеспечение систем автоматической обработки текстов 17

2.1 Лингвистические банки данных 18

2.2 Словарь Зализняка 20

Заключение 22

Список литературы 23

Приложения 24

Введение

Компьютерная лингвистика как термин стал все чаще использоваться в публикациях, это связанно с постоянным ростом в сфере разработки различных программных систем. Это обоснованно бурным ростом в обществе текстовой информации и в необходимости автоматической обработки текстов на естественном языке (ЕЯ). Больше всего этому подвержен "Интернет". Все это стимулирует развитие компьютерной лингвистики как область науки и принуждает вести разработку новых лингвистических технологий. В этой сфере было предложено не мало идей, но к сожалению не все смогли найти свое выражение в программных продуктах которые можно было бы использовать на практике. Я бы хотел показать вам, что из себя представляет эта область, какие связи она имеет с другими науками и дать краткий обзор существующих приложений КЛ.

Компьютерная лингвистика (КЛ) - дисциплина между лингвистикой и информатикой, которая касается вычислительных аспектов естественного языка. Это принадлежит когнитивистике и совпадения с областью искусственного интеллекта (ИИ), отраслью информатики.

Естественный язык - самый интересный аспект.

Компьютерная лингвистика поднимает проблемы в теоретической лингвистике и когнитивистике. Они помогают людям лучше понимать язык. На сегодняшний день ЕЯ настолько сложный, что им можно управлять, используя только компьютеры. Вычислительные лингвисты развивают формальные модели, моделирующие аспекты способности естественного языка, и делают на их базе компьютерные программы. Эти программы дают основание для оценки и дальнейшего развития этого направления.

Вся сложность задач КЛ, в том что ЕЯ - очень многообразная система, появившаяся в процессе деятельности человека и постоянно развивающаяся. Так же возникает проблема в разработке КЛ в связи с разнообразием ЕЯ. Различные языки в зависимости от лексики и морфологии могут выражать одно и то же разными способами.

Современный человек подвержен постоянной информационной нагрузке, он смотрит телевизор, сидит в интернете, читает газеты, слушает радио. Информация и вариации ее подачи с каждым годом возрастает в разы. Современные виды информационных технологий становятся все более автоматизированы (средства быстрого информационного поиска, системы перевода и исправления опечаток). Все наше взаимодействие с компьютером сводится к использованию более понятного для человека языка. К сожалению работа с ЕЯ очень сложна из за его структуры и это очень сильно сказывается на разработке программного обеспечения.

Заключение

Приводим основные результаты работы:

· Была предоставлена информация о компьютерной лингвистики и ее связи с естественным языком. Были рассмотрены сферы использования автокоррекции в повседневной жизни и методы ее реализации.

· Были рассмотрены основные алгоритмы нечеткого поиска, являющиеся основой систем проверки орфографии.

· Были проанализированы лингвистические банки данных, разобран один из самых популярных ЛБД - словарь Зализняка и на его основе, написана программа для автоматического исправления опечаток в тексте на естественном языке.

Из проделанной выше работы можно сделать вывод, что технология автоматической коррекции опечаток в тексте очень важна на сегодняшний день. Она не только облегчит жизнь простым пользователям, но и даст возможность разработчикам выйти на более высокий уровень работы с естественными языками. Показанные способы реализация весьма просты и легки в применении. Их можно совершенствовать в зависимости от цели поставленной перед разработчиком и их реализация не должна вызывать трудностей.

Список литературы

1. Морфологический анализатор. / [Электронный ресурс] http://habrahabr.ru/post/49421/. Проверено 18.03.2015.

2. Расстояние Левенштейна. / [Электронный ресурс] http://ru.wikipedia.org/wiki/Расстояние_Левенштейна / Проверено 18.03.2015.

3. Расстояние Дамерау-Левенштейна. / [Электронный ресурс] http://en.wikipedia.org/wiki/Damerau–Levenshtein_distance/ Проверено 18.03.2015.

4. Метод N-грамм. / [Электронный ресурс] http://www.cs.helsinki.fi/u/ukkonen/TCS92.pdf/ Проверено 18.03.2015.

5. Автоматическая обработка текстов на естественном языке. / [Электронный ресурс] http://www.hse.ru/ Проверено 18.03.2015.

6. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии. М., 2004.

7. Прикладное программное обеспечение: системы автоматической обработки текстов./[Электронный ресурс] http://lib.rus.ec/ Проверено 21.04.2015

8. Шемакин Ю.И. "Начала компьютерной лингвистики" // М.: Издательство МГОУ, А/О "Росвузнаука", 1992

9. Михаилян А. "Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах" // 2001


Популярные, наиболее покупаемые работы:

  1. Отчет по производственной практике на ОАО «Мясо»
  2. Организация государственной гражданской службы субъекта Российской Федерации
  3. Досудебное соглашение о сотрудничестве
  4. Формирование правовой культуры
  5. Отчет по практике на ООО «ЭнергоСервис»
  6. Монополии
  7. Порядок заключения и оформления трудового договора
  8. Влияние пола на индивид стиль руководства
  9. Планирование и прогнозирование потребности в персонале
  10. Оценка инвестиционной привлекательности организации в системе ее финансовых показателей
  11. Формирование механизма эффективного взаимодействия между властью и обществом
  12. Возникновение автократии в России
  13. Сущность, содержание и практика налогового администрирования на современном этапе экономического развития Казахстана.
  14. Международная охрана авторских прав
  15. Энгельс о законах диалектики
  16. Грабеж и его виды
  17. Анализ финансово-хозяйственной деятельности предприятия
  18. Особенности формирования народной игры
  19. Россия в середине XVIII века: эпоха дворцовых переворотов
  20. Почему вымирает Костромская деревня
  21. Правовые основания административной ответственности за экологические правонарушения
  22. Семантическая взаимосвязь восприятия цвета и композиции в дизайне советских кино-плакатов как средство выражения их идейно-образного содержания
  23. Особенности фонематического восприятия у детей старшего дошкольного возраста с фонетико-фонематическим недоразвитием речи.
  24. Технологическая схема и оборудование Стан 5000
  25. Устройство детей на воспитание
Структура реферата:
Как правильно самостоятельно написать:
Как правильно оформить по ГОСТ:
Инструкции по работе с программами: