Информационные материалы для подготовки студентов

Расскажи одногруппникам: + 200 к карме:

Разработка и исследование метода автоматической коррекции опечаток в текстах на естественном языке





Содержание

Список сокращений 3

ВВЕДЕНИЕ 4

1) Коррекция орфографических ошибок 6

1.1 Использование автокоррекции 6

1.2 Расстояния Левенштейна 7

1.3 Расстояния Дамерау-Левенштейна 10

1.4 Алгоритмы нечеткого поиска с индексацией (Оффлайн) 12

1.5 Алгоритм расширенной выборки 13

1.6 Метод N-грамм 15

2) Лингвистическое обеспечение систем автоматической обработки текстов 17

2.1 Лингвистические банки данных 18

2.2 Словарь Зализняка 20

Заключение 22

Список литературы 23

Приложения 24

Введение

Компьютерная лингвистика как термин стал все чаще использоваться в публикациях, это связанно с постоянным ростом в сфере разработки различных программных систем. Это обоснованно бурным ростом в обществе текстовой информации и в необходимости автоматической обработки текстов на естественном языке (ЕЯ). Больше всего этому подвержен "Интернет". Все это стимулирует развитие компьютерной лингвистики как область науки и принуждает вести разработку новых лингвистических технологий. В этой сфере было предложено не мало идей, но к сожалению не все смогли найти свое выражение в программных продуктах которые можно было бы использовать на практике. Я бы хотел показать вам, что из себя представляет эта область, какие связи она имеет с другими науками и дать краткий обзор существующих приложений КЛ.

Компьютерная лингвистика (КЛ) - дисциплина между лингвистикой и информатикой, которая касается вычислительных аспектов естественного языка. Это принадлежит когнитивистике и совпадения с областью искусственного интеллекта (ИИ), отраслью информатики.

Естественный язык - самый интересный аспект.

Компьютерная лингвистика поднимает проблемы в теоретической лингвистике и когнитивистике. Они помогают людям лучше понимать язык. На сегодняшний день ЕЯ настолько сложный, что им можно управлять, используя только компьютеры. Вычислительные лингвисты развивают формальные модели, моделирующие аспекты способности естественного языка, и делают на их базе компьютерные программы. Эти программы дают основание для оценки и дальнейшего развития этого направления.

Вся сложность задач КЛ, в том что ЕЯ - очень многообразная система, появившаяся в процессе деятельности человека и постоянно развивающаяся. Так же возникает проблема в разработке КЛ в связи с разнообразием ЕЯ. Различные языки в зависимости от лексики и морфологии могут выражать одно и то же разными способами.

Современный человек подвержен постоянной информационной нагрузке, он смотрит телевизор, сидит в интернете, читает газеты, слушает радио. Информация и вариации ее подачи с каждым годом возрастает в разы. Современные виды информационных технологий становятся все более автоматизированы (средства быстрого информационного поиска, системы перевода и исправления опечаток). Все наше взаимодействие с компьютером сводится к использованию более понятного для человека языка. К сожалению работа с ЕЯ очень сложна из за его структуры и это очень сильно сказывается на разработке программного обеспечения.

Заключение

Приводим основные результаты работы:

· Была предоставлена информация о компьютерной лингвистики и ее связи с естественным языком. Были рассмотрены сферы использования автокоррекции в повседневной жизни и методы ее реализации.

· Были рассмотрены основные алгоритмы нечеткого поиска, являющиеся основой систем проверки орфографии.

· Были проанализированы лингвистические банки данных, разобран один из самых популярных ЛБД - словарь Зализняка и на его основе, написана программа для автоматического исправления опечаток в тексте на естественном языке.

Из проделанной выше работы можно сделать вывод, что технология автоматической коррекции опечаток в тексте очень важна на сегодняшний день. Она не только облегчит жизнь простым пользователям, но и даст возможность разработчикам выйти на более высокий уровень работы с естественными языками. Показанные способы реализация весьма просты и легки в применении. Их можно совершенствовать в зависимости от цели поставленной перед разработчиком и их реализация не должна вызывать трудностей.

Список литературы

1. Морфологический анализатор. / [Электронный ресурс] http://habrahabr.ru/post/49421/. Проверено 18.03.2015.

2. Расстояние Левенштейна. / [Электронный ресурс] http://ru.wikipedia.org/wiki/Расстояние_Левенштейна / Проверено 18.03.2015.

3. Расстояние Дамерау-Левенштейна. / [Электронный ресурс] http://en.wikipedia.org/wiki/Damerau–Levenshtein_distance/ Проверено 18.03.2015.

4. Метод N-грамм. / [Электронный ресурс] http://www.cs.helsinki.fi/u/ukkonen/TCS92.pdf/ Проверено 18.03.2015.

5. Автоматическая обработка текстов на естественном языке. / [Электронный ресурс] http://www.hse.ru/ Проверено 18.03.2015.

6. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии. М., 2004.

7. Прикладное программное обеспечение: системы автоматической обработки текстов./[Электронный ресурс] http://lib.rus.ec/ Проверено 21.04.2015

8. Шемакин Ю.И. "Начала компьютерной лингвистики" // М.: Издательство МГОУ, А/О "Росвузнаука", 1992

9. Михаилян А. "Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах" // 2001


Популярные, наиболее покупаемые работы:

  1. Рассмотрение дела об административном правонарушении
  2. Теоретические и эмпирические методы научного исследования
  3. Психофизическая проблема
  4. Преддоговорные отношения в гражданском праве
  5. Проблема профориентации подростков
  6. Прохождения производственной практики в абонентском отделе организации ИП Дитятьева С.Ю. в качестве программиста
  7. Перевозка кирпича на железнодорожном транспорта
  8. Деятельность полномочного представителя Президента РФ в Уральском федеральном округе итоги и перспективы
  9. Судебное разбирательство в гражданском процессе
  10. Экономический рост и качество жизни
  11. Понятие и содержание рекламной деятельности
  12. Определение и оптимизация процесса работы с потребителями
  13. Развитие физических качеств детей старшего дошкольного возраста посредствам фитбол-гимнастики
  14. Анализ современной пенсионной системы для поколений рожденных в 80-90 ггXXвека
  15. Влияние Византии на формирование древнерусской культуры
  16. Особенности партийной системы России в период Думской монархии
  17. Нарушение мыслительных функций у больных шизофренией как основного компонента структуры этого заболевания.
  18. Омская область
  19. Психологические проблемы (особенности) в работе журналиста-новостника
  20. Рефлексия режима Виши во Франции
  21. Стратегия правотворчества и социальное прогнозирование
  22. Построение организационных структур управления
  23. Особенности английской дипломатии
  24. Отягчающие обстоятельства
  25. Тенденции развития рекламного рынка в г.Самара
Структура реферата:
Как правильно самостоятельно написать:
Как правильно оформить по ГОСТ:
Инструкции по работе с программами: