Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server (2018)
Программа курса
Модуль 1. Постановка задачи
Модуль 2. Простые средства текстового поиска
Модуль 3. Механизм полнотекстового поиска
Модуль 4. Подготовка результатов поиска
Модуль 5. Языковые особенности
Модуль 6. Подготовка баз данных
Модуль 7. Эксплуатация и устранение проблем
Модуль 8. Расширение полнотекстового поиска
Скачать: Оформить VIP Подписку и открыть доступ к этой и другим темам.
Программа курса
Модуль 1. Постановка задачи
- Задачи хранения, обработки и анализа текстов
- Строковые типы данных: VarChar, Text
- Работа с текстом в формате «юникод»: NVarChar, SCSU
- Хранение текста в BLOB’ах: BLOB, CLOB, NCLOB, типы документов
- Хранение текста в файлах и файловых таблицах: FileStream, FileTables
- Текст в XML-документах: кодировки, языковая разметка, элементы, атрибуты
- Загрузка текста в базу данных: OpenRowset-BULK
- Режимы упорядочения и работа с диакритами: Collate, регистр, диакритические знаки
- Режимы поиска: строковый, полнотекстовый, морфологический, фонетический, семантический, аналитический
- Параметризация поиска: язык запросов, операторы, параметры
- Требования к оформлению результатов поиска: ранжирование, сниппеты, подсветка, постраничная выдача
- Оценка качества поиска: точность, отклик, производительность
Модуль 2. Простые средства текстового поиска
- Поисковые строковые функции: CharIndex, PatIndex
- Вспомогательные строковые функции: Concat, Replace, Stuff, Substring, Reverse, Upper, Lower
- Поиск по шаблону: LIKE
- Использование регулярных выражений: VBScript.RegExp, Regex.Match
Модуль 3. Механизм полнотекстового поиска
- Подготовка индексов: типы данных, привязка к строке, язык, тип документа, обновление
- Базовые возможности полнотекстового поиска: Contains, FreeText, ContainsTable, FreeTextTable
- Логические выражения в полнотекстовых запросах: AND, OR, NOT
- Полнотекстовые операции: префиксы, генерализация, INFLECTIONAL, THESAURUS
- Весовые коэффициенты и расстояния: NEAR, WEIGHT
Модуль 4. Подготовка результатов поиска
- Табличный вывод результатов: соединение с ContainsTable и FreeTextTable
- Генерация сниппетов и подсветка: простые сниппеты, подсветка с учётом словоформ
- Ранжирование: простое, взвешенное, с колоночными мультипликаторами
- Постраничная выдача: Row_Number, OFFSET, FETCH
- Параметризация поиска: простые и сложные формы, язык запросов
Модуль 5. Языковые особенности
- Языковая разметка текста: LCID, xml:lang, индексирование, парсинг
- Хранение многоязычных документов: табличное, колоночное, с языковым атрибутом, XML
- Морфология: генерализация, парсинг
- Работа с документами на нескольких языках: запросы с явным указанием языка, фильтрация по языковому атрибуту
- Синонимы: THESAURUS, подстановки и расширения
- Шумовые слова: просмотр, редактирование, привязка, генерализация шумовых слов
Модуль 6. Подготовка баз данных
- Серверные компоненты полнотекстового поиска: установка и настройка
- Ресурсы операционной системы: службы, фильтры, файлы
- Подготовка фильтров: установка, тестирование, интерфейс, стандартные установочные наборы
- Настройка базы данных для работы с текстом: каталоги, файловые группы, включение механизма поиска
- Выбор механизма хранения: BLOB, XML, текст, FileStream
- Работа со словарями синонимов: редактирование и загрузка словарей, подстановки и расширения, приоритеты
- Настройка шумовых слов: подключение, влияние на индексирование
- Создание и настройка полнотекстовых индексов: режим отслеживания, обновление
- Обслуживание полнотекстовых индексов и каталогов: мониторинг, обновление
Модуль 7. Эксплуатация и устранение проблем
- Серверные диагностические инструменты: настройки, служебные процедуры, DMV/DMF
- Диагностика и мониторинг полнотекстовых индексов: документы, ключевые слова, события
- Диагностика и мониторинг полнотекстовых запросов: парсинг, трассировка
Модуль 8. Расширение полнотекстового поиска
- Семантический поиск: подготовка базы данных, ключевые фразы, похожие документы
- Фонетический поиск: Soundex, Difference: NYSIIS
- Вычисление расстояний между словами: по Хэммингу, по Левенштейну, LCS
- Анализ N-грамм: триграммы, 4-граммы,
- Векторный анализ текста: простые и взвешенные координаты
- Задачи класса «Text Mining»: NLP
Скачать: Оформить VIP Подписку и открыть доступ к этой и другим темам.
Скрытое содержимое. Вам нужно войти или зарегистрироваться.