Перейти к основному содержанию

detectCharset

Добавленный в: v22.2.0 Определяет кодировку входной строки, если она закодирована не в UTF-8.
Эта функция экспериментальная и в будущих релизах может измениться непредсказуемым образом, в том числе с нарушением обратной совместимости. Установите allow_experimental_nlp_functions = 1, чтобы включить её.
Синтаксис
detectCharset(s)
Аргументы
  • s — Текст для анализа. String
Возвращаемое значение Возвращает строку с кодом обнаруженной кодировки символов String Примеры Базовое использование
Query
SELECT detectCharset('Ich bleibe für ein paar Tage.')
Response
WINDOWS-1252

detectLanguage

Добавленный в: v22.2.0 Определяет язык входной строки в кодировке UTF-8. Для определения функция использует библиотеку CLD2 и возвращает двухбуквенный код языка по ISO. Чем длиннее входная строка, тем точнее определяется язык.
Эта функция является экспериментальной и в будущих релизах может изменяться непредсказуемым образом, в том числе с нарушением обратной совместимости. Установите allow_experimental_nlp_functions = 1, чтобы включить её.
Синтаксис
detectLanguage(s)
Аргументы
  • text_to_be_analyzed — Текст для анализа. String
Возвращаемое значение Возвращает двухбуквенный ISO-код определённого языка. Другие возможные результаты: un = неизвестно, язык определить не удалось; other = у определённого языка нет двухбуквенного кода. String Примеры Текст со смешением языков
Query
SELECT detectLanguage('Je pense que je ne parviendrai jamais à parler français comme un natif. Where there\'s a will, there\'s a way.')
Response
fr

detectLanguageMixed

Добавленный в: v22.2.0 Подобно функции detectLanguage, detectLanguageMixed возвращает Map с двухбуквенными кодами языков, которым сопоставлена процентная доля соответствующего языка в тексте.
Эта функция является экспериментальной и в будущих релизах может измениться непредсказуемым и обратно несовместимым образом. Чтобы включить её, установите allow_experimental_nlp_functions = 1.
Синтаксис
detectLanguageMixed(s)
Аргументы
  • s — Текст для анализа String
Возвращаемое значение Возвращает Map, где ключи — двухбуквенные ISO-коды, а соответствующие значения — доля текста, определённого как данный язык Map(String, Float32) Примеры Смешанные языки
Query
SELECT detectLanguageMixed('二兎を追う者は一兎をも得ず二兎を追う者は一兎をも得ず A vaincre sans peril, on triomphe sans gloire.')
Response
{'ja':0.62,'fr':0.36}

detectLanguageUnknown

Добавленный в: v22.2.0 Подобно функции detectLanguage, функция detectLanguageUnknown работает со строками, закодированными не в UTF-8. Используйте эту версию, если ваша кодировка — UTF-16 или UTF-32.
Эта функция экспериментальная и в будущих релизах может изменяться непредсказуемым образом, в том числе с нарушением обратной совместимости. Чтобы включить её, установите allow_experimental_nlp_functions = 1.
Синтаксис
detectLanguageUnknown('s')
Аргументы
  • s — Текст для анализа. String
Возвращаемое значение Возвращает двухбуквенный ISO-код определённого языка. Другие возможные результаты: un = неизвестно, язык определить не удалось; other = у определённого языка нет двухбуквенного кода. String Примеры Базовое использование
Query
SELECT detectLanguageUnknown('Ich bleibe für ein paar Tage.')
Response
de

detectTonality

Добавленный в: v22.2.0 Определяет тональность переданных текстовых данных.
ОграничениеТекущая версия этой функции ограничена тем, что использует встроенный словарь эмоциональной окраски и работает только с русским языком.
Эта функция является экспериментальной и в будущих версиях может измениться непредсказуемым образом с нарушением обратной совместимости. Установите allow_experimental_nlp_functions = 1, чтобы включить её.
Синтаксис
detectTonality(s)
Аргументы
  • s — Текст для анализа. String
Возвращаемое значение Возвращает среднее значение тональности слов в тексте Float32 Примеры Анализ тональности текста на русском языке
Query
SELECT
    detectTonality('Шарик - хороший пёс'),
    detectTonality('Шарик - пёс'),
    detectTonality('Шарик - плохой пёс')
Response
0.44445, 0, -0.3

lemmatize

Добавленный в: v21.9.0 Выполняет лемматизацию указанного слова. Для работы этой функции требуются словари, которые можно получить на github. Подробнее о загрузке словаря из локального файла см. на странице “Определение словарей”.
Эта функция является экспериментальной и в будущих релизах может измениться непредсказуемым и обратно несовместимым образом. Установите allow_experimental_nlp_functions = 1, чтобы включить её.
Синтаксис
lemmatize(lang, word)
Аргументы
  • lang — Язык, правила которого будут применяться. String
  • word — Слово в нижнем регистре, которое нужно лемматизировать. String
Возвращаемое значение Лемматизированная форма слова String Примеры Лемматизация английских слов
Query
SELECT lemmatize('en', 'wolves')
Response
wolf

stem

Добавленный в: v21.9.0 Выполняет стемминг слова или массива слов с помощью алгоритмов Snowball. Каждая входная строка должна состоять из одного слова в нижнем регистре — строки, содержащие пробельные символы, вызывают исключение. Передача символов в верхнем регистре приводит к неопределённым результатам. Для скалярных входных данных (включая FixedString) возвращает String, а для входных массивов — Array(String). Поддерживаются варианты Nullable и LowCardinality для типов String и FixedString. Синтаксис
stem(word, language)
Аргументы
  • word — Одно слово в нижнем регистре (или массив слов) для стемминга. Должно быть в нижнем регистре — символы в верхнем регистре приводят к неопределённому результату. Принимает String, FixedString, Array(String), Array(FixedString), Array(Nullable(String)) или Array(Nullable(FixedString)). String или FixedString или Array(String) или Array(FixedString)
  • language — Язык, для которого будут применяться правила стемминга. Используйте двухбуквенный код ISO 639-1 (например, ‘en’, ‘de’, ‘fr’), см. https://en.wikipedia.org/wiki/List_of_ISO_639_language_codes. String
Возвращаемое значение Форма основы слова (String) или массив основ слов (Array(String)). String или Array(String) Примеры Стемминг одного слова
Query
SELECT stem('blessing', 'en') AS res
Response
bless
Стемминг для массива слов
Query
SELECT stem(['blessing', 'disguise'], 'en') AS res
Response
['bless','disguis']
Стемминг для FixedString
Query
SELECT stem(toFixedString('blessing', 10), 'en') AS res
Response
bless
Стемминг слова типа Nullable
Query
SELECT stem(toNullable('blessing'), 'en') AS res
Response
bless

synonyms

Добавленный в: v21.9.0 Находит синонимы заданного слова. Есть два типа расширений синонимов:
  • plain
  • wordnet
Для типа расширения plain необходимо указать путь к обычному текстовому файлу, где каждая строка соответствует определённому набору синонимов. Слова в строке должны быть разделены пробелами или символами табуляции. Для типа расширения wordnet необходимо указать путь к каталогу, содержащему тезаурус WordNet. Тезаурус должен содержать индекс смыслов WordNet.
Эта функция экспериментальная и в будущих версиях может измениться непредсказуемым образом, в том числе с нарушением обратной совместимости. Чтобы включить её, установите allow_experimental_nlp_functions = 1.
Синтаксис
synonyms(ext_name, word)
Аргументы
  • ext_name — Имя расширения, в котором будет выполняться поиск. String
  • word — Слово, для которого будет выполняться поиск в расширении. String
Возвращаемое значение Возвращает массив синонимов для указанного слова. Array(String) Примеры Поиск синонимов
Query
SELECT synonyms('list', 'important')
Response
['important','big','critical','crucial']
Последнее изменение 10 июня 2026 г.