topK
topK
Впервые представлен в: v1.1
Возвращает массив приблизительно наиболее часто встречающихся значений в указанном столбце. Полученный массив отсортирован по убыванию приблизительной частоты значений (не по самим значениям).
Реализует алгоритм Filtered Space-Saving для анализа TopK, основанный на алгоритме reduce-and-combine из Parallel Space Saving.
Эта функция не гарантирует точный результат. В некоторых ситуациях возможны погрешности, и она может вернуть часто встречающиеся значения, которые не являются наиболее частыми.
См. также
Синтаксис
Параметры
N— Количество возвращаемых элементов. Значение по умолчанию: 10. Максимальное значениеN = 65536.UInt64load_factor— Необязательный параметр. Определяет, сколько ячеек резервируется под значения. Еслиuniq(column) > N * load_factor, результат функции topK будет приблизительным. Значение по умолчанию: 3.UInt64counts— Необязательный параметр. Определяет, должен ли результат содержать приблизительное количество и величину погрешности.Bool
Аргументы
column— Имя столбца, для которого нужно найти наиболее часто встречающиеся значения.String
Возвращаемое значение
Возвращает массив приблизительно наиболее часто встречающихся значений, отсортированных в порядке убывания приблизительной частоты. Array
Примеры
Пример использования
См. также