[“Сегодня утром я писал о частоте использования имён у пап и королей. Это включало сортировку строк с римскими цифрами, так как у понтификов и монархов часто после имени стоит номер в римской записи.
🔍 Удивительно, что алфавитная сортировка римских цифр частично совпадает с числовым порядком, особенно для малых чисел! Например, IX в алфавитном порядке стоит перед V, хотя численно 9 > 5.
📊 Все, кто работал с данными, сталкивались с проблемой: числа в столбце сортируются как строки (например, «10» между «1» и «2»). Римские цифры тоже нельзя сортировать как строки и ожидать числового порядка. Но для малых значений (I–XXIII у пап Иоаннов или I–VIII у королей Генрихов) разница почти незаметна.
Я построил график, показывающий корреляцию между порядком строк и числовым порядком для римских и арабских цифр (от 1 до n). Использовал ранговую корреляцию Спирмена и тау Кендалла — результаты схожи.
📉 Римские цифры до XXXVIII почти совпадают с числовым порядком, кроме IX, XIX, XXIX. А арабские цифры резко «ломаются» из-за последовательности 10–19 перед 2. С ростом n расхождение усиливается, особенно для римской записи.
🌍 Пост «Сортировка римских цифр» впервые опубликован на сайте John D. Cook.”]