10 утилит командной строки для анализа данных в Linux - 11 Сентября 2017

IT News: Digital Camera, OS, Laptop, Smartphone, Smart TV, Sound...

The Author's Project by Valeri N.Kravchuk

Четверг, 17.07.2025, 07:04

Приветствую Вас Гость | RSS

Главная | Регистрация | Вход

Меню сайта
	Главная страница Информация о сайте Дневник Каталог файлов Обратная связь Каталог сайтов FAQ Доска объявлений Форум Фотоальбом

Категории раздела

Автомобильные гаджеты, ремонт... [149]

Безопасность IT [29]

Блоки питания, Power Banks, зарядки... [323]

Видеорегистраторы [129]

Гаджеты для спорта и здоровья... [141]

Гаджеты, аксессуары... [209]

Для туризма, охоты, рыбалки... [20]

Измерительная техника, инструменты [490]

Накопители данных [173]

Нетбуки, Ноутбуки, Ультрабуки [461]

Мультиварки, блендеры и не только... [175]

Планшеты [387]

Радар-детекторы [18]

Роботы-пылесосы [28]

Своими руками [271]

Сети, сетевые технологии, оборудование... [198]

Смартфоны [4635]

Фотокамеры, объективы, искусство фотографии.. [562]

Умный дом [72]

Электронные книги [107]

CB, LPD, PMR- связь... [123]

DECT, IP-телефоны [15]

Drones, boats, cars... [91]

electric cars [28]

GPS-навигаторы, трекеры... [49]

Linux и не только [3890]

mini computers и не только... [275]

News IT, Это интересно, ликбез... [201]

Smart TV, UltraHD, приставки, проекторы... [225]

Smart Watch [150]

Sound: наушники, плееры, усилители... [391]

Windows 10... [301]

Windows 11 [37]

Погода
	Метеорадар БРЕСТ Погода в Бресте от www.yr.no

Интересные ссылки

COMPIZOMANIA

Наш опрос
	Оцените мой сайт Отлично Хорошо Неплохо Плохо Ужасно Результаты \| Архив опросов Всего ответов: 1350

Статистика
	Онлайн всего: 1 Гостей: 1 Пользователей: 0

Загрузить инструкцию

Форма входа

Главная » » 10 утилит командной строки для анализа данных в Linux

17:32

10 утилит командной строки для анализа данных в Linux

Оригинал: 10 command-line tools for data analysis in Linux
Автор: Jason Baker
Дата публикации: 23 февраля 2017 года
Перевод: А. Кривошей
Дата перевода: август 2017 г.

Многие люди, привыкшие работать в графическом окружении, для задач, связанных с анализом данным по умолчанию используют электронные таблицы, но есть и другой способ, который может оказаться более быстрым и эффективным. И вам не нужно для этого быть экспертом в языке статистического моделирования или инструментах для работы с большими объемами данных.

Я говорю о командной строке Linux. Просто используя утилиты, которые скорее всего уже установлены в вашей системе, вы можете многое узнать о своем наборе данных, не покидая терминала. Опытные пользователи Linux, конечно, только рассмеются - они уже многие годы используют большинство этих утилит для анализа логов и работы с конфигурационными файлами. Но для новичка откровение о том, что у вас уже есть под рукой целый набор инструментов для анализа данных, может стать приятным сюрпризом.

Строго говоря, большинство этих инструментов не относится именно к Linux. Большинство из них восходит к временам становления Unix, поэтому пользователи других Unix-систем также уже скорее всего обладают ними, или легко могут их установить. Многие из этих утилит являются частью пакета GNU Coreutils, некоторые поддерживаются обособленно, и приложив определенные усилия, вы сможете пользоваться ими даже в Windows.

Так что давайте попробуем несколько простых утилит для анализа данных с открытым исходным кодом, и посмотрим, как они работают. Если вы захотите повторить то, что мы будем делать в примерах, скачайте этот файл с данными в формате CSV (comma separated value) с GitHub. Он представляет собой список статей, опубликованных на Opensource.com в январе.

head и tail

Для начала давайте посмотрим на наш файл. Что он собой представляет? на что похож формат данных? Вы можете вывести содержимое файла в терминал с помощью команды cat, но если ваш файл содержит достаточно большое количество строк, это вам вряд ли поможет.
Используйте head и tail. Обе эти утилиты показывают заданное количество строк в начале и в конце файла. Если вы не зададите количество выводимых строк, по умолчанию оно равно 10. Давайте посмотрим на наш файл.

$ tail -n 3 jan2017articles.csv 02 Jan 2017,Article,Scott Nesbitt,3 tips for effectively using wikis for documentation,1,/article/17/1/tips-using-wiki-documentation,"Documentation, Wiki",710 02 Jan 2017,Article,Jen Wike Huger,The Opensource.com preview for January,0,/article/17/1/editorial-preview-january,,358 02 Jan 2017,Poll,Jason Baker,What is your open source New Year's resolution?,1,/poll/17/1/what-your-open-source-new-years-resolution,,186

Посмотрев на эти три последние строки, я сразу могу выделить здесь дату, имя автора, заголовок и еще несколько порций информации. Но я не могу определить значение каждого столбца. Давайте посмотрим на начало файла, может быть там мы найдем заголовки столбцов:

$ head -n 1 jan2017articles.csv 
Post date,Content type,Author,Title,Comment count,Path,Tags,Word count

Отлично, теперь все стало на свои места. У нас имеется список статей с датой их публикации, типом контента для каждой, именем автора, заголовком, количеством комментариев, относительным URL, тегами для каждой статьи и количеством слов.

wc

Все это прекрасно, но каков размер файла? Говорим мы об анализе нескольких десятков статей, сотен, или может быть тысяч? Здесь нам может помочь команда wc - сокращение "word count", которая может посчитать количество байтов, символов, слов или строк в файле. В нашем случае мы хотим знать количество строк.

$ wc -l jan2017articles.csv 
93 jan2017articles.csv

Итак, в нашем файле 93 строки. Так как мы знаем, что первая строка - это заголовки, мы можем сказать, что это список из 92 статей.

grep

Хорошо, теперь давайте спросим себя: сколько из этих 92 статей посвящены безопасности? Для наших целей давайте считать, что нас интересует слово "security" в заголовках, тегах и в любом другом месте. В поиске нам поможет утилита grep. Она может искать заданный паттерн из символов. grep - очень мощная утилита, с помощью регулярных выражений вы можете построить самые разные паттерны. Но сейчас нам нужно найти очень простую строку.

$ grep -i "security" jan2017articles.csv 30 Jan 2017,Article,Tiberius Hefflin,4 ways to improve your security online right now,3,/article/17/1/4-ways-improve-your-online-security,Security and encryption,1242 28 Jan 2017,Article,Subhashish Panigrahi,How communities in India support privacy and software freedom,0,/article/17/1/how-communities-india-support-privacy-software-freedom,Security and encryption,453 27 Jan 2017,Article,Alan Smithee,Data Privacy Day 2017: Solutions for everyday privacy,5,/article/17/1/every-day-privacy,"Big data, Security and encryption",1424 04 Jan 2017,Article,Daniel J Walsh,50 ways to avoid getting hacked in 2017,14,/article/17/1/yearbook-50-ways-avoid-getting-hacked,"Yearbook, 2016 Open Source Yearbook, Security and encryption, Containers, Docker, Linux",2143

После команды grep следует флаг "-i", который говорит о том, что регистр букв при поиске не учитывается, затем следует паттерн, который мы ищем, и затем файл, в котором производится поиск. Похоже, что за последний месяц у нас было четыре статьи, посвященные безопасности. Но давайте представим, что у нас огромный список статей по безопасности, и подсчитать их не так то просто. Комбинируя команды grep и wc с помощью канала, мы получим количество статей по безопасности.

$ grep -i "security" jan2017articles.csv | wc -l

В этом случае вывод команды grep перенаправляется на ввод команды wc, и нам нет необходимости сохранять промежуточные результаты.

tr

CSV - это очень полезный формат файла для многих сценариев анализа данных, но что, если вам нужно конвертировать файл в другой формат для использования в стороннем приложении? Возможно вам понадобятся разделители tab вместо запятых, или вы захотите заменить их на HTML, чтобы выводить данные в табличном формате. Как и в других примерах, вы можете использовать каналы для перенаправления ввода и вывода этой команды.

Давайте попробуем другой файл, создав файл формата TSV (значения, разделенные табуляцией) только со статьями, которые были опубликованы 20 января.

$ grep "20 Jan 2017" jan2017articles.csv | tr ',' '\t' > jan20only.tsv

Что здесь происходит? Сначала мы искали нужную нам дату с помощью grep. Вывод мы перенаправили в команду tr, используемую для замены запятых на табуляцию (задается ключем '\t'). Символ > перенаправляет вывод в новый файл вместо экрана. Вся эта последовательность действий задается одной строкой команд. Затем мы можем проверить, содержит ли файл jan20only.tsv ожидаемые данные.

$ cat jan20only.tsv 20 Jan 2017 Article Kushal Das 5 ways to expand your project's contributor base 2 /article/17/1/expand-project-contributor-base Getting started 690 20 Jan 2017 Article D Ruth Bavousett How to write web apps in R with Shiny 2 /article/17/1/writing-new-web-apps-shiny Web development 218 20 Jan 2017 Article Jason Baker "Top 5: Shell scripting the Cinnamon Linux desktop environment and more" 0 /article/17/1/top-5-january-20 Top 5 214 20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007sort

sort

Что, если мы захотим узнать больше деталей об одном из столбцов? Какая из статей в нашем новом списке самая большая? Давайте поработаем над нашим последним примером. Теперь, когда у нас есть список статей только от 20 января, мы можем отсортировать их по столбцу количества слов с помощью команды sort. Конечно, здесь нам тоже не понадобится промежуточный файл, вместо этого мы можем перенаправить вывод последней команды. Но на практике иногда проще разбивать сложные задачи на более простые части, чем строить длинные и запутанные цепочки команд.

$ sort -nr -t$'\t' -k8 jan20only.tsv | head -n 1 20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007

Это еще один сложный пример, давайте разберемся, что здесь происходит. Сначала мы используем команду sort для сортировки статей по количеству строк. Опция -nr указывает на числовую сортировку и вывод результатов в обратном порядке (от наибольшего значения к наименьшему). Следующая опция -t$'\t' говорит команде sort о том, что разделителем является tab ('\t'). Секция -k8 команды указывает, что нужно использовать восьмой столбец, в котором в нашем примере хранится количество слов.
Наконец вывод передается с инструкцией показать только верхнюю строчку, которая в нашем случае представляет строку с наибольшим количеством слов.

sed

Вам может понадобиться выбрать из файла заданные строки. Это можно сделать с помощью команды sed (сокращение от stream editor). Что, если вы хотите объединить несколько файлов, все с заголовками? Вам нужен только один набор заголовков, поэтому остальные необходимо будет очистить. Или вам нужен только определенный диапазон строк. Здесь нам также поможет sed. С его помощью также удобно производить пакетный поиск и замену.

Давайте создадим новый файл из нашего списка статей без заголовков, который будет пригоден для объединения с другими файлами (если, например, у меня отдельные файлы для каждого месяца, и я хочу объединить их).

$ sed '1 d' jan2017articles.csv > jan17no_headers.csv

Опция '1 d' означает удаление первой строки. sed - очень мощная утилита, и я рекомендую изучить его возможности по поиску и замене элементов.

cut

Допустим, вместо удаления строки я хочу удалить столбец. Или выбрать только один столбец. Давайте создадим новый список авторов для нашего примера.

$ cut -d',' -f3 jan17no_headers.csv > authors.txt

В этом примере мы с помощью опции -d',' сообщаем cut, что разделителями в файле являются запятые, нам нужен третий столбец (-f3), а вывод мы перенаправляем в новый файл authors.txt.

uniq

Выполнив последний пример, мы получили список авторов, но сколько в этом списке уникальных авторов? Сколько статей написал каждый автор? На эти опросы вы сможете ответить с помощью команды uniq. Давайте отсортируем файл, найдем уникальные значения и направим вывод в файл, содержащий количества статей, написанных каждым автором.

sort authors.txt | uniq -c > authors-sorted.txt

Теперь мы можем увидеть количество статей, написанное каждым автором. Давайте просмотрим только три последние строки:

$ tail -n3 authors-sorted.txt
 1 Tracy Miranda
 1 Veer Muchandi
 3 VM (Vicky) Brasseurawk

awk

Давайте рассмотрим еще один инструмент командной строки в нашем наборе для анализа данных - awk. Это один из тех случаев, когда я не слишком много смогу рассказать о его возможностях, поскольку мощь awk просто огромная, и он заслуживает отдельного рассмотрения. Это еще один отличный инструмент для замены, который может много чего сверх этого. Вернемся к нашему TSV-файлу, в котором мы ранее собрали статьи от 20 января, и используем его для создания нового списка, в котором будуь только авторы этих статей, а также количества слов, написанных каждым автором.

$ awk -F "\t" '{print $3 " " $NF}' jan20only.tsv
Kushal Das 690
D Ruth Bavousett 218
Jason Baker 214
Tracy Miranda 1007

Что здесь происходит? С помощью опции -F "\t" мы указываем awk, что работаем с данными, разделенными табуляцией. В фигурных скобках задается выполнение небольшого кусочка кода. Печатается третий столбец ($3), а затем последний столбец с $NF (количество полей - "number of fields") с двумя пробелами между ними для улучшения читаемости.

Что дальше? Разве мы не можем сделать все это еще быстрее в электронной таблице, или просто просмотреть содержимое файла в некоторых случаях? Конечно можем! А теперь представьте, что ваш файл содержит не 93, а 93000 строк, или даже больше. Сможет ваша электронная таблица загрузить его без зависаний или значительного замедления работы? Или представьте, что вместо одного файла с данными по статьям за один месяц, у вас отдельный файл по каждому месяцу за последние семь лет. В таких случаях внезапно электронные таблицы перестают быть лучшими инструментами для обработки данных, но вы все еще не достигли уровня, где требуются инструменты для работы с big data.

Вы можете выбрать вариант загрузки файлов в базу данных, чтобы далее работать с ней. Но будет ли это правильным выбором? Такой вариант может быть излишним. Что если вы просто изучаете данные, чтобы понять, что они содержат? С помощью этих простых утилит и небольших скриптов для рекурсивного обхода директорий вы легко можете работать с большими объемами данных. Профессионалы и любители, регулярно работающие с данными, могли бы потратить некоторое время на изучение этих и других утилит командной строки для анализа данных.

Данное введение затрагивает только основные функции каждой из этих утилит. Они имеют намного большие возможности, чем мы могли показать в наших простых примерах, поэтому о большинстве описанных здесь программ написаны целые тома. Надеюсь, что вы потратите время на чтение man-страниц, немного поищете информацию в интернете, может быть раздобудете какую-либо книгу, чтобы узнать больше об этом интересном наборе инструментов, которые у вас под рукой.

Примечание: Приведенные выше описания команд очень краткие. Между тем на нашем сайте вы легко найдете более полное описание любой из перечисленных выше команд, просто задав в поле "Поиск по сайту" (это поле находится в верхней части любой страницы, сразу под логотипом) название команды, например: "grep" (замените имя команды на нужное).

http://rus-linux.net/MyLDP/consol/command-line-tools-for-data-analysis.html

Категория: Linux и не только | Просмотров: 405 | Добавил: laptop | Рейтинг: 0.0/0

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Волк слабее льва и тигра, но в цирке волк не выступает!

Волк - единственный из зверей, который может пойти в бой на более сильного противника.
Если же он проиграл бой, то до последнего вздоха смотрит в глаза противника. После этого умирает...

Поиск

Календарь

Архив записей
	2013 Август 2013 Сентябрь 2013 Октябрь 2013 Ноябрь 2013 Декабрь 2014 Январь 2014 Февраль 2014 Март 2014 Апрель 2014 Май 2014 Июнь 2014 Июль 2014 Август 2014 Сентябрь 2014 Октябрь 2014 Ноябрь 2014 Декабрь 2015 Январь 2015 Февраль 2015 Март 2015 Апрель 2015 Май 2015 Июнь 2015 Июль 2015 Август 2015 Сентябрь 2015 Октябрь 2015 Ноябрь 2015 Декабрь 2016 Январь 2016 Февраль 2016 Март 2016 Апрель 2016 Май 2016 Июнь 2016 Июль 2016 Август 2016 Сентябрь 2016 Октябрь 2016 Ноябрь 2016 Декабрь 2017 Январь 2017 Февраль 2017 Март 2017 Апрель 2017 Май 2017 Июнь 2017 Июль 2017 Август 2017 Сентябрь 2017 Октябрь 2017 Ноябрь 2017 Декабрь 2018 Январь 2018 Февраль 2018 Март 2018 Апрель 2018 Май 2018 Июнь 2018 Июль 2018 Август 2018 Сентябрь 2018 Октябрь 2018 Ноябрь 2018 Декабрь 2019 Январь 2019 Февраль 2019 Март 2019 Апрель 2019 Май 2019 Июнь 2019 Июль 2019 Август 2019 Сентябрь 2019 Октябрь 2019 Ноябрь 2019 Декабрь 2020 Январь 2020 Февраль 2020 Март 2020 Апрель 2020 Май 2020 Июнь 2020 Июль 2020 Август 2020 Сентябрь 2020 Октябрь 2020 Ноябрь 2020 Декабрь 2021 Январь 2021 Февраль 2021 Март 2021 Апрель 2021 Май 2021 Июнь 2021 Июль 2021 Август 2021 Сентябрь 2021 Ноябрь 2021 Декабрь 2022 Январь 2022 Февраль 2022 Март 2022 Апрель 2022 Май 2022 Июнь 2022 Июль 2022 Август 2022 Сентябрь 2022 Октябрь 2022 Ноябрь 2022 Декабрь 2023 Январь 2023 Февраль 2023 Март 2023 Апрель 2023 Май 2023 Июнь 2023 Июль 2023 Август 2023 Сентябрь 2023 Октябрь 2023 Декабрь 2024 Январь 2024 Февраль 2024 Март 2024 Апрель 2024 Июнь 2024 Июль 2024 Август 2024 Сентябрь 2024 Октябрь 2024 Ноябрь 2024 Декабрь 2025 Январь 2025 Февраль 2025 Март 2025 Апрель 2025 Май 2025 Июнь 2025 Июль

Друзья сайта
	Официальный блог

Наша кнопка
	`<a href="//laptop.ucoz.ru/" target="_top"><img src="//laptop.ucoz.ru/laptop.png" height="31" width="88" alt="IT новости с моего лаптопа..." title="IT новости с моего лаптопа..." border="0"></a>`

Внимание!
	Администратор сайта laptop.ucoz.ru не несет ответственности за содержание рекламных объявлений. Все используемые на сайте зарегистрированные товарные знаки принадлежат своим законным владельцам! Используемая со сторонних источников информация публикуется с обязательными ссылками на эти источники.


	Copyright Valeri N.Kravchuk © 2007-2025