суббота, 20 сентября 2014 г.

О самоучителе "Система программирования R"

О самоучителе

Этот самоучитель для тех, кто хочет научиться решать свои задачи, используя для этого компьютер, а конкретно систему программирования R.

Система программирования R это язык программирования R плюс набор программ с помощью которых мы будем писать код и проводить исследования. Однако система не ограничивается этим - система это ещё и соответствующее знание, приобрести которое, можно, проработав самоучитель.

Самоучитель рекомендуется читать с начала, последовательно, пост за постом, пробовать приведённые в постах примеры, на своей машине, изменять их, писать свой код, тогда вы сможете понять о чём идёт речь ;)

Посты самоучителя это не пересказ доступных источников и не попытка описать все возможности системы программирования R, а попытка передать саму суть, главный смысл, лежащий в основе. Поняв основу, можно будет легко разобраться в деталях уже самому, так как появятся базовые знания.

Одна из целей самоучителя дать всю информацию в максимально полезной для практики форме, т.е. нацеленность на практику. Отличие практика от теоретика можно увидеть на следующем рисунке:

Авторские права

Весь текст учебника является собственностью автора. Он защищён лицензией Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License. Понятным языком условия этой лицензии описаны на английском здесь.

Некоторые картинки (рисунки) были созданы автором самоучителя, некоторые брались из разных источников. В большинстве случаев автора картинки, установить не удавалось, так как картинки, размещённые на одном сайте, репостятся на других сайтах. Если вы являетесь автором, просьба об этом написать в комментариях к соответствующему посту.

Creative Commons License
Учебник по R is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License

вторник, 5 августа 2014 г.

Работа с пакетами

Установка и подключение пакета для использования

Чтобы начать пользоваться пакетом нужно выполнить два шага:
  1. Установить пакет с помощью функции install.packages
  2. Подключить пакет с помощью функции library
Рассмотрим как это делается на примере пакета ggplot2, который предоставляет функции для работы c графиками.

Шаг 1. Установка пакета

При установке пакета, система вначале скачивает пакет, потом устанавливает. Установим пакет ggplot2:
install.packages("ggplot2")
После запуска этой команды система установит не только ggplot2, но и все пакеты от которых он зависит.

Шаг 2. Подключение пакета

Мы узнали как скачать пакет, но как теперь его подключить, ведь без этого не будет возможным воспользоваться ни одной функцией пакета? Это можно сделать с помощью функции library:
library(имя_пакета)
Пример подключения пакета ggplot и использования его функции qplot:
> library(ggplot2)
# Убедимся, что теперь мы можем вызывать функции пакета
> qplot(carat, price, data = diamonds)

Установка пакета с определённого репозитория

Иногда бывает нужно установить пакет с определённого репозитория. Это можно сделать с помощью всё той же функции - install.packages, только вторым аргументом нужно передать адрес (URI) репозитория:
install.packages(name, repos = uri)
Пример:
install.packages("rattle", repos = "http://rattle.togaware.com")

Получение списка функций пакета

После подключения пакета с помощью функции library, становятся доступными все функции, пакетом предоставляемые. Получить список функций по пакету можно так:
ls(paste0("package:", "имя_пакета"), all.names = TRUE)
ещё один способ:
library(help = "имя_пакета")

Получение справки, которая идёт с пакетом

Мы упоминали, что пакет может идти с сопроводительной документацией (справкой), получить её можно так:
help(package = "имя_пакета")

Удаление пакета

Удалить пакет можно так:
remove.packages("имя_пакета")

Получение списка пакетов

Каждый из пакетов может быть:
  1. не установлен - пакет не был установлен с помощью функции install.packages (об этой функции ниже). Получить список таких пакетов можно следующей командой:
    setdiff(row.names(available.packages()), .packages(all.available = TRUE))
    
  2. установлен, но не подключён - пакет был установлен с помощью функции install.packages, но не подключён с помощью функции library (об этой функции ниже). Получить список таких пакетов можно следующей командой:
    setdiff(.packages(all.available = TRUE), (.packages()))
    
  3. установлен и подключён - пакет был установлен с помощью функции install.packages и подключён с помощью функции library. Получить список таких пакетов можно следующей командой:
    (.packages())
    
На следующем рисунке, с помощью кругов Эйлера, показаны отношения между множествами пакетов:

Обновление всех пакетов

С течением времени авторы выкладывают в репозиторий новые версии пакетов. Таким образом получается, что текущие пакеты с течением времени могут устаревать. Обновить все устаревшие пакеты, для которых есть более свежие версии можно так:
update.packages()

Перед обновлением можно проверить, для каких пакетов доступны обновления:
old.packages()

Обновление одного пакета

???

Получение зависимостей пакета

Зависимости пакета можно узнать так:
  1. Зайти на страницу со списком пакетов, отсортированных по имени.
  2. Нажать в браузере Ctrl+F и найти пакет по имени (в данном случае ggplot2).
  3. Перейти по ссылке на страницу проекта и найти с помощью Ctrl+F напротив слова Depends зависимые пакеты, см. рис.:
Можно сделать тоже самое программно:
available.packages()["ggplot2", "Depends"]
[1] "R (>= 2.14), stats, methods"
И тот и другой вариант поиска зависимостей не даёт полный список зависимостей - для каждого пакета от которого зависит текущий нужно искать зависимости.

Поиск пакета

На сайте CRAN можно найти страницу с классификацией пакетов по задачам - CRAN Task Views.

четверг, 17 октября 2013 г.

Интеллект-карты. Установка XMind

В предыдущих постах мы уже использовали интеллект-карты. В этом посте мы рассмотрим чуть подробнее что это такое и как установить программу для создания интеллект-карт.

Что такое интеллект-карты?

Интеллект-карты (по англ. mind map) это способ визуализировать мысли, идеи. С помощью интеллект карт можно раскладывать любую проблему на составляющие (полезно помнить о принципе "Разделяй и влавствуй" - разбиение задачи выполняется до тех пор, пока все подзадачи не окажутся элементарными). Кроме этого, интеллект-карты можно использовать как планировщик, можно проводить мозговой штурм, выделять закономерности и т. д. Интеллект-карты просто нужны при обработке данных.

В состав RStudio не входит программы для работы с интеллект-картами, поэтому для этого нужно установить отдельную программу - XMind. Вот пример её интерфейса (скриншот был найден где-то в Сети):
Есть бесплатная и платная версия программы для разных ОС. Мы будем пользоваться бесплатной Portable версию, которую можно скачать отсюда. Архив содержит версии для Windows, Linux и Mac OS X.

Пример установки XMind в Windows

После скачки распакуем её в D:\Soft\XMind. В Windows для запуска XMind можно использовать вот такой файл xmind.bat:
@echo off
set cur_dir=%CD%
chdir /d D:\мой-путь\XMind\XMind_Windows\
start /b xmind.exe %*
chdir /d %cur_dir%

Пример установки XMind в Linux

Нужно распаковать архив в папку для программ, например в /opt/xmind. Для работы нужны только директории Commons, XMind_Linux_64bit (или XMind_Linux если ОС 32-разрядная), остальные можно удалить. Для запуска можно создать файл /usr/local/bin/xmind (/usr/local/bin должен быть в $PATH) и сделать его исполняемым:
echo "(cd /opt/xmind/XMind_Linux_64bit && ./XMind)" > /usr/local/bin/xmind && chmod +x /usr/local/bin/xmind

суббота, 12 октября 2013 г.

Сочетания клавиш RStudio

Ниже приведён краткий список основных клавиш, полный список можно найти в меню Help -> Keyboard Shortcuts.

Переход между панелями

  • Ctrl+1 - перейти в панель редактор кода
  • Ctrl+2 - перейти в панель консоли

Клавиши для панели консоли

  • после нескольких символов нажать Tab - дополнить текущую команду.
  • - вывести предыдущую команду в истории команд
  • - вывести следующую команду в истории команд
  • Ctrl+ - показать историю команд в всплывающем окне.
  • Ctrl+L - очистить консоль.
  • Ctrl+U - удалить все символы перед курсором.
  • Ctrl+K - удалить все символы после курсора.
  • Сtrl+D или Esc - удалить текущую строку.
  • Ctrl+ - перейти к предыдущему слову
  • Ctrl+ - перейти к следующему слову
Удерживая Shift, можно выделять текст с помощью стрелок и клавиш Home и End.

Клавиши для панели редактора кода

  • Ctrl+S - сохранить текущий файл.
  • Ctrl+Shift+S - выполнить текущий код из редактора кода (эта комбинация действует и в других панелях).
  • Alt+Enter - выполнить текущую строку без перемещения курсора.

суббота, 5 октября 2013 г.

Знакомство с интерфейсом RStudio

Интерфейс RStudio

Окно RStudio разделено на 4 панели, у двух из этих панелей, есть вкладки, а именно у вспомогательных панелей, у всех панелей в правом верхнем углу есть по две кнопки сворачивания/разворачивания панели, следующий рисунок должен пояснить это:

Расположение панелей можно менять, можно перемещать вкладки между вспомогательными панелями, это через главное меню Tools -> Global Options -> Pane Layout.

Рассмотрим коротко назначение каждой из панелей.

Панель консоли (Console)

В панели консоли можно давать команды и сразу получать результат. Такой стиль работы называется работа в интерактивном режиме. Режим интерактивен потому, что происходит как бы диалог пользователя с системой R.

Панель редактора кода

В панели редактора кода можно вводить целые программы, работа здесь не особо отличается от работы в обычном текстовом редакторе. Можно в консоли пробовать куски кода и потом переносить в редактор. Можно наоборот фрагменты кода из редактора пробовать проиграть в консоли.

Вспомогательная панель 1

Здесь можно наблюдать за значениями переменных. Что такое переменные и как работать с этой панель мы рассмотрим позже.

Вспомогательная панель 2

Здесь можно работать с папками и файлами, справкой, графиками и пакетами. Обо всём этом мы узнаем подробнее позже.

пятница, 4 октября 2013 г.

Установка и первый запуск R

Программы на R пишутся в специальном, заточенном под программирование, редакторе, который обладает бОльшими, чем обычный редактор, возможностями. Вообще такие навороченные редакторы называются по англ. IDE (Integrated Development Environment), а по-русски просто средой, или более полно - средой программирования. Мы будем использовать в качестве IDE RStudio - её нужно будет скачать и установить. Кроме RStudio нужно будет скачать и установить саму программу R. Итого нам нужно установить:
  1. RStudio
  2. R
Ниже рассмотрим как это сделать в разных ОС. Хотя версии в примерах устарели, алгоритм установки не изменился: нужно просто использовать последние номера-версии.

Установка в Windows

Рассмотрим шаги по установке среды R (RStudio + R):
  1. Скачать RStudio (на момент написания это версия 0.97.551).
  2. Скачать R (на момент написания это Portable версия 3.0.2).
  3. Распаковать файл RStudio-0.97.551.zip в папку c:\Soft\RStudio (вместо c:\Soft можно использовать любую удобную вам папку).
  4. Установить R в папку c:\Soft\R (вместо c:\Soft можно использовать любую удобную вам папку).
  5. Сделать ярлык или bat-файл для запуска RStudio, он должен указывать на  c:\Soft\RStudio\bin\rstudio.exe
  6. Запустить RStudio, при первом запуске нужно указать путь к папке c:\Soft\R\App\R-Portable\bin.
  7. После этого можно проверить, что все работает как нужно, введя в окне Console (см. рисунок):
    help()
    
    Чтобы увидеть результат, нужно нажать Enter.

Установка в Red Hat/Fedora/CentOS

В процессе написания...

Установка в Debian/Ubuntu

В процессе написания...

Установка в Arch Linux

В процессе написания...

Любой Linux (компиляция из исходников)

fileName=$(curl -fsSL https://cran.rstudio.com/banner.shtml | egrep --color -o 'R-[[:digit:]]+\.[[:digit:]]+\.[[:digit:]]\.tar\.gz' | head -1)
curl -fsSL https://cran.rstudio.com/src/base/R-3/$fileName
tar xzf $fileName
cd $(basename $fileName .tar.gz)
./configure --prefix=/opt/r
make
sudo make install

Установка в Mac OS X

В процессе написания...