Stan & POPPK (4): Covariateの影響を考慮した解析

Stan & POPPK (3): 多変量正規分布を用いたパラメータ間の相関まで含めた解析 - yoshidk6’s blog の続きです。パラメータの個人間変動を生む要因を分析してモデルに組み込みます。

パラメータの個人間変動を生じる因子の探索

前回までの解析で、薬物動態パラメータであるCLとVDに個人間変動が見られました。 個人間変動の要因を見つけ出すことができれば、新しい被験者に薬物を投与する際に、その被験者がどのような薬物動態特性を示すかをより高い精度で予測できるようになります。

今回のデータセットでは、↓にあるように各個人の体重と性別が与えられているので、推定された各個人のパラメータ値との関連を見てみます。 https://github.com/yoshidk6/simple_pk_stan/blob/master/data/subj_dose_cov_20170521.csv

# 推定パラメータ値の抽出
fit.CLi <- 
  summary(fit.stan, pars = c("CLi"))$summary %>% 
  tbl_df() %>% 
  select(mean)
fit.VDi <- 
  summary(fit.stan, pars = c("VDi"))$summary %>% 
  tbl_df() %>% 
  select(mean)

fit.indiv.params <-
  bind_cols(tibble(ID=1:nrow(fit.CLi)),
            fit.CLi %>% rename(CL=mean),
            fit.VDi %>% rename(VD=mean))

fit.indiv.params %>% 
  ggplot(aes(CL,VD)) +
  geom_point() +
  geom_smooth(method="lm")


# 体重・性別データと結合し、パラメータ値との相関をプロット
data.cov <- read_csv("../data/subj_dose_cov_20170521.csv") 

fit.indiv.params.cov <-
  full_join(fit.indiv.params, data.cov)

fit.indiv.params.cov %>% 
  gather(Parameter, Value, CL, VD) %>% 
  ggplot(aes(WT,Value)) +
  geom_point() +
  facet_wrap(~Parameter, scales="free") +
  geom_smooth(method="lm")

fit.indiv.params.cov %>% 
  gather(Parameter, Value, CL, VD) %>% 
  ggplot(aes(factor(SEX),Value)) +
  geom_boxplot() +
  facet_wrap(~Parameter, scales="free")

下図より明らかに、CLとVD共に体重と強い相関を持っていることがわかりました。 f:id:yoshidk6:20171028120238p:plain f:id:yoshidk6:20171028120240p:plain

解析

上の結果に基いて、各パラメータへの体重の影響を定量的に評価します。

Stanモデル

本モデルでは、各個人のパラメータ値を算出する際(57-60行)に体重の影響を組み込んでいます。影響度合いを記述するためには、薬物動態界隈で頻用されているexponential modelを使用しました。各個人のパラメータは、[個人の体重 (WT[k])/体重の中央値 (WTMED)]の指数によって影響されると仮定し、その係数(WTCLとWTVD)を推定しています。

GitHubリンク: https://github.com/yoshidk6/simple_pk_stan/blob/master/code/mod_04_cov.stan

Rコード

上記のモデルを動かすRのコードは以下の通りです。 サンプリングが一部不安定になってしまったため、thinningを導入しています。

library(tidyverse)
library(rstan)
library(ggmcmc)

rstan_options(auto_write=T)
options(mc.cores=parallel::detectCores())

data.pk   <- read_csv("../data/sim_pk_20170521.csv") 
data.subj <- read_csv("../data/subj_dose_20170521.csv")
data.cov  <- read_csv("../data/subj_dose_cov_20170521.csv") 


init <- function(){
    list(KA = exp(rnorm(1, log(0.5), 0.2)),
         CL = exp(rnorm(1, log(0.5), 0.2)),
         VD = exp(rnorm(1, log(5), 0.2)),
         sigma = exp(rnorm(2, log(0.2), 0.5)),
         rho = diag(2),
         s_Y = runif(1, 0.5, 2),
         WTCL= rnorm(1, 0.5, 1),
         WTVD= rnorm(1, 0.5, 1),
         CLVDiLog=matrix(rep(log(c(0.5,5)), ea = nrow(data.subj)), 
                      nrow = nrow(data.subj)))
}

data <- 
  list(N    = nrow(data.pk),
       N_ID = nrow(data.subj),
       ID   = data.pk$ID,
       TIME = data.pk$TIME,
       DOSE = data.subj$DOSE,
       WT   = data.cov$WT,
       WTMED= median(data.cov$WT),
       Y    = data.pk$CONC)


nChains <- 4
nPost <- 1000 ## Number of post-burn-in samples per chain after thinning
nBurn <- 1000 ## Number of burn-in samples per chain after thinning
nThin <- 10

nIter <- (nPost + nBurn) * nThin
nBurnin <- nBurn * nThin

fit.stan <-
  stan(file = "mod_04_cov.stan", 
       data = data, init=init,
            iter = nIter,
            warmup = nBurnin,
            thin = nThin, 
            chains = nChains,
            control = list(adapt_delta = 0.8))

結果の評価

推定の結果、観測値は正しく再現されました(図は繰り返しになるので省略します)。

WTCLはおおよそ0.75、WTVDはおおよそ1.07と推定されました。体重が1.5倍になるとCLとVDはそれぞれ1.35倍、1.5倍になるということになり、比較的大きな影響を持っていると言えます。

体重の影響を除いた後のパラメータの個人間変動を見てみると、前回のモデルと比べて標準偏差が非常に小さくなり(CLとVDでそれぞれ0.2, 0.3から0.06, 0.1に減少)、CLとVDの相関も0.9程度からほぼ0にまで低下しています。パラメータの個人間変動の推定値(赤)は、体重を考慮した予測値(青)によって正しく再現されています。更に、体重の影響を除いた上での予測値(緑)を見てみると、ばらつきが非常に小さいことが見て取れます。以上より、(1)観測された個人間変動は体重によって殆どが説明され得る、(2)前回見られたCLとVDの相関は、体重が共通の因子として影響している事による間接的な相関である、と考えられます。 f:id:yoshidk6:20171028122921p:plain

今回のモデルを用いることで、各個人のCovariateに基いてパラメータが精度良く予測できるようになり、各個人の薬物動態プロファイルがより正確に予測できるようになります。

Stan & POPPK (3): 多変量正規分布を用いたパラメータ間の相関まで含めた解析

Stan & POPPK (2): 階層モデルを用いた複数被験者の薬物動態解析 - yoshidk6’s blog の続きです。前回使用したモデルを拡張して、パラメータ間の相関も含めた解析を行います。

使用する仮想データ

作成された仮想データは前回と同じなので、説明を省略します。

解析

Stanモデル

モデル構造は前回とほぼ同じですが、多変量正規分布を扱うための変更を行っています。
Stan超初心者入門 の114ページ目から詳しい説明が載っています。
簡単にまとめると、個人間変動を考慮している2つのパラメータに対して相関行列rhoと各々の標準偏差sigmaを定義し、そこから分散共分散行列Omegaを算出するようになっています。

GitHubリンク: https://github.com/yoshidk6/simple_pk_stan/blob/master/code/mod_03_multinorm.stan

Rコード

上記のモデルを動かすRのコードは以下の通りです。

library(tidyverse)
library(rstan)
library(ggmcmc)

rstan_options(auto_write=T)
options(mc.cores=parallel::detectCores())

data.pk   <- read_csv("../data/sim_pk_20170521.csv") 
data.subj <- read_csv("../data/subj_dose_20170521.csv")

init <- function(){
    list(KA = exp(rnorm(1, log(0.5), 0.2)),
         CL = exp(rnorm(1, log(0.5), 0.2)),
         VD = exp(rnorm(1, log(5), 0.2)),
         sigma = exp(rnorm(2, log(0.2), 0.5)),
         rho = diag(2),
         s_Y = runif(1, 0.5, 2),
         CLVDiLog=matrix(rep(log(c(0.5,5)), ea = nrow(data.subj)), 
                      nrow = nrow(data.subj)))
}

data <- 
  list(N    = nrow(data.pk),
       N_ID = nrow(data.subj),
       ID   = data.pk$ID,
       TIME = data.pk$TIME,
       DOSE = data.subj$DOSE,
       Y    = data.pk$CONC)

fit.stan <-
  stan(file = "mod_03_multinorm.stan", 
       data = data, init=init)

結果の評価

推定されたパラメータを元に算出された平均値と90%予測区間を見てみると、前回と同様に、全体・個人ごとのプロット共に観測値とよく合っています。

f:id:yoshidk6:20171027125833p:plain f:id:yoshidk6:20171027125837p:plain

一方で、推定された各個人のパラメータと、モデルに基づいた予測値を比較すると、CLiVDiの相関が正しく表現されるようになったことがわかります。(一つ目がパラメータ間の相関を考慮していない前回の結果、2つめが今回の結果)

f:id:yoshidk6:20171027130526p:plain f:id:yoshidk6:20171027130025p:plain

今回のモデルを用いることで、正しく個人間のパラメータ変動を反映した予測結果が算出されることが期待できます。

O-1ビザ取得顛末記

自分がO-1ビザの申請をした時、研究者・科学者の申請に関する情報がインターネット上にほとんど無く難儀したので、備忘録的に体験談を書いておきます。*1

O-1を申請することになった経緯

外国人がアメリカの企業で働くには、就労可能なビザが必要になります。 アメリカ企業による正規雇用の場合*2、最もメジャーなのはH1Bビザを取ることです。しかし、H1Bビザに申し込めるチャンスは年に一回しかなく、申請から発給までにもしばらく時間がかかります。年間発給数も決まっているため、抽選に外れると次年まで待たなければなりません。多くの人は、アメリカの大学・大学院を卒業するともらえるOPTというシステムを使って働き始め、有効期間の1~2年のうちにH1B取得を目指すようです。

僕の場合、日本の大学院を出た後にポスドクを経由して就職したので、これには該当しません。その上、ポスドク時代に取得していたJ-1ビザに"Two-Year Home-Country Physical Presence Requirement"*3 という制限がかかっていたため、そもそもH1Bを取得することができませんでした*4

幸いなことに、O-1というビザには

  1. いつでも申し込め、審査プロセスも早い
  2. Two-year ruleの対象外であり、Waiver手続きをしなくても取得できる

という利点があったため、僕の場合はこのカテゴリーでのビザ取得を目指すことになりました。このビザはIndividuals with Extraordinary Ability or Achievementの為とされており、"卓越した能力"を示すためにかなりの量の書類を用意する必要があります。比較的特殊なケースになるので弁護士費用なども高くなり、このビザのサポートをしてくれる企業も少なくなります。ただ、申請のハードルは思ったより高くなく、移民局のページに書いてあるようなノーベル賞を持っているようなレベルの科学者である必要は全く無いようです。

書類の用意

O-1を申請するにあたって何よりも重要なのは、科学者として卓越していることを示すための書類集めです。 USCIS(移民局)のページによると、以下のカテゴリーから少なくとも3つを満たす必要があるとされています。

  1. Receipt of nationally or internationally recognized prizes or awards for excellence in the field of endeavor
  2. Membership in associations in the field for which classification is sought which require outstanding achievements, as judged by recognized national or international experts in the field
  3. Published material in professional or major trade publications, newspapers or other major media about the beneficiary and the beneficiary’s work in the field for which classification is sought
  4. Original scientific, scholarly, or business-related contributions of major significance in the field
  5. Authorship of scholarly articles in professional journals or other major media in the field for which classification is sought
  6. A high salary or other remuneration for services as evidenced by contracts or other reliable evidence
  7. Participation on a panel, or individually, as a judge of the work of others in the same or in a field of specialization allied to that field for which classification is sought
  8. Employment in a critical or essential capacity for organizations and establishments that have a distinguished reputation

弁護士の人と話した感触だと、ある程度の論文数+引用数(4と5に該当?)をベースとした上で、その他をできれば2つ以上満たしたいという所でした。引用数はどれくらいがminimumなのかは分かりませんが、2桁でも大丈夫そうです(二桁前半・後半など細かくは分かりません)。特許も考慮されるようですが、どのカテゴリーに該当するのかはいまいち分かりません。僕の場合は結局、論文・引用・学会発表に加え、海外学振&国内学会のポスター賞を1に、論文誌のPeer-reviewerの経験を7に適用しました。O-1の取得を目指す可能性のある方は、カテゴリー数を増やすことも念頭に置いて、積極的にReviewerの役割を受けることをおすすめします。

併せて、申請には専門領域で確立された研究者からの複数の推薦状が必須です。僕は五通、(1)複数の国の人から and/or (2)自分の論文の論文を引用してくれている人から集めてくれと言われました。更に、そのうち少なくとも2通は今まで直接仕事・研究をしたことがない人からである必要がありました。最終的に、2通ずつをアメリカと日本の方に、1通をイギリスの方にお願いしました。

その他、僕が経験した・聞いたことのうち、役に立ちそうな事を列挙しておきます。

  • 6に関しては、本当に飛び抜けた給料である必要があるようで、通常の会社勤めの人が満たすのは難しそうです。
  • Citationのカウントやリストの作成にはGoogle Scholar Citationsを使いました(そのまま印刷して提出しました)。
  • 僕は使っていないのでどうなのか分かりませんが、Web上で検索すると、O-1が通る確率を無料で評価してくれるようなサービスが有るようです。
  • 貢献を数字として示しやすいIFやjournalの分野内でのランキング(Web of Scienceで調べられる)は、自分の論文・引用元の論文・Reviewerの経験のすべてにおいて重視されていました。

経過

ビザが手に入るまでの時間はおおよそ三ヶ月となりましたが、人によってかなりばらつきがあるようです(半年近くかかったという話も聞いたことがあります)。

  • 11月中旬: 弁護士と連絡を取り始め、申請に用いる書類のカテゴリーを模索(およそ二週間)
  • 11月下旬~12月上旬: Reference lettersを除く必要書類の準備の完了
  • 12月中旬~1月上旬: Reference lettersも含めた必要書類の準備の完了*5
  • 1月下旬: USCISへのPetition申請
  • (2月上旬: 日本に一時帰国)
  • 2月上旬: Petitionの承認(申請から約一週間強*6 )
  • 2月上旬: ↑の数日後、I-797等面接に必要な書類の原本を弁護士からFEDEXで受け取る
  • 2月中旬: 日本の米国大使館で面接 *7
  • 2月中旬: ビザの貼付されたパスポートを取得(面接から一週間強)

結びに

上にも書きましたが、O-1取得のハードルは思ったほど高くないので、アメリカ就職を考えている科学者の方(特にポスドクからアメリカに来られている方)には一考の価値があると思います。

*1:もちろん必要な書類や手続の詳細などは個人・申請年によって違うので、詳細はケースを扱ってくれる弁護士の人にご相談下さい。

*2:インターンシップやポスドク等の場合はJ-1というビザを使うことが多いと思います。

*3:J-1プログラムの終了後、二年間母国に物理的に住まないと、多くのアメリカビザ・グリーンカードが取得できないという制限。政府系機関から給料を貰っていたりした場合に該当します。

*4:一応Waiver手続きをすることは可能なのですが、それについてはWeb上に色々と情報があるので見てみて下さい。

*5:ホリデーシーズンにかかってしまったため、少し手間取りました。

*6:Premium processingという、追加料金を払う代わりに15 calendar days以内に返事をもらえるという制度を使用しました。

*7:J-1の二年ルールに該当している人はアメリカ国内でビザをO-1に切り替えることが出来ないらしく、一時帰国して申請することになりました。第三国(カナダなど)でも一応は大丈夫なことになっているようですが、母国のほうが安全なようです。

Metrum Research GroupによるSTANの入門コース

Metrum Research Groupから昨日、STANの入門コースの教材がアップロードされました*1。Metrumは、STANをPharmacometricsに適用するため積極的に開発に携わっています。今回公開されたものは、昨年度のPAGE/ACoP meetingで開催された Getting Started with Bayesian PKPD Modeling Using Stan: Practical use of Stan & R for PKPD applications というワークショップが元になっており、基礎的なSTANの使用法に重点が置かれています。 コードや解説PDFに加え、実際にコードを動かすチュートリアルもYouTubeにアップロードされています。英語に抵抗の無い方はこのブログより百倍ためになると思うので、ご覧になることをおすすめします。

metrumrg.com

以下に簡単にコース内容をまとめてみました。番号はアップロードされている動画の番号に(おおよそ)対応しています。特に既にStanに触ったことのある方は、興味がある場所から見てみて下さい。

  1. ベイズ統計・統計モデリングの基本
  2. Stanの紹介・インストール・linear regressionを用いた簡単なデモ
  3. 単純なPK-PDモデル(Emaxモデル)を用いた非線形回帰*2と階層モデル(試験間差)への拡張
  4. 個人間差を考慮したPK-PDモデル(Emaxモデル)
  5. User-defined functionとそれを用いたPopulation PK解析
  6. 5.の続きとCensored dataに対する尤度計算法(解説のみ)

Population PK解析で用いているコンパートメントモデルには、このチュートリアルでも解析解を用いており、数値的にODE(常微分方程式)は解いていません。とはいえ、僕の書いた様な簡易型のものではなく、しっかりとNONMEM形式のデータに対応することを意識して書かれています。ODEの数値解法*3についてカバーされていなかったのは残念ですが、今年のPAGE/ACoPでMetrumが開催するワークショップでカバーするようなので楽しみです。

*1:この分野にいる人はご存知だと思いますが、Metrumはこれに限らず幅広いトピックに関する教材をCreative Commonsライセンスの元で公開しています。

*2:いきなりODEを解く必要があるPOPPKから入るのではなく、Emaxモデルから入るのは上手いですね。

*3:Torstenという名前のサブモジュールが開発中のようです

Stan & POPPK (2): 階層モデルを用いた複数被験者の薬物動態解析

http://yoshidk6.hatenablog.com/entry/2017/05/24/134934 の続きです。前回使用したモデルを拡張して、複数の被験者からのデータを解析します。解析は以下の手順で行っていきます。

  • 使用する仮想データ
  • 全被験者が同じPKパラメータを持つと仮定
    • Stanモデル
      • transformed parameters
    • Rコード
    • 結果の評価
  • 階層モデルを導入した解析
    • Stanモデル
      • transformed parameters
      • model
    • Rコード
    • 結果の評価
    • パラメータの相関
  • 次のステップ

使用する仮想データ

作成された仮想データは前回と同じく、各被験者がTIME=0で薬物を経口投与された後、各時間ごとに血中濃度(CONC)を測定されたという状況を想定しています。 被験者は各10人ずつ4群に割り当てられており、それぞれ10, 20, 30, 40の投与量がT与えられています。
simple_pk_stan/sim_pk_20170521.csv at master · yoshidk6/simple_pk_stan · GitHub

図示してみると、投与量に応じて血中濃度が変動する一方で、血中濃度推移の形は変動せず、投与量に比例して濃度が上昇していることがわかります。

library(tidyverse)

data.pk <- 
  read_csv("https://raw.githubusercontent.com/yoshidk6/simple_pk_stan/master/data/sim_pk_20170521.csv") 

data.pk.plot <- 
  mutate(data.pk, ID=factor(ID), DOSE_LEVEL=factor(DOSE_LEVEL))

data.pk.plot %>% 
  ggplot(aes(TIME, CONC, group=ID, color=DOSE_LEVEL)) +
  geom_line() +
  geom_point() +
  facet_wrap(~DOSE_LEVEL) +
  scale_y_log10()

f:id:yoshidk6:20170529072239p:plain

Read more

Google Cloud PlatformのRにRStanをインストールする

RStudio ServerをGoogle Computing Engineで動かす - yoshidk6’s blog に引き続き、VMインスタンスにRStanをインストールします。
以下の記事を参考にしてインストールを進めていきます。
Installing RStan on Mac or Linux · stan-dev/rstan Wiki · GitHub

Toolchain

build-essential, g++, libssl-dev をインストールします。

sudo apt-get update
sudo apt-get install build-essential g++ libssl-dev

Configuration

dpkg -s g++でg++のバージョンが4.9以降であることを確認します。 RStudio serverにログインし、以下のコードを実行してMakevarsファイルを作成します。

dotR <- file.path(Sys.getenv("HOME"), ".R")
if (!file.exists(dotR)) dir.create(dotR)
M <- file.path(dotR, "Makevars")
if (!file.exists(M)) file.create(M)
cat("\nCXXFLAGS=-O3 -mtune=native -march=native -Wno-unused-variable -Wno-unused-function", 
    file = M, sep = "\n", append = TRUE)

# Run only if g++ version is 4.9 or higher
cat("\nCXXFLAGS+=-flto -ffat-lto-objects  -Wno-unused-local-typedefs", 
    file = M, sep = "\n", append = TRUE)

Installing RStan

引き続きRStudio server上で以下のコードを実行し、RStanをインストールします。

install.packages("rstan", repos = "https://cloud.r-project.org/", dependencies=TRUE)

インストールに成功したら、Session -> Restart R でRを再起動します。
以下のコードを実行し、10が返されることを確認すればRStanのインストールは完了です。

fx <- inline::cxxfunction( signature(x = "integer", y = "numeric" ) , '
    return ScalarReal( INTEGER(x)[0] * REAL(y)[0] ) ;
' )
fx( 2L, 5 ) # should be 10

RStudio ServerをGoogle Computing Engineで動かす

モチベーション

家で使っているコンピュータがMacbook Air 2011モデル(1.6GHz Core i5, メモリ2GB)と非常に貧弱で、Stanを動かすのに支障が出ている一方で、特段買いたいパソコンも見当たらないので、クラウドのサーバーを試してみることにしました。AWSについては公式含めかなり多くの解説記事がありますが、今回はGoogleのCloudサービスであるGoogle Computing Engineを試してみます。

Virtual Machineをセットアップ

Quickstart Using a Linux VM  |  Compute Engine Documentation  |  Google Cloud Platform を参考にしています。

[プロジェクト]ページに移動し、"Computing Engineを試す"のチュートリアルに従うと、仮想マシンインスタンスの作成が体験できます。途中で無料トライアルを有効にするためクレジットカード情報などの登録が必要になります。

僕は一旦このトライアルで作成したインスタンスを削除した後、"r-studio"という名前のインスタンスを全く同じ設定で新たに作成しました。

R/RStudioのインストール

まず、VMインスタンスページからSSHボタンをクリックしてインスタンスのターミナルに接続し、以下の作業を行います。RとRStudio serverのインストールは、ローカルのマシンにインストールするのと同様に行います(Download RStudio Server – RStudio)。既に手元のサーバーマシンなどにRStudio serverをインストールしたことがある方には馴染み深い手順になっていると思います。

Rのインストール

まず、そのままapt-getを実行すると古いバージョン(2017/5/27現在 3.1.1 (2014-07-10))がインストールされてしまうため、apt-getのインストール元にCRANを追加する必要があります。 エディタで /etc/apt/source.list を開き(sudo vi /etc/apt/sources.list)、以下の接続先を追加してください(CRAN mirror は CRAN - Mirrors から適当に選んで下さい。httpsではエラーとなってうまく行きませんでした)。

deb http://cran.cnr.berkeley.edu/bin/linux/debian jessie-cran34/

その後apt-get updateを実行すると、恐らくPublic keyが足りないというエラーで怒られます。

sudo apt-get update
# W: GPG error: http://cran.cnr.berkeley.edu jessie-cran34/ Release: The following signatures couldn't be verified be cause the public key is not available: NO_PUBKEY FCAE2A0E115C3D8A

Debian 7にRの実行環境(3.1.1)をapt-getでインストールする - Symfoware を参考に、末尾にある FCAE2A0E115C3D8A (選んだCRAN mirrorによって違うかも?) を使用して以下のように公開鍵を登録後、改めてapt-get updateapt-get install r-base を行います。

apt-key adv --keyserver keyserver.ubuntu.com --recv-keys FCAE2A0E115C3D8A
sudo apt-get update
sudo apt-get install r-base

コマンドライン版のRをRコマンドで起動し、最近のバージョンがインストールされていることを確認します。(2017/5/27現在 3.4.0 (2017-04-21))

RStudio serverのインストール

再び Download RStudio Server – RStudio を参考に、RStudioをインストールします

sudo apt-get install gdebi-core
wget https://download2.rstudio.org/rstudio-server-1.0.143-amd64.deb
sudo gdebi rstudio-server-1.0.143-amd64.deb

RStudio severにアクセス

RStudioにアクセスできるようにするため、ファイアーウォールの設定を追加する必要があります。

  1. Google Cloud Platformのトップページのメニューから、"ネットワーキング>ファイアーウォール ルール"に移動し、以下のルールを追加します( RStudio Server on a Google Compute Engine instance · Joe Roe を参考にしました)。
    • 名前: allow-rstudio
    • トラフィックの方向: 上り
    • ソースIPの範囲: 0.0.0.0/0 (allow from any source)
    • 指定したプロトコルとポート: tcp:8787
    • ターゲットタグ: allow-rstudio
  2. ターゲットタグであるallow-rstudioを、作成したVMインスタンスの"編集"の中にある"ネットワークタグ"に追加します。
  3. http://<your-instance-ip>:8787 からRStudio serverに接続します。

RStudio serverにログイン

RStudio Server on a Google Compute Engine instance · Joe Roe
上のサイトの"Users and permissions"に詳細が書いてありますが、VMインスタンス上のデフォルトアカウントがkey-basedなログイン形式を用いている一方、RStudio serverはパスワードによるログインにしか対応していないため、RStudio server用のアカウントをLinux上に別に作成する必要があるようです。指摘されているように、既にデフォルトのアカウントでいろいろとファイルを作成してしまっていたら少し面倒そうです。

ともあれ、ブラウザ上のterminalからsudo adduser <username>によって新規ユーザーを作成します。その後、http://<your-instance-ip>:8787 にあるRStudio serverを開き、Linuxアカウントを用いてログインすると無事RStudio serverが使用できます。

tidyverseのインストール

ライブラリーのインストール中に幾つかのLinux用ライブラリが足りないと叱られました。 以下のコマンドで足りないライブラリをインストールしたところ無事tidyverseがインストールできました。

sudo apt-get install libcurl4-openssl-dev libssl-dev libxml2-dev

元々のモチベーションであったRStanのインストールについては、以下に記載しています。

yoshidk6.hatenablog.com

ファイル転送

まだ試していませんが、VMインスタンスへのファイルの転送は通常のSCPによって行うことができるようです。
Transferring Files to Instances  |  Compute Engine Documentation  |  Google Cloud Platform

最後に

終わったらインスタンスを停止することを忘れないようにしましょう。

References

  1. googleComputeEngineRという、ローカルのRから(?)GCEにアクセスしてサーバーをセットアップするパッケージ。Shiny serverを作成する等色々な用途に使うようなら便利かもしれません。今回は完全にブラウザから作成することを目指したので除外。 Launch RStudio Server in the Google Cloud with two lines of R · Mark Edmondson

  2. Googleが提供しているCloud SDKを用いたRStudioのインストール法。これもローカルPCにソフトウェアのインストールが必要になるので除外しましたが、記事で使ったコマンドの多くはこのサイトのものを参考にしました。 Deploying R Studio on Compute Engine

  3. もう一つ(日本語の)記事を見かけました。2. 同様にGoogleが提供しているコマンドラインツールを使用しています。 Google Container Engineの無限のリソースでRStudioを動かす - Technically, technophobic.