The Applied Statistics Workshop 2021

以下本年度終了分

 

日時
2021年4月9日(金 Friday) 16:50-18:35
場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
山田 宏(広島大学)
"Spatial Autocorrelation and Spectral Graph Theory"

Abstract Spatial autocorrelation is fundamental to spatial science, and Geary's c has traditionally been a popular measure. This paper gives a new perspective for spatial autocorrelation and Geary's c. We discuss them by using concepts from spectral graph theory/linear algebraic graph theory. First, we provide three types of representations for Geary's c: (a) graph Laplacian representation, (b) graph Fourier transform representation, and (c) Pearson's correlation coefficient representation. Second, we illustrate that the spatial autocorrelation measured by Geary's c is positive (resp. negative) if spatially smoother (resp. less smooth) graph Laplacian eigenvectors are dominant. Third, we discuss the distribution of Geary's c for the case in which observation errors exist. We demonstrate that if observation errors are relatively small (resp. large), then spatial autocorrelation is rather easily (resp. not easily) detectable.
日時
2021年5月7日(金 Friday) 16:50-18:35
場所
Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
肥後 雅博 (東京大学)
毎月勤労統計の不適切調査・計数処理を巡るその後の展開 ― 再生に向けた取り組みと今後の課題 ―
Abstract
2018年末、「毎月勤労統計」における不適切な調査や計数処理の問題が明らかになった。統計関係者のみならず、統計ユーザー、政治家、マスコミなど様々なステークホルダーから厳しい批判を受け、「毎月勤労統計」にとどまらず、公的統計全体に対する信頼が損なわれる深刻な事態となった。 本稿では、「問題」発覚を受けて、統計委員会と厚生労働省の手によって進められている「毎月勤労統計」の再生に向けた取り組みについて、中間的な総括を行う。①東京都の大規模事業所における全数調査への復帰、②適切な復元処理に基づく賃金データの訴求推計、の2つの点については、関係者の努力により課題は達成されたが、③中規模・小規模事業所における精度向上は道半ばであり、当面の課題として重要である。 さらに、「毎月勤労統計」の精度向上を図り、統計の持続可能性を高めるには、今後、2つのより大きな課題にも取り組む必要がある。ここでは、④復元 推計に用いる母集団労働者数における速報値の精度向上と確定値反映タイミン グの早期化、⑤調査票回収率の低下に歯止めをかけることを目的とする調査方 法の抜本的見直し―「企業」別の調査への移行―、について取り上げる。
日時
2021年5月14日(金 Friday)10:00am-11:30am ※時間にご注意下さい
場所
Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告

井上 篤 (Vanderbilt University)
1. The role of the prior in estimating VAR models with sign restrictions
2. Joint Bayesian Inference about Impulse Responses in VAR Models

Abstract

1. The role of the prior in estimating VAR models with sign restrictions

Several recent studies have expressed concern that the Haar prior typically imposed in estimating sign-identified VAR models may be unintentionally informative about the implied prior for the structural impulse responses. This question is indeed important, but we show that the tools that have been used in the literature to illustrate this potential problem are invalid. Specifically, we show that it does not make sense from a Bayesian point of view to characterize the impulse response prior based on the distribution of the impulse responses conditional on the maximum likelihood estimator of the reduced-form parameters, since the the prior does not, in general, depend on the data. We illustrate that this approach tends to produce highly misleading estimates of the impulse response priors. We formally derive the correct impulse response prior distribution and show that there is no evidence that typical sign-identified VAR models estimated using conventional priors tend to imply unintentionally informative priors for the impulse response vector or that the corresponding posterior is dominated by the prior. Our evidence suggests that concerns about the Haar prior for the rotation matrix have been greatly overstated and that alternative estimation methods are not required in typical applications. Finally, we demonstrate that the alternative Bayesian approach to estimating sign-identified VAR models proposed by Baumeister and Hamilton (2015) suffers from exactly the same conceptual shortcoming as the conventional approach. We illustrate that this alternative approach may imply highly economically implausible impulse response priors.

 2. Joint Bayesian Inference about Impulse Responses in VAR Models

We derive the Bayes estimator of vectors of structural VAR impulse responses under a range of alternative loss functions. We also derive joint credible regions for vectors of impulse responses as the lowest posterior risk region under the same loss functions. We show that conventional impulse response estimators such as the posterior median response function or the posterior mean response function are not in general the Bayes estimator of the impulse response vector obtained by stacking the impulse responses of interest. We show that such pointwise estimators may imply response function shapes that are incompatible with any possible parameterization of the underlying model. Moreover, conventional pointwise quantile error bands are not a valid measure of the estimation uncertainty about the impulse response vector because they ignore the mutual dependence of the responses. In practice, they tend to understate substantially the estimation uncertainty about the impulse response vector.

日時
2021年5月5月21日(金 Friday) 16:50-18:35
場所
Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
鎌谷 研吾 (統計数理研究所)
MCMC Algorithms for Posteriors on Matrix Spaces
Abstract

行列空間上で定義された確率分布にたいするマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを研究する。このような重要なサンプリング問題は、解析的に検討しきれていない。関連するMCMCアルゴリズムのエルゴード性を解析することで、この分野への大きな一歩を踏み出す。標準的なランダムウォーク型メトロポリス法(RWM)とpCN法に加えて、本研究では(行列版の)「混合された(Mixed)」pCN法 = MpCN法と呼ばれる新しいアルゴリズムを提案する。RWMとpCNは、重い裾を持つ行列分布の重要なクラスにたいして、指数エルゴード的でないことが示された。対照的に、MpCNは異なる裾の特性を持つ確率分布にたいして頑健であり、裾の重い分布のクラスにおいて非常に優れた経験的性能を持つ。MpCNの指数エルゴード性は、この研究では完全には証明されていない。ドリフト条件のいくつかは、状態空間の複雑さのために得るのが非常に困難だからだ。 しかし、証明に向けて大きく前進し、今後の課題として残された最後のステップを詳細に示している。 また、金融統計学で生じる困難なモデルの実データでの数値応用を通じて、アルゴリズムの計算性能を説明する。

本研究はAlexandros Beskos (University College London)との共同研究です。

日時
2021年6月4日(金 Friday) 8:50am-10:20am 時間にご注意下さい
場所
Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
西村彬比己 (Akihiko (Aki) Nishimura) (Department of Biostatistics, Johns Hopkins)
Bayesian sparse regression for large-scale observational health data
Abstract
Growing availability of large healthcare databases presents opportunities to investigate how patients' response to treatments vary across subgroups. Even with a large cohort size found in these databases, however, low incidence rates make it difficult to identify causes of treatment effect heterogeneity among a large number of clinical covariates. Sparse regression provides a potential solution. The Bayesian approach is particularly attractive in our setting, where the signals are weak and heterogeneity across databases are substantial. Applications of Bayesian sparse regression to large-scale data sets, however, have been hampered by the lack of scalable computational techniques. We adapt ideas from numerical linear algebra and computational physics to tackle the critical bottleneck in computing posteriors under Bayesian sparse regression. For linear and logistic models, we develop the conjugate gradient sampler for high-dimensional Gaussians along with the theory of prior-preconditioning. For more general regression and survival models, we develop the curvature-adaptive Hamiltonian Monte Carlo to efficiently sample from high-dimensional log-concave distributions. We demonstrate the scalability of our method on an observational study involving n = 1,065,745 patients and p = 15,779 clinical covariates, designed to compare effectiveness of the most common first-line hypertension treatments. The large cohort size allows us to detect an evidence of treatment effect heterogeneity previously unreported by clinical trials.
日時
2021年7月2日(金 Friday) 16:50-18:35
場所
Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
米倉 頌人(千葉大学)
Adaptation of the Tuning Parameter in General Bayesian Inference with Robust Divergence
Abstract
We introduce a methodology for robust Bayesian estimation with robust divergence (e.g., density power divergence or gamma-divergence), indexed by a single tuning parameter. It is well known that the posterior density induced by robust divergence gives highly robust estimators against outliers if the tuning parameter is appropriately and carefully chosen. In a Bayesian framework, one way to find the optimal tuning parameter would be using evidence (marginal likelihood). However, we numerically illustrate that evidence induced by the density power divergence does not work to select the optimal tuning parameter since robust divergence is not regarded as a statistical model. To overcome the problems, we treat the exponential of robust divergence as an unnormalized statistical model, and we estimate the tuning parameter via minimizing the Hyvarinen score. We also provide adaptive computational methods based on sequential Monte Carlo (SMC) samplers, which enables us to obtain the optimal tuning parameter and samples from posterior distributions simultaneously. The empirical performance of the proposed method through simulations and an application to real data are also provided.
日時
2021年7月16日(金 Friday) 16:50-18:35
場所
Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
小林 弦矢(千葉大学)
Spatio-temporal Smoothing, Interpolation and Prediction of Income Distributions based on Grouped Data
Abstract
In many scientific researches, especially in social science, exact values of some characteristics of individuals in data are not directly observed, but values of interest are grouped or collapsed in such a way that only numbers of individuals which belong to groups are observed. This type of data is typically called grouped data and an analysis should address this grouped nature of data. This work develops a new methodology of mixture modeling for grouped data observed over multiple spatial units or clusters and time periods. The main idea of the proposed method is that all clusters share the common latent distributions and potential cluster-wise heterogeneity is captured by the cluster-wise mixing proportions. To model the unknown cluster-wise mixing proportions, we employ the multinomial logistic functions that include spatial and temporal effects. The inclusion of these effects enables smoothing of quantities of interest over time and space, imputation of missing values and prediction of future values. Using Poly\'a-gamma data augmentation, an efficient posterior computational algorithm via Gibbs sampling is developed. As a specific application of the proposed method, modeling of cluster-wise income distributions based on longitudinal grouped data is considered. The usefulness of the method is demonstrated through the simulated data and income survey data of Japan.
日時
2021年10月8日(金 Friday) 16:50-18:35
場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
松田 孟留(理化学研究所)
"行列の縮小推定と優調和性"

Abstract 多変量正規分布の平均ベクトルの二乗損失のもとでの推定において、3次元以上では最尤推定量は非許容的でありJames--Stein推定量などの縮小推定量によって優越される(Steinのパラドックス)。特に、Steinの事前分布などの優調和事前分布によるベイズ推定量は最尤推定量を優越する。ここで、任意の超球面上の平均値がその超球の中心における値より大きくない関数を優調和という。本講演では、縮小推定と優調和性に関する理論を行列に一般化した結果を紹介する。まず、James--Stein推定量の行列への一般化であるEfron--Morris推定量に対応して、Steinの事前分布を行列に一般化した特異値縮小型の優調和事前分布を構成する。この事前分布は低ランク行列の空間への縮小を行うと解釈できるので、縮小ランク回帰など未知の行列が低ランクに近い状況で特に有効である。また、行列推定における自然な損失関数である「行列二乗損失」という行列値の損失関数に基づいた縮小推定の理論を構築する。優調和性の行列空間への一般化として「行列優調和性」を導入することで、行列優調和事前分布によるベイズ推定量は行列二乗損失のもとで最尤推定量を優越する、という結果が示される。行列優調和事前分布の例としてはインプロパーな行列t分布があり、これは上記のSteinの事前分布の一般化を含んでいる。時間が余ったら縮小予測分布や経験ベイズ行列補完など関連する話題についても簡単に紹介する。 
日時
2021年10月15日(金 Friday) 16:50-18:35
場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
藤澤 洋徳(統計数理研究所)
"製造業の課題を動機とする共同研究について"

Abstract

東芝との共同研究において,製造業の課題を動機として研究が進み,論文化にまで至った研究を2つ紹介したい. 1つは高次元高欠測データの解析である.90%以上もの欠測が生じる特徴量がある.そのような場合に妥当に回帰モデルを推定する問題を考えた.CoCoLassoという手法はその問題に対応できるのだが,高欠測の場合をあまり意識していないと考えた.CoCOLassoに欠測率に応じた重み補正を行うことで,より妥当な手法を提案した.最適な重みについては理論的な考察も行った. もう1つは転移学習に関わる研究である.Lassoを繰り返し使う状況において,以前の情報を有効活用したい,パラメータ推定値の変化が小さくなるようにしたい,現場の経験を活かしたい,という要望を満たす手法を開発した.理論解析も行って手法の良さを理論的にサポートした.最後に,それらの成果がメディア等にどのように取り上げられたかについても触れたい. 

日時
2021年10月22日(金 Friday) 8:30-10:00
場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
Jyotishka Datta(Virginia Tech.)
"New Directions in Bayesian Shrinkage for Sparse, Structured Data"

Abstract

Sparse signal recovery remains an important challenge in large scale data analysis and global-local (G-L) shrinkage priors have undergone an explosive development in the last decade in both theory and methodology. These developments have established the G-L priors as the state-of-the-art Bayesian tool for sparse signal recovery as well as default non-linear problems. In the first half of my talk, I will survey the recent advances in this area, focusing on optimality and performance of G-L priors for both continuous as well as discrete data. In the second half, I will discuss several recent developments, including designing a shrinkage prior to handle bi-level sparsity in regression and handling sparse compositional data, routinely observed in microbiomics. I will discuss the methodological challenges associated with each of these problems, and propose to address this gap by using new prior distributions, specially designed to enable handling structured data. I will provide some theoretical support for the proposed methods and show improved performance in simulation settings and application to environmentrics and microbiome data.

日時
2021年10月29日(金 Friday) 8:30-10:00
場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
Tevfik Aktekin(University of New Hampshire)
"A Family of Multivariate Non-Gaussian Time Series Models"

Abstract

In this paper, we propose a class of multivariate non-Gaussian time series models which include dynamic versions of many well-known distributions and consider their Bayesian analysis. A key feature of our proposed model is its ability to account for correlations across time as well as across series (contemporary) via a common random environment. The proposed modeling approach yields analytically tractable dynamic marginal likelihoods, a property not typically found outside of linear Gaussian time series models. These dynamic marginal likelihoods can be tied back to known static multivariate distributions such as the Lomax, generalized Lomax, and the multivariate Burr distributions. The availability of the marginal likelihoods allows us to develop efficient estimation methods for various settings using Markov chain Monte Carlo as well as sequential Monte Carlo methods. Our approach can be considered to be a multivariate generalization of commonly used univariate non-Gaussian class of state space models. To illustrate our methodology, we use simulated data examples and a real application of multivariate time series for modeling the joint dynamics of stochastic volatility in financial indexes, the VIX and VXN.

日時

2021年11月12日(金 Friday) 16:50-18:35

場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
矢野 恵佑(統計数理研究所)
"On estimating generalization losses of Bayesian methods: an approach using posterior covariance"

Abstract We discuss estimating out-of-sample predictive performance of Bayesian methods. Predictive model assessment has been one of central topics in statistical science and various methods have been proposed. Recently, Bayesian predictive model assessment becomes an issue of interest in the literature. Pioneering proposals in this direction contain the deviance information criterion; Bayesian leave-one-out cross validation; and widely applicable information criterion. These methods can be calculated by a single run of posterior simulation and have been used in applied fields. In this talk, we propose yet another computationally efficient method of assessing the predictive quality of Bayesian methods, a posterior covariance information criterion (PCIC). Our method can successfully (i) adapt to a wide range of predictive settings; and (ii) deal with an arbitrary loss function. Also, it uses a form of posterior covariance which is computed from posterior samples and numerically stable. We demonstrate several applications of our method including covariate shift adaptation, counterfactual prediction, differentially private learning. We also discuss the derivations of our method from several statistical viewpoints.  
日時

2021年11月26日(金 Friday) 16:50-18:35

場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
石原 卓弥(東北大学)
"Evidence Aggregation for Treatment Choice"

Abstract Consider a planner who has to decide whether or not to introduce a new policy to a certain local population. The planner has only limited knowledge of the policy's causal impact on this population due to a lack of data but does have access to the publicized results of intervention studies performed for similar policies on different populations. How should the planner make use of and aggregate this existing evidence to make her policy decision? Building upon the paradigm of `patient-centered meta-analysis' proposed by Manski (2020; Towards Credible Patient-Centered Meta-Analysis, Epidemiology), we formulate the planner's problem as a statistical decision problem with a social welfare objective pertaining to the local population, and solve for an optimal aggregation rule under the minimax-regret criterion. We investigate the analytical properties, computational feasibility, and welfare regret performance of this rule. We also compare the minimax regret decision rule with plug-in decision rules based upon a hierarchical Bayes meta-regression or stylized mean-squared-error optimal prediction. We apply the minimax regret decision rule to two settings: whether to enact an active labor market policy given evidence from 14 randomized control trial studies; and whether to approve a drug (Remdesivir) for COVID-19 treatment using a meta-database of clinical trials. 
日時

2021年12月3日(金 Friday) 16:50-18:35

場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
奥野 彰文(統計数理研究所)
"Minimax Lower Bound for Inverse Risk in Nonparametric Invertible Regression on $[-1,1]^d$"

Abstract We study a minimax lower bound for risk of estimating inverse functions, while keeping an estimator is also invertible. Learning invertibility from data and exploiting the invertible estimator is used in many domains, such as statistics, econometrics, and machine learning. Although the consistency and universality of invertible estimators have been well investigated, the efficiency of these methods is still under development. Specifically, we derive the lower bound for the minimax rate of risks for estimating invertible Lipschitz functions on $d$-dimensional hypercubes. We first introduce an inverse $L^2$-risk and consider the nonparametric invertible regression problem while preserving estimator invertibility. Then, we derive the lower bound for a minimax inverse risk by exploiting a representation of invertible functions using level-sets. The lower bound for the minimax rate corresponds to that of the non-invertible Lipschitz function, which rejects the expectation of whether invertibility improves the minimax rate, similar to other shape constraints. Additionally, considering a special case $d=2$, we further develop an invertible estimator. *This study is a joint work with Dr. Imaizumi (U. Tokyo). 
日時

2021年12月10日(金 Friday) 16:50-18:35

場所 Zoomによるオンライン開催となります。ZoomのURLについてはシラバスでご確認ください。東京大学外の方で参加をご希望の場合は、CIRJE (cirje[at mark]e.u-tokyo.ac.jp) までご連絡下さい。
報告
片山 翔太(慶應大学)
"交絡調整を伴う高次元データにおける統計的推測について"

Abstract 高次元データにおいて,(1)交絡調整を伴う高次元パラメータの検定問題,および(2)条件付き平均処置効果 (Conditional Average Treatment Effects, CATE)の推定問題を考える.(1)では,実際のCovid-19患者におけるRNA-Seqデータ解析に動機を得て,特徴の異なる2群間の比較を行うための同時および多重検定方式を提案する.同時検定においては最大値型検定統計量を構成し,高次元漸近枠組みの下でその漸近分布を導出する.そして,その検定統計量の構成要素を,False discovery rateの制御が可能な多重検定方式へと転用する.(2)では,高次元共変量におけるCATEのスパース推定を考える.処置群と対照群それぞれでパラメータ推定を行うのではなく,両者の結果変数を適切にバランスさせることで,CATEに対する直接的なスパース推定法を提案する.また,得られた推定量の推定精度や変数選択の一致性など,理論的性質も明らかにする.  

 

[ English Top ]