Sunteți pe pagina 1din 1

Question Answer Comment

1A This comes from the identification of h_ii as the derivative of h^hat with respect to y
2C Identified on class slides.
3B This is one of the points of cross‐validation. How will the model perform when it sees new data?
4C K‐nearest neighbors is a non‐parametric technique. It doesn't need modeling assumptions.
5C This is definitional, from the formula for adjusted R‐squared.
6B This is the general model fitting technique. Least squares is a special case when the outcome has a normal distribution.
7E Definitional: (1 ‐ false positive rate), i.e. the true negative rate so "none of the above".
8D From the definition of what it means to be "calibrated".
9B As no terms have been fitted yet (only the intercept), the reported RMSE is the standard deviation  of y.
10 A Weight, it has the smallest p‐value (or equivalently, the highest F statistic/ratio".
11 D The is a Bonferroni type adjustment to the p‐value.
12 C The model choose to group US (1) with European (2), so that their difference in fuel economy is not estimated.
13 B AIC is equivalent to choosing a p‐value cut‐off of about 0.16, so it will be easier for variables to come into the model.
14 B This is the question that the overall‐test is designed to answer. The fact that the RoC curve looks good, doesn't "prove" statistically that the model is significant
15 C Multiply the x values by regression coefficients to get the logit. Then, exp(logit)/(1 + exp(logit) ) to get the  probability. ‐10.87 + 0.9587 * 10 ‐ 4.1085 * 0.2 + 0.0595 * 5  ‐ 0.1992
16 C "High" has the largest regression coefficient. "Medium has a coefficient of : ‐(0.3959 + ‐0.19919) = ‐0.19671
17 A exp(0.3959 ‐ ‐0.1991985) = 1.8132
18 E You can't define a false positive or negative without a cut‐off probability to determine the classification rule.
19 B Definitional from the construction of the lift curve.
20 E Note the value of the probabilities after using the alcohol level as a splitter.
21 E Trees, by virtue of potentially having many parameters, are low bias, high variance in terms of prediction.
22 B This is one of the virtues of k‐fold crossvalidation ‐‐ its speed. For example, if the k is 5, then there are only 5 blocks of data that have to be rotated in and out of the calculation.
23 C That's the original purpose of bootstrapping ‐‐  obtaining a measure of uncertainty.
24 C Not covered in 2018 class.
25 D As discussed in class. Sparsely populated levels may be completely full of 1's or zeroes, leading to estimated probabilities of 1 or 0. So the logits drift off to +/‐ infinity
26 C Using Bonferroni, there are 4 + 4 + 6 = 14. 0.05/14 = 0.0036.

S-ar putea să vă placă și