iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (5) 發佈留言 / 作者: S學院 / 2025-05-26 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 關於主成分分析(Principal Components Analysis, PCA)於特徵提取(feature extraction)之主要用途,下列敘述何者正確? 提取重要特徵後不能以圖像視覺化呈現多變量資料 將低度相關的預測變數矩陣 X,轉換成相關且量多的潛在變項集合 將最相關的訊息與無關的雜訊結合 將問題領域中的數個變數,組合成單一或數個具訊息力的特徵變數 None 2. 附圖為某電商平台於 2020 年 10 月至 2021 年 5 月份之新註冊用戶統計數據。請問關於選項中對此二圖表的敘述與解讀(請參考欄位定義與兩圖表),下列敘述何者「不」正確? 由圖表來看,此平台的逐月獲利與新註冊人數,皆呈現正成長趨勢 由圖表來看,此平台每 100 個新註冊用戶、只有不到 12 個用戶會於註冊後 7 天仍有購買行為 此平台之逐月新註冊用戶有正成長趨勢,並於 2021 年 3 月份出現月增 57%的成長 儘管 2021 年 5 月的首購用戶數量、相較 2020 年 10 月成長了約 400 人;但此平台用戶的首購率卻下降了接近 20%。顯示平台對於設定目標對象、促使用戶購買的規劃上可能出現了問題 None 3. 關於迴歸分析(regression analysis),下列敘述何者「不」正確? 迴歸分析是利用兩個或多個數量變數間的關係,使反應變數的值可以用一個或多個解釋變數的值加以預測的方法 殘差分析(residual analysis)無法用來評估迴歸模型的預測品質 在預測的研究中需將變數區分為反應變數和解釋變數 參數皆為一次的模型稱為線性模型,一般以 Y = β0+β1X1+β2X2+...+β(p-1)X(p-1)+ε的形式表達 None 4. 收集學生的國文、英文、統計、經濟、會計成績進行主成分分析(Principal Components Analysis, PCA),計算出 5 個特徵值,分別為:λ1=3.148,λ2=1.352,λ3=0.351,λ4=0.122,λ5=0.037,第 1 主成分,解釋全體變數的變異數比例為何? 67.7% 90.0% 87.3% 62.9% None 5. 關於 k 近鄰(k-nearest neighbors)分類法,下列敘述何者「不」正確? 需選擇適合的 k 不須對資料有任何分布上的假設 須留意預測變數的尺度 能容忍遺缺值 None 6. 關於集群分析(cluster analysis),下列敘述何者「不」正確? 集群分析是依據個體間的相似性,將資料分群,使群內差異小,群間差異大 集群分析與其他分類分析,如判別分析(discriminant analysis)不同之處在於分組結果完全由資料所導出,各群的特性事前未知 集群分析主要有兩種形式,分別為 k-means 分群(k-means clustering)和分層分群(hierarchical clustering),這兩種方式皆需在一開始就決定好分群數 集群分析的變數只能使用連續(continuous)變數,不能使用類別(categorical)變數 None 7. 考慮使用 iris 資料集,輸入變數為 Sepal.Length(花萼長度)、Sepal.Width(花萼寬度)、Petal.Length(花瓣長度)與 Petal.Width(花瓣寬度),輸出變數為 Species(物種)。使用 keras 等模組進行多層感知器(Multilayer Perceptron)分析,參考附圖 Python 語言結果,下列敘述何者「不」正確? 第 1 個隱藏層的權重參數有 42 個 輸出層的啟動函數(activation function)為 softmax 函數 第 2 個隱藏層的神經元個數為 6 個 輸入層有 4 個特徵 None 8. 關於因素分析(factor analysis)的概念,下列敘述何者「不」正確? 因素分析是利用少數幾個因素來解釋一群彼此有關係存在的變數 因素分析的每個變數除了受共同因素(common factor)影響外,也包含獨特因素(specific factor)存在 因素分析的應用在於從一群變數中找出少數幾個具代表性的變數,以便作為進一步的統計分析用 資料經因素分析後不能以簡化後的因素對個體作分析 None 9. 考慮購物網站的銷售資料集時,若使用集群法(clustering)進行銷售分析,下列敘述何者正確? k-means 集群法(k-means clustering)的結果是同一集群內的樣本點具有高度的差異性 凝聚階層法(agglomerative hierarchical)是一種切割式集群法(partitional clustering) k-medoid 集群法(k-medoid clustering)與 k-means 集群法(k-means clustering)比較時,前者較容易受到異常值或極端值的影響 在 k-medoid 集群法(k-medoid clustering)中,側影係數(Silhouette Coefficient)為正數且數值較大時,表示該資料分派到較合適的集群 None 10. 訓練神經網路模型時,有時會遇到 Loss function 出現 NaN,下列何種做法最「不」恰當? 提高 Learning Rate,使其較快收斂 將輸入值作 Normalization 檢查輸入值,確保資料中不含 NaN 設置 Gradient Clipping,限制梯度範圍 None 11. Generative model 與 Discriminative model 是兩種不同類型的模型,Generative model 可以透過統計的方法,根據所觀測的資料來建立近似原始資料分布的統計模型,因此可以用在模擬上,下列何者「不」是 Generative model? HMM(Hidden Markov Model) Logistic regression Naïve Bayes GMM(Gaussian Mixture Model) None 12. 以年收入(X1)和房子坪數(X2)做區別變數,辨別家庭有無投資股票。分別蒐集 30 個有投資股票與 30 個無投資股票的家庭資料。相關數據資料如附圖,請問下列何者「不」正確? None 13. 關於線性相依(linearly dependent)、線性獨立(linearly independent)、正交(orthogonality)與相關(correlation),下列敘述何者正確? 如果 X 與 Y 無關/正交,則兩者線性獨立 如果 X 與 Y 線性相依,則兩者相關 如果 X 與 Y 線性相依,則兩者非正交 如果 X 與 Y 線性獨立,則兩者無關/正交 None 14. 參考附圖,關於 R 語言使用 jsonlite 套件匯入 JSON 資料,下列敘述何者正確? df$cwbopendata$location 資料物件為矩陣(matrix) nrow(df$cwbopendata$location)結果為 438 df 資料物件的元素長度為 9 匯入後 df 資料物件為資料框(data.frame) None 15. 就非監督式學習(unsupervised learning)而言,評估集群(cluster)優劣的一種方式是計算群內樣本的相似性(similarity)。當我們持續形成更多群時,群內相似性向上攀升,將樣本切分為更細的集群,請問此操作可能會發生什麼問題? 配適不足(underfitting) 過度配適(overfitting) 配適狀況不明(unknown) 配適良好(well-fitted) None 16. 關於分群(clustering)演算法,下列敘述何者正確? k-means 演算法進行分群前,可先不決定 k 值 分群的效果與資料數量、群集數量都無關 訓練模型所使用的資料不需要包含類別標籤 資料量夠大就不需人為定義分群數 None 17. 有 4 種交叉驗證方法,分別為(1) 留一驗證法(leave-one-out cross-validation, LOOCV)、(2) 5 折(5-fold)交叉驗證、(3) Bootstrap、(4) 10 折(10-fold)交叉驗證。請問在一個約 1000 筆資料集的訓練過程,下列交叉驗證方法執行時間排序,何者正確? (3) > (4) > (2) > (1) (1) > (3) > (4) > (2) (1) > (4) > (2) > (3) (4) > (2) > (1) > (3) None 18. 參考附圖,關於 R 語言使用 dplyr 套件進行資料分析,下列敘述何者正確? summarise 函數與 summary 函數功能相同,皆會顯示資料摘要 summarise 函數會依照 Speciess 群組資料,計算各群組的 Petal.Width 平均值 group_by 函數會依照 Species 進行遞減排序 group_by 函數會依照 Species 進行遞增排序 None 19. 在迴歸分析當中,最常用的迴歸係數估計方法是普通最小平方法(Ordinary Least Squares, OLS),不過 OLS 常常被錯誤理解或誤用,關於 OLS 失靈的狀況,「不」包括下列何項? 某一變量是其他變量的線性組合 預測變量個數大於樣本數 預測變量矩陣存在共線性(collinearity) 預測變量間相關性(correlation)不足 None 20. 參考附圖,請問程式碼___之處,應填入選項中哪一個 pandas 函數,才能得到如附圖下表之結果? groupby translate map apply None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up