iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (5) / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 以年收入(X1)和房子坪數(X2)做區別變數,辨別家庭有無投資股票。分別蒐集 30 個有投資股票與 30 個無投資股票的家庭資料。相關數據資料如附圖,請問下列何者「不」正確? None 2. Generative model 與 Discriminative model 是兩種不同類型的模型,Generative model 可以透過統計的方法,根據所觀測的資料來建立近似原始資料分布的統計模型,因此可以用在模擬上,下列何者「不」是 Generative model? Logistic regression HMM(Hidden Markov Model) Naïve Bayes GMM(Gaussian Mixture Model) None 3. 參考附圖,關於 Python 語言使用 re 模組進行資料分析時,下列敘述何者正確? myresult.group(0)結果為'02-1234-5678' myresult.group(1)結果為'1234' myresult.group(-1)結果為'1234-5678' myresult.group(2)結果為'5678' None 4. 關於主成分分析(Principal Components Analysis, PCA)於特徵提取(feature extraction)之主要用途,下列敘述何者正確? 將問題領域中的數個變數,組合成單一或數個具訊息力的特徵變數 將最相關的訊息與無關的雜訊結合 提取重要特徵後不能以圖像視覺化呈現多變量資料 將低度相關的預測變數矩陣 X,轉換成相關且量多的潛在變項集合 None 5. k 折交叉驗證(k-fold cross-validation)是機器學習中常用來驗證訓練出來的模型好壞的一種方法,請問以下敘述何者正確? 資料依照類別排序後,依序將資料分成 10 份 通常會重複 k 次以上,再取其中 k-1 次的結果進行平均來評估模型準確率 當 k=10 時是指將數據集分成 10 份,其中 7 份做為訓練,剩下 3 份做驗證 留一驗證法(leave-one-out cross-validation, LOOCV)也是一種 k-fold cross-validation None 6. 關於使用支援向量機(Support Vector Machines, SVM)的核函數(kernel function)於處理分類問題時,下列敘述何者正確? None 7. 關於因素分析(factor analysis)的概念,下列敘述何者「不」正確? 因素分析是利用少數幾個因素來解釋一群彼此有關係存在的變數 因素分析的每個變數除了受共同因素(common factor)影響外,也包含獨特因素(specific factor)存在 資料經因素分析後不能以簡化後的因素對個體作分析 因素分析的應用在於從一群變數中找出少數幾個具代表性的變數,以便作為進一步的統計分析用 None 8. 關於 R 語言模型參數調校使用 caret 套件,下列敘述何者「不」正確? 資料建模的相關參數有兩種:一種可直接利用資料估計其值的模型參數,另一種是不易從資料中估計的超參數 套件{caret}中 train()函數可針對不同模型給予參數調整的範圍 若想要自訂參數調校過程,可以 train()函數改變 trainControl()函數的控制參數 train()函數結合重抽樣方法評估不同模型參數對績效的影響,並從中選出最佳模型 None 9. 請問下列選項中的圖表,何者較「符合」附圖程式碼進行核密度估計繪圖(Kernel Density Estimation, KDE)的結果? None 10. 訓練神經網路模型時,有時會遇到 Loss function 出現 NaN,下列何種做法最「不」恰當? 將輸入值作 Normalization 設置 Gradient Clipping,限制梯度範圍 檢查輸入值,確保資料中不含 NaN 提高 Learning Rate,使其較快收斂 None 11. 就非監督式學習(unsupervised learning)而言,評估集群(cluster)優劣的一種方式是計算群內樣本的相似性(similarity)。當我們持續形成更多群時,群內相似性向上攀升,將樣本切分為更細的集群,請問此操作可能會發生什麼問題? 配適良好(well-fitted) 配適狀況不明(unknown) 過度配適(overfitting) 配適不足(underfitting) None 12. 下列何者是較穩健(Robust)的相關性衡量方法? 最小共變異數判別式法(Minimum Covariance Determinant, MCD) 皮爾森(Pearson)相關係數法 肯德爾(Kendall)相關係數法 史皮爾曼(Spearman)相關係數法 None 13. 關於 ETL(Extract-Transform-Load)載入(Load),下列敘述何者「不」正確? 考量資料的完整性,先將資料載入到暫存區(Temp)或階段區(Stage),之後等資料都到位了之後,再由其他的 ETL 作業把資料一併載入到資料倉儲或資料市集 考慮到系統效能,通常採一筆一筆資料載入,確保資料的完整性 資料最後載入的目的地通常是資料倉儲(Data Warehouse)或是資料市集(Data Mart) 程式或工具對於載入介面的可擴充性及多樣性,是需要考慮的重點之一 None 14. 資料清理是指發現並糾正資料中的錯誤,關於資料清理的方法,下列敘述何者「不」正確? 遺缺值(missing value)的處理 異常值的處理 驗證資料的正確性 迴歸係數的處理 None 15. 關於 ETL(Extract-Transform-Load),下列敘述何者「不」正確? Transform:針對結構資料轉換,非結構資料則無法處理 Load:最後將已作適當轉換過的數據資料載入到目的地 Extract:從資料來源處擷取所需之數據資料 建置或更新資料倉儲(Data Warehouse)中的內容時所需的過程 None 16. 關於分群(clustering)演算法,下列敘述何者正確? 分群的效果與資料數量、群集數量都無關 資料量夠大就不需人為定義分群數 k-means 演算法進行分群前,可先不決定 k 值 訓練模型所使用的資料不需要包含類別標籤 None 17. 政府資料開放平臺(data.gov.tw)的檔案格式中,CSV(Comma-Separated Values)為常見格式之一。請問下列何者「並非」CSV 的特性? 列與列之間以換行分隔 不支援中文資料 儲存兩個維度的陣列資料 欄與欄之間以逗號分隔 None 18. 蒐集氣象觀測站的溫度、水量、風速…等 10 項氣象指標以主成分法做因素分析。10 個特徵值與解釋變量如附圖,下列敘述何者「不」正確? 若以解釋能力 90%為標準,需選入 4 個特徵值(λ1、λ2、λ3、λ4) 選擇 2 個因素(λ1、λ2)可獲得 72.1%的解釋能力 雖然第 3 個特徵值小於 1,但前 3 個特徵值的可解釋全體變數的變異數 80%以上,仍可考慮選入 第 1 個特徵值可解釋全體變數的變異數 45.4% None 19. 附圖為 pandas 資料表(DataFrame)cell_ca t 的部份內容,請問下列選項何者為產製全部變量之次數分佈表的正確指令? cell_cat.select_dtypes(include="object") cell_cat.apply(lambda x: x.value_counts(), axis=0) cell_cat.to_freq() cell_cat.value_counts() None 20. 考慮企業分析不同廣告費用(youtube,facebook,newspaper)對銷售額(sales)的影響,參考附圖 R 語言使用 lm 函數分析結果,下列敘述何者「不」正確? 資料沒有遺漏值 newspaper 變數對整體線性模型最具有影響 全部資料其有 200 筆 調整後判定係數為 0.8961 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up