iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (6) / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題 ,採智能選題,無限次反覆練習。 1. 如附圖所示為資料視覺化的圖表,一位房地產分析師研究了房屋面積(House Area)、房齡(House Age)、鄰近學校的數量(Number of Nearby Schools)與房價(Price)之間的關係。考慮到這些因素的綜合影響,分析師建立了一個綜合特徵得分(Feature Score)來評估房價。請根據所提供的圖表資料,判斷下列哪一項敘述最準確地反映了這些特徵與房價之間的關係? 房屋面積對房價有正向影響,而房齡對房價有負向影響,鄰近學校的數量對房價的正向影響最為顯著 雖然所有特徵都對房價有影響,但綜合特徵得分與房價的關係顯示出最強的正相關 房屋面積和房齡對房價的影響幾乎相同,鄰近學校的數量對房價影響不大 房屋面積的增加對房價的提升沒有顯著影響,而房齡和鄰近學校的數量才是主要影響原因 None 2. 在根因分析中,為了找出製程中的主要變異來源,常使用多變量分析技術。下列哪一種方法最適合進行多變量資料的根因分析? 判別分析(Discriminant Analysis) 多重線性迴歸(Multiple Linear Regression, MLR) 群集分析(Cluster Analysis) 因子分析(Factor Analysis) None 3. 關於交叉驗證方法的敘述,下列哪一樣錯誤? 留一交叉驗證(Leave-One-Out Cross Validation, LOOCV)的摺數為樣本數,每次只留單一樣本作為測試資料 重複的 k 摺交叉驗證(repeated k-fold cross-validation)可有效提高估計的精確度,同時保持較小的偏誤 k 摺交叉驗證(k-fold cross-validation),k 較小的狀況下,偏誤(bias)與拔靴法差不多,但變異數較小 k 摺交叉驗證,k 為 5 時,模型需要進行 5 次的訓練 None 4. 在時間序列資料處理中,進行季節性分析(Seasonal Analysis)的主要目的是什麼? 消除資料中的噪音 短期性預測 增加資料的複雜性 識別和理解資料的重複樣態 None 5. 統計製程管制(SPC)中,下列哪一種控制圖可以用來監控製程中的變異? 直方圖(Histogram) 均值-全距圖(Xbar-R Chart) 魚骨圖(Fishbone Diagram) 箱型圖(Box Plot) None 6. 如附圖所示,一位資深資料科學家正在使用交叉驗證來評估一個多分類模型,該模型旨在預測患者可能發展的疾病類型,例如心臟病、糖尿病或腦中風等。附圖顯示該模型在訓練過程中 100 個 epoch 內,訓練集(藍色線)和驗證集(紅色線)上的 log loss 變化,科學家觀察到訓練損失持續下降,而驗證損失在初期下降後開始上升,基於此觀察,下列哪一種方法最可能幫助改善模型在未見數據上的泛化能力? 此圖模型的訓練和驗證損失趨勢完全一致,表明模型在訓練集和驗證集上有著相同的表現,因此不需要做任何改變 實施提前停止(Early Stopping)以避免過度配適 訓練結果呈現 100 個 epoch 呈現不足夠的,需要增加更多的訓練反覆運算次數以繼續降低訓練損失 此訓練結果顯示分類準確率,可隨著增加模型的複雜度,來確保提高配適能力 None 7. 如附圖所示,為某知名影音串流平台各「年齡分級」的「電影片長」分佈圖表。圖表 X 軸為「電影片長 (minutes)」,Y 軸為「年齡分級」,關於圖表的敘述,下列敘述哪一項正確? 觀察圖表來看,Adults 片長的中位數,是所有年齡分級中最長的 Older Kids 片長的中位數(Median)小於 100 分鐘 Kids 的片長資料分佈中,不存在離群值(Outlier) 所有年齡分級,片長分佈的第 3 四分位數(Q3),皆大於 100 分鐘 None 8. 對於設備故障診斷與健康管理(Prognostics and Health Management, PHM),可依時間點將維修分為事後維修(Reactive Maintenance)、預防維修(Preventive Maintenance)與主動維修(Proactive Maintenance),下列哪一項屬於預防維修? 緊急搶修(Emergency Maintenance) 基於可靠性的維修(Reliability-based Maintenance) 延遲維修(Deferred Maintenance) 剩餘壽命預測(Residual-life Prediction) None 9. 請問低結構化的文本或圖像資料,下列哪一種特徵工程(Feature Engineering)類型最適合? 特徵選擇(Feature Selection) 特徵建構(Feature Construction) 特徵改善(Feature Improvement) 特徵學習(Feature Learning) None 10. 下列哪一種降維技術最適合處理高維度稀疏資料? K-means 分群(K-means Clustering) 奇異值分解(Singular Value Decomposition) 樹狀模型(Tree Model) 主成份分析(Principal Component Analysis, PCA) None 11. 有效與安全的工廠運作需要正確監控製程中的關鍵變量,資料調諧(Data Reconciliation, DR)是製程監控不可或缺的一部份,關於 DR 的敘述,下列哪一項錯誤? 製程量測的變量值總是不夠正確 製程洩漏(流體)是隨機誤差的來源之一 隨機與系統誤差導致量測不正確 資料調諧經常需要運用質量和能量的守恆方程式 None 12. 下列一個方法「不」需要進行量綱處理? 支援向量機(Support Vector Machine) K-means 分群(K-means Clustering) 樹狀模型(Tree Model) 類神經網路(Neural Network) None 13. 關於遞歸神經網路(Recurrent Neural Networks, RNN)的敘述,下列哪一項錯誤? 長短期記憶神經網路(Long-Short Term Memory, LSTM)加強了遞歸隱藏層的功能 傳統遞歸神經網路對硬體不友善,不適合作為雲端環境與邊緣運算下的解決方案 變形金剛網路(Transformers)是一種遞歸神經網路 雙向化及堆疊加深是另一個強化遞歸神經網路記憶的方向 None 14. 工業領域的巨量資料主要是線上監測資料和週期性檢測資料,因此呈現明顯的時序特徵,關於時間序列的敘述,下列哪一項錯誤? 時間序列表達(Time Series Representation)是對數值的預測,例如穩態時間序列的經典方法是自我迴歸整合移動平均法(AutoRegression Integrated Moving Average, ARIMA) 時間序列分割(Time Series Segmentation)是將長序列切分為若干子序列,因為不同的製造操作條件下,變量間的關係差別很大 時間序列模式(Sequential Pattern)探勘用於發現長序列中常見的子序列模式,主要任務是挖掘時間序列中的頻繁模式 時間序列分解依照變化模式,將時間序列分解為若干成份或分量,因為許多隨機過程在不同時間顆粒度(年、季、月、週、日…..)上的規律和驅動因子不同 None 15. 進行巨量資料分析時,最佳模型(model)參數值或參數組合的選擇,是件重要但不容易的工作,資料科學家通常會運用_(1)_進行估計,並以預測誤差估計值的全域最小值來決定模型複雜度或最佳參數組合。獲得單類模型的最佳參數後,還須跨越不同類型的模型(models)進行_(2)_比較,透過其中的_(3)_來決定各模型差距的顯著狀況。請將下列方法論,依順序正確地填入上述的 (1)(2)(3) 空格中:甲:正確率或Kappa 係數和 p 值。乙:統計檢定。丙:交叉驗證。 甲 -> 乙 -> 丙 丙 -> 甲 -> 乙 丙 -> 乙 -> 甲 乙 -> 丙 -> 甲 None 16. 考慮一個簡單的神經網路,包含一個輸入層、一個隱藏層和一個輸出層。輸入層有兩個神經元,隱藏層有三個神經元,輸出層有一個神經元。請問下列敘述哪一項正確? 如果增加隱藏層的神經元數量,模型的複雜度將降低 隱藏層的神經元數量與輸入層的維度必須相同 如果去除隱藏層,模型將無法解決非線性問題 增加隱藏層的數量一定會降低模型的預測準確率 None 17. 關於多層感知模型(Multi-layer Perceptron)的敘述,下列哪一項錯誤? 單層感知模型(Single Layer Perceptron)沒有隱藏層 多層感知模型可以透過隱藏層改變模型的輸出 多層感知模型可以是非線性的模型 多層感知模型利用反向傳播算法時,一定能找到權重參數的全域最佳解(Global Optimization) None 18. 某公司的歷年營業額統計圖如附圖所示,包含實際值與指數平滑(Exponential Smoothing)後的結果,關於指數平滑的敘述,下列哪一項正確? 平滑的方式是算術平均 平滑係數是依據時間序列特性決定 A 採用的平滑係數比 B 大 平滑係數沒有範圍限制 None 19. 關於圖表特性的敘述,下列哪一項錯誤? 箱型圖(Box Plot)可以呈現資料的分佈狀況,以及離群值的檢測 散佈圖(Scatter Plot)可以用於觀察群體的分佈形狀、密度和集中趨勢 長條圖(Bar Chart)適合用於比較類別變數之間的差異 圓餅圖(Pie Chart)可以呈現兩個變數之間的相關性與趨勢 None 20. 當模型的訓練誤差(Training Error)低、但測試誤差(Test Error)很大時,這通常是在訓練過程中、產生下列哪一種情況? 模型的泛化能力強 模型出現過度配適(Overfitting) 訓練資料和測試資料之間沒有相關性 模型出現配適不足(Underfitting) None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up