iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (6) 發佈留言 / 作者: S學院 / 2025-05-26 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題 ,採智能選題,無限次反覆練習。 1. 如附圖所示為資料視覺化的圖表,一位房地產分析師研究了房屋面積(House Area)、房齡(House Age)、鄰近學校的數量(Number of Nearby Schools)與房價(Price)之間的關係。考慮到這些因素的綜合影響,分析師建立了一個綜合特徵得分(Feature Score)來評估房價。請根據所提供的圖表資料,判斷下列哪一項敘述最準確地反映了這些特徵與房價之間的關係? 房屋面積和房齡對房價的影響幾乎相同,鄰近學校的數量對房價影響不大 房屋面積對房價有正向影響,而房齡對房價有負向影響,鄰近學校的數量對房價的正向影響最為顯著 房屋面積的增加對房價的提升沒有顯著影響,而房齡和鄰近學校的數量才是主要影響原因 雖然所有特徵都對房價有影響,但綜合特徵得分與房價的關係顯示出最強的正相關 None 2. 關於交叉驗證方法的敘述,下列哪一樣錯誤? k 摺交叉驗證(k-fold cross-validation),k 較小的狀況下,偏誤(bias)與拔靴法差不多,但變異數較小 留一交叉驗證(Leave-One-Out Cross Validation, LOOCV)的摺數為樣本數,每次只留單一樣本作為測試資料 k 摺交叉驗證,k 為 5 時,模型需要進行 5 次的訓練 重複的 k 摺交叉驗證(repeated k-fold cross-validation)可有效提高估計的精確度,同時保持較小的偏誤 None 3. 設備故障預測模型中,隨著資料量的增加,下列哪一種方法可以用來提高模型的可解釋性? 增加模型的複雜度以提高準確性 使用黑盒模型提高預測精度 使用樹狀模型並進行特徵重要性分析 使用深度神經網路進行預測 None 4. 處理文字資料時,因為文字有前後次序,可以利用循環神經網路(Recurrent Neural Network, RNN)來計算文字的機率分佈,下列哪一項不是利用 RNN 時一次輸入太多文字可能產生的問題? 梯度爆炸(Gradient Exploding) 資料變成低結構化資料(ill-Unstructured Data) 梯度消失(Gradient Vanishing) 最初的序列資料可能被遺忘 None 5. 關於多層感知模型(Multi-layer Perceptron)的敘述,下列哪一項錯誤? 多層感知模型可以是非線性的模型 單層感知模型(Single Layer Perceptron)沒有隱藏層 多層感知模型可以透過隱藏層改變模型的輸出 多層感知模型利用反向傳播算法時,一定能找到權重參數的全域最佳解(Global Optimization) None 6. 關於數值資料的缺失值、異常值處理,下列敘述哪一項錯誤? 缺失值的處理,可在考慮資料集的狀況與特性後,以中位數、平均數或眾數進行填補 若缺失值的資料筆數非常少,大多數情況下可以考慮直接刪除 可以透過視覺化的方式,觀察資料的分佈是否有異常之處 若資料集中出現異常值,一律直接刪除,以免影響資料分析的結果 None 7. 進行巨量資料分析時,最佳模型(model)參數值或參數組合的選擇,是件重要但不容易的工作,資料科學家通常會運用_(1)_進行估計,並以預測誤差估計值的全域最小值來決定模型複雜度或最佳參數組合。獲得單類模型的最佳參數後,還須跨越不同類型的模型(models)進行_(2)_比較,透過其中的_(3)_來決定各模型差距的顯著狀況。請將下列方法論,依順序正確地填入上述的 (1)(2)(3) 空格中:甲:正確率或Kappa 係數和 p 值。乙:統計檢定。丙:交叉驗證。 丙 -> 乙 -> 甲 丙 -> 甲 -> 乙 甲 -> 乙 -> 丙 乙 -> 丙 -> 甲 None 8. 關於圖表特性的敘述,下列哪一項錯誤? 散佈圖(Scatter Plot)可以用於觀察群體的分佈形狀、密度和集中趨勢 圓餅圖(Pie Chart)可以呈現兩個變數之間的相關性與趨勢 箱型圖(Box Plot)可以呈現資料的分佈狀況,以及離群值的檢測 長條圖(Bar Chart)適合用於比較類別變數之間的差異 None 9. 考慮一個簡單的神經網路,包含一個輸入層、一個隱藏層和一個輸出層。輸入層有兩個神經元,隱藏層有三個神經元,輸出層有一個神經元。請問下列敘述哪一項正確? 如果去除隱藏層,模型將無法解決非線性問題 隱藏層的神經元數量與輸入層的維度必須相同 如果增加隱藏層的神經元數量,模型的複雜度將降低 增加隱藏層的數量一定會降低模型的預測準確率 None 10. 在設備故障預測中,基於機器學習的預測模型需要大量的歷史數據來進行訓練和測試。當面臨少量標註數據的情況時,下列哪一種技術最能有效提高預測模型的準確性? 遷移學習(Transfer Learning) 支援向量機(Support Vector Machine, SVM) 集成學習(Ensemble Learning) 卷積神經網路(Convolutional Neural Networks, CNN) None 11. 如附圖所示,此神經網路被訓練來預測氣象條件,其中輸入層接收包含溫度、濕度和氣壓三項資料,隱藏層負責處理這些資料並識別潛在的複雜模式,而輸出層的目的是預測兩個結果:明天是否會下雨以及氣溫是否會上升。依據上述設定,下列哪一項敘述最準確地反映了這個神經網路模型的工作原理? 輸入層的每個神經元只向一個隱藏層神經元傳遞數據,這意味著模型不能充分利用輸入數據之間的相互作用來做出預測 隱藏層中的每個神經元都能接收來自所有輸入層神經元的數據,這使得模型能夠識別溫度、濕度和氣壓之間的複雜關係,從而提高預測準確性 每個隱藏層神經元的輸出只受到一個輸入層神經元的影響,這限制了模型學習複雜氣象模式的能力 由於每個輸出層神經元都是從一個隱藏層神經元獲得數據,因此模型無法準確預測基於多個因素的氣象條件 None 12. 請問低結構化的文本或圖像資料,下列哪一種特徵工程(Feature Engineering)類型最適合? 特徵選擇(Feature Selection) 特徵學習(Feature Learning) 特徵建構(Feature Construction) 特徵改善(Feature Improvement) None 13. 有效與安全的工廠運作需要正確監控製程中的關鍵變量,資料調諧(Data Reconciliation, DR)是製程監控不可或缺的一部份,關於 DR 的敘述,下列哪一項錯誤? 資料調諧經常需要運用質量和能量的守恆方程式 製程量測的變量值總是不夠正確 製程洩漏(流體)是隨機誤差的來源之一 隨機與系統誤差導致量測不正確 None 14. 下列哪一種建模方法,配適模型前不需要進行各個變量的尺度縮放調整(Scaling)前處理步驟? k 近鄰法(k Nearest Neighbors) 支援向量機(Support Vector Machines) 多層感知機(Multilayer Oerceptron) 迴歸樹(Regression Trees) None 15. 在時間序列資料處理中,進行季節性分析(Seasonal Analysis)的主要目的是什麼? 識別和理解資料的重複樣態 短期性預測 增加資料的複雜性 消除資料中的噪音 None 16. 某公司的歷年營業額統計圖如附圖所示,包含實際值與指數平滑(Exponential Smoothing)後的結果,關於指數平滑的敘述,下列哪一項正確? A 採用的平滑係數比 B 大 平滑係數是依據時間序列特性決定 平滑的方式是算術平均 平滑係數沒有範圍限制 None 17. 如附圖所示,時間序列預測模型自我迴歸整合移動平均法(AutoRegression Integrated Moving Average, ARIMA)的建立,如果涉及如附圖之步驟,下列何者為正確順序? 4213 2134 1234 2413 None 18. 設備健康管理系統中,預測模型的準確性對於維護決策相當重要。下列哪一種技術無法確保模型的穩健性? 增加訓練集大小 隨機抽樣 交叉驗證 單一訓練集測試 None 19. 下列哪一項敘述最「不」可能是設備故障預測的任務? 失效風險評估 剩餘壽命預測 維修路線最佳化 劣化趨勢預警 None 20. 關於長短期記憶(Long Short Term Memory, LSTM)神經網路的閘門(gates)與參數矩陣的敘述,下列何項正確? 三個閘門,有四個參數矩陣需要從資料中估計 四個閘門,有三個參數矩陣需要從資料中估計 三個閘門,有兩個參數矩陣需要從資料中估計 四個閘門,有四個參數矩陣需要從資料中估計 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up