iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (4) 發佈留言 / 作者: S學院 / 2025-05-24 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 關於效能提升法(Boosting),下列敘述何者「不」正確? 自適應 Boosting(AdaBoost)方法中的各個學習器存在著強依賴關係 是集成學習(Ensemble Learning)的一種方法 可以用來減少變異數(Variance) 自適應 Boosting(AdaBoost)是一種改良效能提升的方法 None 2. 在集成學習(Ensemble Learning)中,拔靴集成法(Bootstrap AGGregatING, BAGGING)和提升法(Boosting)是兩種常見的技術,關於兩者的比較,下列敘述何者正確? 拔靴集成法會根據每個樣本的重要性不同,調整不同權重,而提升法中的每個樣本的權重皆相同 提升法需要依序訓練各個分類器,拔靴集成法則可以平行訓練各個分類器 提升法解決了拔靴集成法的過度配適(Over-fitting)問題,因此有較好的分類準確率 拔靴集成法會產生袋外(Out-of-bag)資料,但提升法不會 None 3. 關於資料解析,下列敘述何者「不」正確? 資料解析過程中,若遇到有異常的數據資料,考慮時效性應該直接予以剔除 資料變數篩選,可以採取專家討論或使用分析方法的方式來進行 資料整理、解析、變數篩選等步驟,往往佔據建模過程中大量的時間 特徵工程(Feature Engineering)是一種資料解析的過程,使用專業背景知識和技巧處理數據,使得特徵能在機器學習算法上發揮更好的作用 None 4. 拔靴集成法(Bootstrap AGGregatING, BAGGING)是一種常見的重抽樣(Resampling)方法,下列敘述何者「不」正確? 拔靴集成法是將已有的觀察值當作是母體,重複進行抽樣 拔靴集成法可以作為交叉驗證的一個替代方法,在原來的樣本中進行替換的隨機採樣,從而得到新的樣本 拔靴集成法常用於大量數據資料重抽樣 當有充足的樣本數、且樣本具有與母體類似的特性時,拔靴集成法可用來近似分配的形狀 None 5. 下列選項何者為梯度下降法的正確步驟順序?(1)重複迭代,直到得到權重最佳值、(2)把輸入傳入類神經網路,得到輸出、(3)對每一個神經元計算誤差與調整相對應的權重以減少誤差、(4)用隨機值初始化權重與偏差、(5)計算預測值與真實值之間的誤差 45132 45312 42531 24513 None 6. 下列何者「不」是 k 平均數(k-means)集群法的特點? 形成的群多為類圓球狀且大小相近 原理簡單,容易以非統計的詞彙解釋說明之 不易受到離群值的影響 算法涉及隨機抽樣,每次運行的結果不盡相同 None 7. 下列何者「不」屬於 Python 物件導向特性? 動態配置(Dynamic Allocation) 封裝(Encapsulation) 多型(Polymorphism) 繼承(Inheritance) None 8. 參考附圖,R 語言中,下列邏輯值索引敘述何者正確? mydata[3]執行結果為 0 mydata[-1]執行結果為 1e+03 sum(mydata)執行結果為 0 mydata[0]執行結果為-1e-03 None 9. 混淆矩陣(Confusion Matrix)是等長的觀測類別值向量與預測類別值向量,交叉統計後的二維表格結果,請問下列敘述何者「不」正確? 混淆矩陣中真陽數一定大於真陰數 形容詞真與假意指預測的結果是否與其真實的類別相同 R 語言 caret 套件與 Python 語言 pandas_ml 套件中有分類模型的各種績效評估指標 陽性事件通常是我們所關心的事件,例如:授信客戶違約、垃圾郵件與簡訊、患有某種疾病等,當這些事件發生時,人們通常會採取因應措施 None 10. 參考附圖,關於 Python 語言匯入 CSV 檔案,下列敘述何者正確? mydata.dropna()執行結果顯示 4 筆資料 mydata 的資料筆數為 5 mydata.dropna(axis = 1)執行結果顯示 4 筆資料 sum(pd.isnull(mydata['COSubIndex']))執行結果為 3 None 11. 附圖為某商店其中一位客戶的消費紀錄,請問下列何種資料處理方式「最不」適當? 依照消費金額尋找可能之商品名稱填補 NA 值 不修正時間,依照資料順序建立消費金額的時間序列 移除含有 NA 值的該筆觀測值資料 修正錯誤的時間,建立消費金額的時間序列 None 12. 當資料科學家建模時,下列何者為過度配適(Over-fitting)的狀況? 測試誤差低,訓練誤差低 測試誤差高,訓練誤差低 測試誤差高,訓練誤差高 測試誤差低,訓練誤差高 None 13. 關於支援向量機(Support Vector Machines, SVM),下列敘述何者「不」正確? 易受雜訊影響,容易過度配適(Over-fitting) 藉由最大化超平面與資料之間的邊界幅度,決定分割步同樣本的最佳決策邊界 是分類、異常偵測與迴歸的工具 以原始空間內積,來表達屬性空間中向量的內積,而計算屬性空間中向量內積的函數稱為核函數(Kernel Function) None 14. 真實的反應變數值與預測的反應變數值之間的差,稱為殘差或(預測)誤差,下列何者是應用殘差平方值的總和來評估迴歸模型的績效? 均方預測誤差(Mean Squared Error, MSE) 誤差絕對值和(Sum of Absolute Error, SAE) 誤差平方和(Sum of the Squared Errors, SSE) 均方根預測誤差(Root Mean Squared Error, RMSE) None 15. 關於非監督式學習(Unsupervised Learning),下列敘述何者正確? 因為對大量資料進行標籤相當費時,所以非監督式學習只需要對少部分資料進行標籤即可 在訓練時僅須對機器提供輸入範例,非監督式學習的方法會自動從這些範例中找出潛在的規則 KNN(K Nearest Neighbor)演算法屬於非監督式學習方法 針對網站上線後進行 A/B Test 是屬於非監督式學習的一種實務應用 None 16. 關於讀取.xlsx 檔,下列敘述何者正確? 在 Python 語言中,可使用 pandas 套件中的 read_excel( )方法 在 R 語言中,可使用{readxl}套件中的 readxl( )函數 在 R 語言中,只有一個套件{readxl}可以使用 在 Python 語言中,可使用 pandas 套件中的 open_xlsx( )方法 None 17. 透過 Python 載入 CSV 資料時,可能會使用 pandas 套件的 read_csv 函數,下列敘述何者「不」正確?(可參考附圖官方說明文件) 可以直接匯入網路上的 CSV 資料,例如:pandas.read_csv('http://www.sample-videos.com/csv/Sample-Spreadsheet-10-rows.csv') 可以直接匯入本機資料夾的 CSV 資料 XLS(Excel Spreadsheet)資料類似於 CSV,故也可透過此函數匯入 可以載入非 CSV 格式,例如以 Tab 分隔或是以句號分隔的純文字資料 None 18. 若執行新專案,輸入的向量超過 100 維,下列何種方法「不」適合用來做為降維並取得特徵向量的方法? LSTM(Long Short-Term Memory) Autoencoder PCA(Principal Component Analysis) ICA(Independent Component Analysis) None 19. 下列何者「不」屬於 Python 或 R 常用到的繪圖套件? Matplotlib D3.js(Data-Driven Documents) ggplot2 Seaborn None 20. 附圖為某餐廳之"餐廳小費統計數據"所繪製而成的箱型圖(Box Plot)。關於該數據與圖表的敘述,下列何者較「不」正確?(單位:元) 該數據之最小值大於 0 元 該數據之箱型圖繪製結果中,沒看到有離群值的情況 該數據之中位數介於 10-20 元之間 該數據之第三四分位數(第 75 個百分位數)大約是 24 元 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up