iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (4) 發佈留言 / 作者: S學院 / 2025-05-24 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 關於模型績效評量,下列敘述何者「不」正確? 衡量該模型績效的方式通常很多,實務上建議以單一評估指標瞭解特定模型的優缺點 沒有衡量就無法管控,任何預測模型只有運用適當的指標,評核其模型績效後方能合理的運用之 以迴歸模型來說,許多績效評量的計算是基於殘差(Residual),或稱預測誤差(Prediction Error),也可簡稱為誤差(Error) 均方預測誤差(Mean Squared Error, MSE)或簡稱為均方誤差,它是殘差平方值的算術平均,因其單位是原始反應變數單位的平方,容易造成數據解讀上的困擾 None 2. 附圖是某次瑕疵檢測的混淆矩陣,此次總共檢測 100 片電路板,實際有瑕疵的電路板有 9 片,下列敘述何者「不」正確? Recall Rate 為 0.11 正確率(Accuracy)為 0.91 Precision Rate 為 0.11 F1-measure 為 0.18 None 3. 真實的反應變數值與預測的反應變數值之間的差,稱為殘差或(預測)誤差,下列何者是應用殘差平方值的總和來評估迴歸模型的績效? 均方根預測誤差(Root Mean Squared Error, RMSE) 誤差平方和(Sum of the Squared Errors, SSE) 誤差絕對值和(Sum of Absolute Error, SAE) 均方預測誤差(Mean Squared Error, MSE) None 4. 有一 pandas DataFrame 格式的變數 df,其資料內容如下:df_new = df.dropna(subset=['電話', '信箱'])、print(list(df_new.姓名.unique())),請問執行附圖程式碼後,下列何者為輸出結果? ['Alfred', 'Ken'] ['Batman', 'Catwoman'] ['Alfred', 'Batman', 'Catwoman'] ['Alfred', 'Batman', 'Catwoman', 'Chris', 'Ken'] None 5. 關於各類統計圖的使用時機,下列敘述何者「不」正確? 泡泡圖(Bubble),用泡泡大小展現第三變量 散佈圖(Scatter Plot)可以用來觀察兩連續變數 X 與 Y 之間的關係 雷達圖(Radar Char)可以用來比較多個指標 散佈圖(Scatter Plot)可以觀察兩個變數間的因果關係 None 6. 關於特徵工程(Feature Engineering),下列敘述何者正確? 特徵交叉是一種很獨特的方式,它將兩個或更多的類別屬性組合成一個,當組合的特徵要比單個特徵更好時,這是一項非常有用的技術 遇到類別型屬性的資料,不可以採用單熱編碼(One-hot Encoding)方式來進行分解 時間戳屬性通常只需要分離成一兩個維度,比如:年、月,其他太細如:日、小時、分鐘、秒鐘等就不需要了 逐步迴歸經常用於特徵縮放 None 7. 關於資料解析,下列敘述何者「不」正確? 資料變數篩選,可以採取專家討論或使用分析方法的方式來進行 資料解析過程中,若遇到有異常的數據資料,考慮時效性應該直接予以剔除 資料整理、解析、變數篩選等步驟,往往佔據建模過程中大量的時間 特徵工程(Feature Engineering)是一種資料解析的過程,使用專業背景知識和技巧處理數據,使得特徵能在機器學習算法上發揮更好的作用 None 8. 關於處理不平衡的數據資料集,下列何者「不」是常見採用的解決方法? C5.0 法 拔靴法(Boostrapping) k 折交叉驗證法(k-fold Cross-validation) 數據複製(Repetition) None 9. 拔靴集成法(Bootstrap AGGregatING, BAGGING)是一種常見的重抽樣(Resampling)方法,下列敘述何者「不」正確? 當有充足的樣本數、且樣本具有與母體類似的特性時,拔靴集成法可用來近似分配的形狀 拔靴集成法是將已有的觀察值當作是母體,重複進行抽樣 拔靴集成法可以作為交叉驗證的一個替代方法,在原來的樣本中進行替換的隨機採樣,從而得到新的樣本 拔靴集成法常用於大量數據資料重抽樣 None 10. 透過 Python 載入 CSV 資料時,可能會使用 pandas 套件的 read_csv 函數,下列敘述何者「不」正確?(可參考附圖官方說明文件) XLS(Excel Spreadsheet)資料類似於 CSV,故也可透過此函數匯入 可以載入非 CSV 格式,例如以 Tab 分隔或是以句號分隔的純文字資料 可以直接匯入網路上的 CSV 資料,例如:pandas.read_csv('http://www.sample-videos.com/csv/Sample-Spreadsheet-10-rows.csv') 可以直接匯入本機資料夾的 CSV 資料 None 11. 基於集群的離群值之偵測方法(Clustering-based Approaches),下列何者「不」是用來判斷離群值的依據? 物件是否位於兩個集群之間 物件與最接近的集群之間是否存在較大距離 物件不屬於任何集群 物件是小型或稀疏集群的一部分 None 12. 關於效能提升法(Boosting),下列敘述何者「不」正確? 自適應 Boosting(AdaBoost)方法中的各個學習器存在著強依賴關係 自適應 Boosting(AdaBoost)是一種改良效能提升的方法 是集成學習(Ensemble Learning)的一種方法 可以用來減少變異數(Variance) None 13. 參考附圖,Python 語言中,選項中何者為計算各列的平均值? df.aggregate("mean", axis="index") df.aggregate("mean", axis=1) df.aggregate("mean", axis=0) df.aggregate("mean") None 14. 參考附圖,關於 Python 語言匯入 CSV 檔案,下列敘述何者正確? mydata.dropna()執行結果顯示 4 筆資料 mydata.dropna(axis = 1)執行結果顯示 4 筆資料 sum(pd.isnull(mydata['COSubIndex']))執行結果為 3 mydata 的資料筆數為 5 None 15. 關於資料匯入與匯出,下列敘述何者「不」正確? 考慮到關聯式資料庫之 ETL 作業執行效率,可一次執行多個大資料表(Table)關聯(Join),讓資料一次寫入目的地 當 ETL 作業發生錯誤時,規劃良好的 ETL 作業具有分階段重新執行能力(Re-run),不用每次都重頭開始 ETL 作業常有上下游作業關係,因此需要設定好相互關係(Job Dependency)與執行順序 針對來源資料量設計資料萃取(Extract)方式,例如:將大檔案切分為數個小檔案後,各別進行資料萃取作業 None 16. 下列選項何者為梯度下降法的正確步驟順序?(1)重複迭代,直到得到權重最佳值、(2)把輸入傳入類神經網路,得到輸出、(3)對每一個神經元計算誤差與調整相對應的權重以減少誤差、(4)用隨機值初始化權重與偏差、(5)計算預測值與真實值之間的誤差 24513 45312 45132 42531 None 17. 混淆矩陣(Confusion Matrix)是等長的觀測類別值向量與預測類別值向量,交叉統計後的二維表格結果,請問下列敘述何者「不」正確? 形容詞真與假意指預測的結果是否與其真實的類別相同 R 語言 caret 套件與 Python 語言 pandas_ml 套件中有分類模型的各種績效評估指標 混淆矩陣中真陽數一定大於真陰數 陽性事件通常是我們所關心的事件,例如:授信客戶違約、垃圾郵件與簡訊、患有某種疾病等,當這些事件發生時,人們通常會採取因應措施 None 18. 參考附圖,R 語言中下列敘述何者正確? 使用 barplot 繪圖時,須設定 beside = FALSE 才可繪製附圖結果 四大類別中,60-64 歲人口死亡率第二高者為「郊區-男性」 資料共有 25 筆 四大類別中,合計死亡率最高者為「都市-女性」 None 19. 附圖為某商店其中一位客戶的消費紀錄,請問下列何種資料處理方式「最不」適當? 移除含有 NA 值的該筆觀測值資料 不修正時間,依照資料順序建立消費金額的時間序列 修正錯誤的時間,建立消費金額的時間序列 依照消費金額尋找可能之商品名稱填補 NA 值 None 20. 關於關聯分析之 FP-growth(Frequent Pattern-growth)演算法,下列敘述何者正確? 構造了一個高度緊湊的資料結構(FP-tree)來壓縮原始交易資料庫 著重於多次掃描資料庫以避免昂貴的候選生成 這是一種需要生成候選項目集的頻繁項目集探勘方法 採用類似 Apriori 方法的生成和測試(Generate-and-test)策略 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up