iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (4) / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 有一 pandas DataFrame 格式的變數 df,其資料內容如下: df.數學.median(),可得到 df 數學欄位之平均值為 76 df["加權分數"] = df.國文1 + df.英文2 + df.數學*2,可新增"加權分數"欄位至 df df.groupby("班級").agg({"姓名": "nunique"}),可獲得各班級人數之分組統計 df[df.姓名.str.startswith("K")],可篩選出 df 姓名開頭為 K 的資料表 None 2. 在集成學習(Ensemble Learning)中,拔靴集成法(Bootstrap AGGregatING, BAGGING)和提升法(Boosting)是兩種常見的技術,關於兩者的比較,下列敘述何者正確? 拔靴集成法會根據每個樣本的重要性不同,調整不同權重,而提升法中的每個樣本的權重皆相同 拔靴集成法會產生袋外(Out-of-bag)資料,但提升法不會 提升法需要依序訓練各個分類器,拔靴集成法則可以平行訓練各個分類器 提升法解決了拔靴集成法的過度配適(Over-fitting)問題,因此有較好的分類準確率 None 3. 關於處理不平衡的數據資料集,下列何者「不」是常見採用的解決方法? C5.0 法 數據複製(Repetition) k 折交叉驗證法(k-fold Cross-validation) 拔靴法(Boostrapping) None 4. 參考附圖,R 語言中下列敘述何者正確? 四大類別中,60-64 歲人口死亡率第二高者為「郊區-男性」 使用 barplot 繪圖時,須設定 beside = FALSE 才可繪製附圖結果 四大類別中,合計死亡率最高者為「都市-女性」 資料共有 25 筆 None 5. 有一 pandas DataFrame 格式的變數 df,其資料內容如下:請問執行附圖程式碼後,下列選項內姓名何者「不」在執行結果當中? Andrew Celine Jen Judy None 6. 機器學習模型中,關於模型的偏差(Bias)與變異(Variance),下列敘述何者正確? 模型訓練的目標為低偏差與高變異 高變異代表模型過於簡單 高偏差代表模型過於複雜 偏差與變異之間存在平衡(Trade-off)關係 None 7. 參考附圖,Python 語言中,選項中何者為計算各列的平均值? df.aggregate("mean", axis=0) df.aggregate("mean") df.aggregate("mean", axis="index") df.aggregate("mean", axis=1) None 8. 在隨機森林演算法中,如果資料數目總共為 N 個,該如何進行拔靴集成法(Bootsrap AGGregatING, BAGGING)處理? 從 N 個資料中取 n 個資料並將樣本放回 從 N 個資料分布中,挑選位於平均正負一個標準差的樣本,並將樣本放回 從 N 個資料中取 n 個資料並且不將樣本放回 從 N 個資料分布中,挑選位於平均正負一個標準差的樣本,並不將樣本放回 None 9. 關於讀取.xlsx 檔,下列敘述何者正確? 在 Python 語言中,可使用 pandas 套件中的 read_excel( )方法 在 R 語言中,可使用{readxl}套件中的 readxl( )函數 在 R 語言中,只有一個套件{readxl}可以使用 在 Python 語言中,可使用 pandas 套件中的 open_xlsx( )方法 None 10. 關於資料匯入與匯出,下列敘述何者「不」正確? ETL 作業常有上下游作業關係,因此需要設定好相互關係(Job Dependency)與執行順序 當 ETL 作業發生錯誤時,規劃良好的 ETL 作業具有分階段重新執行能力(Re-run),不用每次都重頭開始 考慮到關聯式資料庫之 ETL 作業執行效率,可一次執行多個大資料表(Table)關聯(Join),讓資料一次寫入目的地 針對來源資料量設計資料萃取(Extract)方式,例如:將大檔案切分為數個小檔案後,各別進行資料萃取作業 None 11. 參考附圖,關於 mtcars 資料集散佈圖矩陣,下列敘述何者為正確? qsec 與 disp 呈現約為負相關 hp 達到 300 以上佔較大的比例 disp 與 hp 資料呈現約為負相關 mpg 與 disp 資料呈現約為正相關 None 12. 交叉驗證(Cross-Validation)主要用於模型訓練或建模應用中,目的是為了得到可靠穩定的模型。請問下列敘述何者正確? 採用 k 摺交叉驗證(k-fold Cross Validation)通常會重複 k 次以上,以 k-1 次的結果均值作為對算法精度的估計 保留法(Holdout)驗證不算交叉驗證的類型 交叉驗證經常用於分類預測、偏最小平方(Partial Least Squares, PLS)迴歸建模等 k 摺交叉驗證(k-fold Cross Validation),若 k=10,代表將數據集分成 10 份,將其中 5 份做訓練、5 份做驗證 None 13. 關於特徵工程(Feature Engineering),下列敘述何者正確? 遇到類別型屬性的資料,不可以採用單熱編碼(One-hot Encoding)方式來進行分解 逐步迴歸經常用於特徵縮放 特徵交叉是一種很獨特的方式,它將兩個或更多的類別屬性組合成一個,當組合的特徵要比單個特徵更好時,這是一項非常有用的技術 時間戳屬性通常只需要分離成一兩個維度,比如:年、月,其他太細如:日、小時、分鐘、秒鐘等就不需要了 None 14. 真實的反應變數值與預測的反應變數值之間的差,稱為殘差或(預測)誤差,下列何者是應用殘差平方值的總和來評估迴歸模型的績效? 誤差絕對值和(Sum of Absolute Error, SAE) 誤差平方和(Sum of the Squared Errors, SSE) 均方根預測誤差(Root Mean Squared Error, RMSE) 均方預測誤差(Mean Squared Error, MSE) None 15. 有一 pandas DataFrame 格式的變數 df,其資料內容如下:請問表格中(1)、(2)、(3)、(4)依序內容,下列選項何者較為符合? 姓名、mean、min、max 科目、median、min、max 科目、mean、min、max 姓名、median、mean、max None 16. 拔靴集成法(Bootstrap AGGregatING, BAGGING)是一種常見的重抽樣(Resampling)方法,下列敘述何者「不」正確? 拔靴集成法是將已有的觀察值當作是母體,重複進行抽樣 當有充足的樣本數、且樣本具有與母體類似的特性時,拔靴集成法可用來近似分配的形狀 拔靴集成法可以作為交叉驗證的一個替代方法,在原來的樣本中進行替換的隨機採樣,從而得到新的樣本 拔靴集成法常用於大量數據資料重抽樣 None 17. 當資料科學家建模時,下列何者為過度配適(Over-fitting)的狀況? 測試誤差低,訓練誤差高 測試誤差高,訓練誤差高 測試誤差高,訓練誤差低 測試誤差低,訓練誤差低 None 18. 關於隨機森林(Random Forest),下列敘述何者正確? 處理的問題涉及序列相關的決策(Sequential Decisions) 在模型中融入屬性隨機挑選的機制 經常使用在 Kaggle 競賽中的統計機器學習算法之一,以建立多個互補的弱模型(Weak Learner)提升效能 產生的模型集合俗稱裝袋樹(Bagged Trees) None 19. 若執行新專案,輸入的向量超過 100 維,下列何種方法「不」適合用來做為降維並取得特徵向量的方法? ICA(Independent Component Analysis) Autoencoder PCA(Principal Component Analysis) LSTM(Long Short-Term Memory) None 20. 附圖為某餐廳之"餐廳小費統計數據"所繪製而成的箱型圖(Box Plot)。關於該數據與圖表的敘述,下列何者較「不」正確?(單位:元) 該數據之箱型圖繪製結果中,沒看到有離群值的情況 該數據之第三四分位數(第 75 個百分位數)大約是 24 元 該數據之最小值大於 0 元 該數據之中位數介於 10-20 元之間 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up