iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (3) / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 俗話說:「三個臭皮匠,勝過一個諸葛亮」,恰好呼應了拔靴集成法(Bootsrap AGGregatING, BAGGING)中,會產生多個弱分類器,並將這些弱分類器組合在一起,以獲得一個強分類器,有機會做出更準確的判斷。請問以下敘述何者正確? 即使沒有一個臭皮匠能答對所有的問題,但這些臭皮匠一起討論後,仍有可能答對所有的問題。(亦即:雖然各個弱分類器的分類準確度都不到 100%,但強分類器的分類準確度仍有可能達到100%。) 每個臭皮匠的意見越接近越好,因為表示他們越團結一心。(亦即:各個弱分類器的判斷結果越接近,強分類器的分類結果越準確。) 增加臭皮匠的數量會導致意見分歧,反而無法贏過諸葛亮。(亦即:增加弱分類器數量,反而會導致強分類器的分類準確度變差。) 假如臭皮匠們沒有贏過諸葛亮,只要持續增加臭皮匠的人數,必定可以勝過諸葛亮。(亦即:假如強分類器表現不好,只要增加弱分類器的數量,必定能提升強分類器的分類準確度。) None 2. 用主成分分析(principle component analysis)來處理多維度資料時,會利用相關矩陣(correlation matrix)來計算特徵值(eigenvalue)與特徵向量(eigenvector),如果特徵向量 λ= [4.32, 1.07, 0.49, 0.10, 0.01, 0.01],下列敘述何者正確? 主特徵值的貢獻率達到 90% 主特徵值的貢獻率達到 80% 前兩個特徵值的代表性不足 前兩個特徵值的貢獻率達到 90% None 3. 效能提升法(boosting)是將弱分類器(weak classifiers)集合起來,轉換為強分類器(strong classifier)。請問下列敘述何者「不」正確? 自適應效能提升法(Adaptive Boosting , AdaBoost)方法,會出現有過度配適(overfitting)的情況 對於訓練好的弱分類器,可按照權重進行投票 弱分類器是指,僅比隨機亂猜好一點點的模型,例如:擲銅板 自適應效能提升法(Adaptive Boosting , AdaBoost)方法,是一個具有即時調節觀測值抽樣權重的演算法 None 4. 關於決策樹(decision tree)與隨機森林(random forest)的比較,下列敘述何者正確? 兩者皆屬於薈萃式學習(ensemble learning) 隨機森林的每一棵決策樹之間是有關聯的 隨機森林能處理離散型資料,也能處理連續型資料 決策樹屬於監督式學習(supervised learning),隨機森林屬於非監督式學習(unsupervised learning) None 5. 關於機器學習,下列敘述何者「不」正確? 薈萃式學習(ensemble learning)著眼於不同分類模型的特質,及其對訓練資料中隨機噪訊的不同敏感程度,它只能集合多個不同類模型的預測結果,總結出來的預測值能準確命中標的 非監督式屬於問題定義尚未十分清楚時探索與知識發現的方法,其目的仍是為了建立更好的監督式學習模型 大數據時代下我們面臨的問題益形複雜,專家學者們在非監督式與監督式學習的基礎上,延伸了更多解決複雜問題的統計機器學習方式,薈萃式學習因應而生 薈萃式學習以重抽樣方法,產製多個基本模型(base learner),成為共同決策的一系列模型 None 6. 下列何者是用來衡量「類別變數次數分佈」異質性的方法? 熵(entropy)係數 變異數 中位數絕對離差 四分位距 None 7. R 語言的 rpart 套件,實現了_________算法的諸多概念? 分類與迴歸樹(Classification and Regression Trees, CART) 迭代二分樹第三代(Iterative Dichotomiser 3, ID3)算法 C4.5 C5.0 None 8. 鳶尾花 iris 資料集共有 150 個樣本,花瓣長寬、花萼長寬與花種(setosa、versicolor、virginica)等五個變數,關於下圖中樹狀模型的說明何者「不」正確? 樹深為 3 第一次切分條件為 Petal.Length < 2.45,滿足的樣本子集有左邊的50 株(33.3%),此子集中全為 setosa,三類樣本比例分別(1.000, .000, .000) 是預測類別變數的分類樹 共有五個節點,弧角方框內由下往上的資訊分別是:落入此節點的樣本比例、三類樣本的比例、以及比例最高的類別標籤(若有平手狀況,則優先取排在前面的類別標籤) None 9. 關於離群值檢測(outlier detection)可能面臨的挑戰,下列敘述何者「不」正確? 一般檢測方法與應用無關(application-independent) 檢測到異常值具備易理解性(understandability) 異常值與雜訊不同 異常值檢測高度依賴於正常(非異常值)和異常值的有效建模 None 10. 集群(clustering)是以非監督(unsupervised)方式定義其欲解決的問題,所以只能透過一些常用的內部核驗準則來評估結果,下列何者「不是」內部核驗準則? 側影係數(silhouette coefficient) 群內距離相對於群間距離的比值 各群樣本點到中心距離的平方和 類別標籤 None 11. 此例交易資料用 Apriori 演算法尋找頻繁項目集(frequent itemsets),最小支持度(minimum support)要設多少,才會有長度為 3 的頻繁項目集? 0.22 0.25 0.27 0.3 None 12. 下列何者是 k 平均數集群(k-means clustering)的優點? 形成的群多為類圓球狀且大小相近 算法涉及隨機抽樣,每次運行的結果不盡相同 原理簡單,容易以非統計的詞彙解釋說明之 不易受到離群值的影響 None 13. 下列何者「不是」薈萃式學習(ensemble learning)常用的集成技術? 平均法(averaging) 提升法(boosting) 平衡法(balance) 投票法(voting) None 14. 假設有一訓練資料集為 S = {1(-), 1(-), 2(+), 2(+), 2(+), 3(-), 3(-), 5(-), 7(-), 9(-)},其中數字代表特徵值,括號內的正負號代表類別。若使用拔靴集成法(Bootsrap AGGregatING, BAGGING)建立分類器時,使用的抽樣方法為下列何者?(假設抽樣的資料筆數亦為 10) 隨機從 S 中抽取 10 筆資料,S 中的每筆資料可被抽取不只一次,但必須維持正負兩個類別的比例和 S 中的比例相同(3:7),例如:{2(+), 1(-), 9(-), 7(-), 9(-), 3(-), 1(-), 2(+), 5(-), 2(+)} 隨機從 S 中抽取 10 筆資料,S 中的每筆資料可被抽取不只一次,例如:{5(-), 1(-), 9(-), 7(-), 9(-), 3(-), 1(-), 2(+), 5(-), 2(+)} 隨機從 S 中抽取 10 筆資料,S 中的每筆資料可被抽取不只一次,但必須維持正負兩個類別的比例各半(1:1),例如:{2(+), 1(-), 9(-), 2(+), 2(+), 3(-), 2(+), 7(-), 2(+), 3(-)} 隨機從 S 中抽取 10 筆資料,S 中的每筆資料至多只能抽取一次,例如:{5(-), 1(-), 9(-), 2(+), 3(-), 2(+), 7(-), 2(+), 3(-), 1(-)} None 15. 有一個混淆矩陣(confusion matrix),橫列表示預測類別,縱行表示真實類別,假設有一個預測類別矩陣為[0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1 ,1],真實類別矩陣為[1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0 ,1],則假陽數(false positive)的值為何? 5 2 6 3 None 16. 以密度為基礎的離群值偵測方法,下圖中有哪些點最可能是離群值(Outlier)? O4 O3 O1, O2, O3 O1, O2 None 17. 關於效能提升法(boosting),下列敘述何者「不」正確? 又稱為層積法(stacking) 效能提升之意是建立多個互補的弱模型(weak learners),將之集成後發揮團結力量大的綜效 前面模型預測不準的樣本,後續被抽出的機率增大,使得後面的模型加強對這些樣本作出更準確的預測,互補合作提升整體效能 極端梯度多模激發法(eXtreme Gradient BOOSTing, XGBOOST)結合排序算法與直方圖計算最佳的屬性分割值 None 18. 真實的反應變數值與預測的反應變數值之間的差,稱為殘差或(預測)誤差,下列何者是應用殘差平方值的算術平均來評估迴歸模型的績效? 均方根預測誤差(Root Mean Squared Error, RMSE) 均方預測誤差(Mean Squared Error , MSE) 誤差平方和(Sum of the Squared Errors, SSE) 誤差絕對值和(Sum of Absolute Error, SAE) None 19. 關於軟性邊界支援向量機(soft-margin support vector machine),下列敘述何者正確? 若只調整參數 C,則(a) (b)圖中,(b)圖的參數 C 比較大 若使用 Gaussian kernel: k(x, x′) = exp(−γ||x−x′||2) 且只調整 γ,則(c) (d)圖中,(d)圖的 γ 比較大 因為公式(1)中有‖w‖2,所以又稱 L2-SVM 在(a)圖中+1.0 與-1.0 直線間的樣本,ξi=0 None 20. 模型選擇與評定時,經常運用重抽樣方法進行模型訓練與測試,下列敘述何者正確? 模型優化(model optimization)的工作則是在確定最優模型後,合理地估計其未來實際應用上可能的績效表現 與隨機誤差建模相關的參數(parameters)有兩種:一種可以直接利用資料估計其值的超參數(hyperparameters),另一種則是不易從資料中估計的模型參數 模型評定(model assessment)的工作包括同一模型不同參數的調校(within model),以及跨越不同模型的比較(between models) 一般而言 k 摺交叉驗證(k-fold cross validation)相較於他法有較高的變異,但當訓練集大時則此問題較不嚴重 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up