iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (3) / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 關於關聯分析:FP-growth 演算法(Frequent Pattern-growth),下列敘述何者「不」正確? 它構造了一個高度緊湊的資料結構(FP-tree)來壓縮原始交易資料庫 這是一種沒有生成候選項目集的頻繁項目集探勘方法 它著重於頻繁項目的增長,避免昂貴的候選生成 採用類似 Apriori 方法的生成和測試(generate-and-test)策略 None 2. 關於離群值檢測(outlier detection)可能面臨的挑戰,下列敘述何者「不」正確? 異常值與雜訊不同 異常值檢測高度依賴於正常(非異常值)和異常值的有效建模 檢測到異常值具備易理解性(understandability) 一般檢測方法與應用無關(application-independent) None 3. 一般說來,拔靴集成法(Bootsrap AGGregatING, BAGGING)其集成模型中各株決策樹(decision tree)是__________;效能提升法(boosting)其集成模型中各株樹則是__________。 經過修剪的(pruned);經過修剪的(pruned) 未經修剪的(unpruned);經過修剪的(pruned) 未經修剪的(unpruned);未經修剪的(unpruned) 經過修剪的(pruned);未經修剪的(unpruned) None 4. 模型選擇與評定時,經常運用重抽樣方法進行模型訓練與測試,下列敘述何者正確? 模型優化(model optimization)的工作則是在確定最優模型後,合理地估計其未來實際應用上可能的績效表現 模型評定(model assessment)的工作包括同一模型不同參數的調校(within model),以及跨越不同模型的比較(between models) 一般而言 k 摺交叉驗證(k-fold cross validation)相較於他法有較高的變異,但當訓練集大時則此問題較不嚴重 與隨機誤差建模相關的參數(parameters)有兩種:一種可以直接利用資料估計其值的超參數(hyperparameters),另一種則是不易從資料中估計的模型參數 None 5. 關於求解線性迴歸 Y=βTX=β0*1+β1x1+β2*x2+…+βm*xm,其中 βT=[β0, β1, …, βm],下列敘述何者「不」正確? 簡單線性迴歸,只包括一個自變量和一個因變量,可使用最小平方法求解 多元迴歸公式的結構等於一個只有輸入和輸出層的神經網路,可用隨機梯度下降法(Stochastic gradient descent, SGD)去找 βT的最佳解 多元線性迴歸自變數之間的相關程度可以高於自變數與因變數之間的相關程度 簡單線性迴歸解得模型是否有效,需要計算相關係數 r 以確認 X對 Y 有顯著的影響,並呈密切的線性相關 None 6. 此例交易資料用 Apriori 演算法尋找頻繁項目集(frequent itemsets),最小支持度(minimum support)要設多少,才會有長度為 3 的頻繁項目集? 0.25 0.22 0.3 0.27 None 7. 假設有一訓練資料集為 S = {1(-), 1(-), 2(+), 2(+), 2(+), 3(-), 3(-), 5(-), 7(-), 9(-)},其中數字代表特徵值,括號內的正負號代表類別。若使用拔靴集成法(Bootsrap AGGregatING, BAGGING)建立分類器時,使用的抽樣方法為下列何者?(假設抽樣的資料筆數亦為 10) 隨機從 S 中抽取 10 筆資料,S 中的每筆資料可被抽取不只一次,但必須維持正負兩個類別的比例各半(1:1),例如:{2(+), 1(-), 9(-), 2(+), 2(+), 3(-), 2(+), 7(-), 2(+), 3(-)} 隨機從 S 中抽取 10 筆資料,S 中的每筆資料至多只能抽取一次,例如:{5(-), 1(-), 9(-), 2(+), 3(-), 2(+), 7(-), 2(+), 3(-), 1(-)} 隨機從 S 中抽取 10 筆資料,S 中的每筆資料可被抽取不只一次,但必須維持正負兩個類別的比例和 S 中的比例相同(3:7),例如:{2(+), 1(-), 9(-), 7(-), 9(-), 3(-), 1(-), 2(+), 5(-), 2(+)} 隨機從 S 中抽取 10 筆資料,S 中的每筆資料可被抽取不只一次,例如:{5(-), 1(-), 9(-), 7(-), 9(-), 3(-), 1(-), 2(+), 5(-), 2(+)} None 8. 集群(clustering)是以非監督(unsupervised)方式定義其欲解決的問題,所以只能透過一些常用的內部核驗準則來評估結果,下列何者「不是」內部核驗準則? 側影係數(silhouette coefficient) 群內距離相對於群間距離的比值 類別標籤 各群樣本點到中心距離的平方和 None 9. 關於效能提升法(boosting),下列敘述何者「不」正確? 又稱為層積法(stacking) 前面模型預測不準的樣本,後續被抽出的機率增大,使得後面的模型加強對這些樣本作出更準確的預測,互補合作提升整體效能 效能提升之意是建立多個互補的弱模型(weak learners),將之集成後發揮團結力量大的綜效 極端梯度多模激發法(eXtreme Gradient BOOSTing, XGBOOST)結合排序算法與直方圖計算最佳的屬性分割值 None 10. 關於類神經網路(artificial neural networks),下列敘述何者「不」正確? 除了投入層之外,其餘各層的神經元節點均需設置活化函數(activation function) 類神經網路至少包括投入層與隱藏層,投入層各個節點接收資料表中的自變數,隱藏層則試圖預測因變數 近年來一些分段線性活化函數漸受歡迎,整流線性單元(Rectified Linear Unit, ReLU)和硬式雙曲正切函數(hard hyperbolic tangent function)大範圍地取代了 S 型函數(Sigmoid function)與雙曲正切函數(hyperbolic tangent function),因為兩者更適合訓練多層神經網路 最簡單的類神經網路是感知機(perceptron),它是一種線性分類模型 None 11. 關於 k 近鄰法(k-nearest neighbors),下列敘述何者正確? 若 k=樣本數,每個待測樣本必須跟所有訓練樣本計算距離,計算量太大 k 取奇數,可以避免鄰近樣本在不同類別的數目相等,無法判定待測樣本類別 若 k=1,設得太低會導致配適不足(underfitting) k 取較大的值,由較多的訓練樣本共同決定待測樣本的類別,比較穩定抗雜訊 None 12. 關於軟性邊界支援向量機(soft-margin support vector machine),下列敘述何者正確? 若使用 Gaussian kernel: k(x, x′) = exp(−γ||x−x′||2) 且只調整 γ,則(c) (d)圖中,(d)圖的 γ 比較大 若只調整參數 C,則(a) (b)圖中,(b)圖的參數 C 比較大 在(a)圖中+1.0 與-1.0 直線間的樣本,ξi=0 因為公式(1)中有‖w‖2,所以又稱 L2-SVM None 13. 下列技術之應用,何者最「不」適當? 用遞歸網路(Recurrent Neural Networks, RNN)進行文字翻譯 用 k 平均數演算法(k-means)學習多分類問題 用自動編碼器(autoencoder)將資料降維 用卷積網路(Convolutional Neural Networks, CNN)辨識影像內容 None 14. 下列何種方法,訓練的速度通常最快? 多層感知器(multilayer perceptron) 決策樹(decision tree) 支援向量機(support sector machine) k 近鄰法(k-nearest neighbors) None 15. 下表是 7 個資料點的(x, y)值,假設現在分成三個集群 A={P1, P3, P6}, B={P2, P4}, C={P5,P7},若以歐氏距離(Euclidean distance)平方作為衡量相似度的依據,則集群 A 與 B 間共有 6 個兩兩資料點的距離:D(P1, P2)=233, D(P1, P4)=261, D(P3, P2)=149, D(P3 P4)=169, D(P6, P2)=80, D(P6, P4)=104,則下列敘述何者「不」正確? 若以中心值距離(centroid distance)作為集群相似度的衡量,則集群 A 與 B 間的距離是 156.89 若以平均距離(average distance)作為集群相似度的衡量,則集群 A 與 B 間的距離是 160 若以最大距離(maximum distance)作為集群相似度的衡量,則集群 A 與 B 間的距離是 261 若以最小距離(minimum distance)作為集群相似度的衡量,則集群 A 與 B 間的距離是 80 None 16. 下列何者是 k 平均數集群(k-means clustering)的優點? 形成的群多為類圓球狀且大小相近 算法涉及隨機抽樣,每次運行的結果不盡相同 不易受到離群值的影響 原理簡單,容易以非統計的詞彙解釋說明之 None 17. 俗話說:「三個臭皮匠,勝過一個諸葛亮」,恰好呼應了拔靴集成法(Bootsrap AGGregatING, BAGGING)中,會產生多個弱分類器,並將這些弱分類器組合在一起,以獲得一個強分類器,有機會做出更準確的判斷。請問以下敘述何者正確? 每個臭皮匠的意見越接近越好,因為表示他們越團結一心。(亦即:各個弱分類器的判斷結果越接近,強分類器的分類結果越準確。) 增加臭皮匠的數量會導致意見分歧,反而無法贏過諸葛亮。(亦即:增加弱分類器數量,反而會導致強分類器的分類準確度變差。) 即使沒有一個臭皮匠能答對所有的問題,但這些臭皮匠一起討論後,仍有可能答對所有的問題。(亦即:雖然各個弱分類器的分類準確度都不到 100%,但強分類器的分類準確度仍有可能達到100%。) 假如臭皮匠們沒有贏過諸葛亮,只要持續增加臭皮匠的人數,必定可以勝過諸葛亮。(亦即:假如強分類器表現不好,只要增加弱分類器的數量,必定能提升強分類器的分類準確度。) None 18. 關於支援向量機(Support Vector Machine, SVM)的模型超參數(hyperparameters),下列敘述何者「不」正確? 支援向量的數目要事先決定 網格搜尋(Grid Search)常用來尋找超參數(hyperparameters) 核函數(kernel function)要事先決定 懲罰係數 C 越高,越容易過度最佳化 None 19. 關於隨機森林(random forest),下列敘述何者「不」正確? 可用於具有遺缺值的資料 提供變數重要度分數 可用來進行預測、分類 在薈萃式學習(ensemble learning)裡面,隨機森林採用效能提升的方式(boosting)進行系集模型的建構 None 20. 當身體肌肉收縮時,肌電訊號(Electromyography,EMG)肌電信號可用於控制計算機,作為一種用戶界面。EMG 訊號一般可由:頻率(Frequency, F)、強度(Strength, S)與時間(Time, T)來表示,下表為 EMG 的實驗資料(F, S, T)和相應的動作分類(Action, A),若用Gini 係數來建立決策樹模型,第一個分類屬性為下列何者? 動作分類(Action, A) 時間(Time, T) 強度(Strength, S) 頻率(Frequency, F) None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up