iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題 / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題 ,採智能選題,無限次反覆練習。 1. 關於 Hadoop 分散式檔案系統的特性,下列哪一項錯誤? 較不適合低等待時間的資料進出 善於儲存巨量的資料 不適合大量的小檔案 需要高效能且昂貴機器才能運作 None 2. 假設一組資料呈現正偏態(右偏態),下列敘述哪一項正確? 平均數大於中位數 平均數小於中位數 中位數和眾數相同 平均數等於中位數 None 3. 在進行假設檢定時,當 p 值小於α(顯著性水準)時,下列結論哪一項正確? 拒絕虛無假設 接受虛無假設 拒絕對立假設 接受對立假設 None 4. 在進行機器學習時,當資料的數值範圍差異過大會影響模型的表現。關於數值資料調整方式的敘述,下列哪一項正確? 資料正規化(Normalization)會將資料調整成均值為 0、標準差為 1,以便模型能夠更有效率地訓練 資料標準化(Standardization)會將資料的範圍縮放到[0, 1]之間,使得所有變數在相同尺度下進行計算 當資料具有明顯的異常值時,資料標準化可以有效避免異常值的影響,因為其考慮了最小值與最大值 當資料特徵服從常態分佈時,資料標準化相較於正規化更適合用來調整資料範圍 None 5. 特徵選取(Feature Selection)和特徵萃取(Feature Extraction)是兩種不同的技術,用於處理資料集的特徵。關於這兩者的敘述,下列哪一項是正確的比較? 特徵選取是使用機器學習模型(如決策樹)直接篩選特徵,而特徵萃取則不涉及任何模型的使用 特徵選取常使用隨機森林來選擇特徵,而特徵萃取則是通過聚類分析生成新特徵 特徵萃取比特徵選取更常用於預測模型的訓練過程 特徵選取是從原始特徵中選擇最重要的部分,而特徵萃取是從原始特徵透過特定方法生成新的特徵 None 6. 在資料分析過程中,探索式資料分析(Exploratory Data Analysis, EDA)是一個重要的步驟。關於 EDA 的敘述,下列哪一項錯誤? EDA 通常是在建立預測模型之前進行的,以便對數據進行初步了解和分析 EDA 幫助分析師了解數據的基本結構和潛在模式 檢查數據中的異常值是 EDA 中常見且重要的過程,EDA 可助於了解數據分佈的特性 在 EDA 中,資料視覺化(Data Visualization)技術通常不會被使用,因為它會增加分析的複雜性 None 7. 如附圖所示為 Python 程式碼,有一變數 df 為 pandas.DataFrame 型態,依序執行附圖 1 程式碼,請問在執行後,選項中之敘述何者錯誤? 執行上述程式碼後,再執行 df['ColC'].sum(),會得到 9 上述程式碼會刪除欄位 ColB 中有缺失值的資料列 執行上述程式碼後,df 剩下 2 筆資料 上述程式碼會對欄位 ColC,進行缺失值的填補 None 8. 一位數據分析師正在分析一組銷售數據,並希望了解數據的分布特徵以及變數之間的相關性。關於資料分布和相關性的敘述,下列哪一項正確? 當數據具有常態分佈時,標準差是唯一適合描述數據變異性的指標 散佈圖可以幫助呈現兩個變數之間的關係,包括線性和非線性關係 當變數之間的相關係數為 0 時,表示它們之間存在強烈的非線性關係 數據分布呈現偏態時,算術平均數會比中位數更能準確地反映數據的中心趨勢 None 9. 分析方法通常需要資料轉換成對應的格式才有辦法進行,關於資料格式的說明下列哪一項正確? 進行變異數分析需要寬格式資料 資料計算相關係數需要轉換成長格式資料 圖形文法的繪圖套件,只接受短格式資料 資料計算共變異數需要轉換成寬格式資料 None 10. 下列哪一項「不」是分散式運算(Distributed Computing)系統提供的優勢? 系統可擴展:系統可以隨著工作負載增加、需要時進一步擴充 節點數據隔離:每個節點的數據互不共享、互不同步,完全隔離而獨自運作 高容錯可用:即使一部分節點(或稱系統)失效,整個系統仍可運作 硬體使用效率:分散式系統的設計,可有效利用硬體資源提升整體性能 None 11. 遺缺值(Missing Data)是許多資料經常會出現的問題,下列有關遺缺值的敘述哪一項錯誤? 處理遺缺值的逐案刪除法(Casewise)採行的是完整資料分析(Complete Case Analysis) 相較於非隨機遺缺(Missing Not At Random),完全隨機遺缺(Missing Completely At Random)是比較理想的狀況 處理遺缺值的成對刪除法(Pairwise)採行的是可用資料分析(Available Data Analysis) 利用算術平均、中位數或眾數進行補值是多重補值法(Multiple Imputation)的一種 None 12. 如附圖所示為一資料分佈型態,哪一項是其分位圖(Quantile-Quantile Plot)? None 13. 關於 Python 所提供的資料表排序功能敘述,下列哪一項錯誤? sort_index()是以內定列索引為鍵值(Key 值)進行排序 ascending=True,表示由小到大排列 ascending=False,表示由大到小排列 sort_values()是以內定列索引為鍵值進行排序 None 14. 關於資料尺度的敘述,下列哪一項正確? 名目尺度是衡量數值型變數 順序尺度加減運算後是有意義的 等距尺度比順序尺度粗糙 比率尺度可以轉換成名目尺度 None 15. 關於決策樹(Decision Tree)的敘述,下列哪一項正確? 決策樹中的每一個節點都會進行多次分裂,以尋找最佳的分裂特徵和閾值,以達到最佳的模型性能 決策樹的剪枝過程主要是用來增加模型的複雜度,以便更好地擬合訓練數據 決策樹對數據中的小變化不敏感,能夠穩健地處理不同的數據集 決策樹的深度對模型的複雜度和過擬合風險有重要影響,樹的深度越大,模型越容易過度擬合訓練數據 None 16. 在進行數據分析時,了解資料的性質與類型對於選擇合適的分析方法相當重要。關於資料的性質和處理方式,下列敘述哪一項正確? 順序型資料(Ordinal Data)的比較可以使用中位數來評估差異 名目型資料(Nominal Data)的分析通常需要使用 t 檢定來檢查兩個群體之間的差異 離散型資料(Discrete Data)的分佈通常用連續的機率密度函數來描述 連續型資料(Continuous Data)只能使用線性迴歸進行分析,無法使用其他統計方法 None 17. 巨量資料分析班共有一、二、三、四,四個年級,每個年級有 50 個學生,學生身高呈常態分佈,下列敘述哪一項錯誤? 要檢測二年級、三年級、四年級之間的平均身高是否有差異,可以利用 F 檢定 要檢測一年級的平均身高是否等於 170 公分,可以利用卡方檢定 要檢測一年級和二年級的平均身高是否有差異,可以利用 t 檢定 要檢測一年級、二年級、三年級之間的平均身高是否有差異,可以利用 t 檢定 None 18. 下列哪一項「不是」購物車分析(Basket Analysis)通常使用的統計量? 支援度(Support) 增益(Lift) 信心度(Confidence) 相似度(Similarity) None 19. 我們在進行資料清理時,常需要識別、處理資料集中的離群值。請問下列哪個選項「不」是判定資料是否為離群值的合適方法? 計算平均值和標準差,將超過「平均值加減 N 個標準差」外的資料視為離群值 計算中位數和絕對偏差,將超過「中位數加減 N 個絕對偏差」的資料視為離群值 使用「平均值上下加減 100」作為區間,將該區間外的資料視為離群值 使用箱形圖(Box Plot),判斷資料是否落在四分位距(Interquartile Range)之外 None 20. 某金融科技公司正在開發一個信用評分系統,用於評估貸款申請人的信用風險。他們決定使用隨機森林模型來預測申請人是否可能違約。在模型開發過程中,資料科學團隊注意到模型的準確率很高,但在實際應用中發現一些問題。關於這種情況,下列哪一項陳述最可能是正確的? 為了提高模型的解釋性,應該將隨機森林替換為單一決策樹模型 隨機森林的特徵以重要性排序顯示,申請人的財力是最重要的預測因子,因此應該只使用財力作為單一特徵來簡化模型 訓練數據中可能存在類別不平衡問題,導致模型對多數類別的預測偏好,需要考慮使用平衡採樣技術 模型可能存在過擬合(over fitting)問題,增加樹的數量即可提高模型實際應用的準確性 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up