114年第二梯次 中級 AI應用規劃師 第二科 大數據處理分析與應用(當次試題公告114.11.20)

114年第二梯次中級AI應用規劃師第二科大數據處理分析與應用(當次試題公告114.11.20),採智能選題,無限次反覆練習。

1. 
研究團隊接下來想要將 Year 欄位轉換為整數型態,以便後續進行年份趨勢分析。考慮到資料中可能包含缺失值(NaN),請選出最合適的轉換方式。

2. 
某電信公司導入生成式AI客服系統,利用過去對話紀錄與用戶行為資料訓練語言模型,在資料治理與合規審查過程中,團隊發現模型可能會在回答中生成包含真實姓名、電話或交易資訊的內容。為確保系統符合個資法及生成式AI的安全與隱私要求,下列哪一項作法最符合實務可行及法規原則?

3. 
根據上述結果,下列何者正確?

4. 
某行銷團隊想了解「廣告預算」與「銷售金額」之間的關聯程度。經繪製散佈圖後發現兩者呈現明顯線性趨勢,且資料中無明顯離群值(Outliers)。若希望衡量兩者之間線性關係的強度與方向,下列哪一種方法最適合?

5. 
附圖為某資料之分佈圖,此資料之偏態 (Skewness)值較有可能為下列哪個選項?

6. 
考慮資料集已經填補遺漏值,參考下圖執行結果,下列何者正確? A:空格 1 完整語法 reg = LinearRegression().fit(y, X) B:空格 1 完整語法 reg = LinearRegression().fit(X, y) C:print(reg.coef_) 結果為包括截距項等 4 個係數值 D:空格 2 完整語法 sm.OLS(X2, y).fit() E:model_sm 迴歸模型的所有迴歸係數在$\alpha=0.05$ 之下具有顯著的解釋力 F:截距項係數值為 3.5561



7. 
下列何者為同態加密(Homomorphic Encryption)技術的核心特性?

8. 
某金融科技公司分析每日上億筆交易資料,以監控客戶轉帳金額分佈與異常波動。由於資料量極大,為兼顧效率與準確度,團隊決定採用「近似分位數(Approximate Quantile)」方法進行資料摘要統計。下列何者最能正確反映該技術的核心目的?

9. 
一家製造廠評估新生產線推出後,產品良率是否較原生產線提升。工程師分別從兩條生產線各抽樣 100 件產品,原生產線良率為 95%,新生產線為 97%。若欲檢定兩條生產線良率的差異是否具有統計意義,下列哪一種方法最為合適?

10. 
若一家公司需即時監控大量物聯網裝置的異常行為,下列哪一種組合最適合此應用?

11. 
某串流影音平台運用關聯規則學習(Association Rule Learning)分析用戶的觀影行為,發現若使用者觀看了科幻影集,則有較高機率接著觀看超級英雄電影。分析顯示,同時觀看這兩種類型的使用者約佔全部觀影紀錄的12%,而觀看科幻影集的使用者中,有50%也觀看了超級英雄電影,該規則的提升度(Lift)為1.8。根據上述資訊,下列哪一項推論最為正確?

12. 
某組資料共10項標籤如下: A, A, A, A, A, B, B, B, B, B 若該標籤僅有A、B兩種,請問這組資料的「正規化吉尼不純度(Normalized Gini impurity)」為何?

13. 
使用Python的pandas 套件處理各商品銷售數據(變數為df)時,若需計算「總銷售額」欄位的敘述性統計量(如平均值、標準差等),應使用下列哪一種語法?

14. 
在圖形資料庫(Graph Database)中建模社群平台資料時,若每筆「按讚」行為都包含時間戳記(Timestamp)與裝置類型(Device Type)等資訊。若希望同時保留使用者與貼文之間的互動關係,並能有效查詢「按讚」的行為屬性,下列哪一種設計方式最為合適?

15. 
考慮某生產線每小時出現瑕疵品的個數符合卜瓦松分佈( Poisson Distribution),已知平均每小時產生 5 個瑕疵品,附圖程式碼展示資料處理,請問下列敘述何者正確?

16. 
參考下圖計算各變數的遺漏值 (NaN)個數結果,下列何者正確?選項 A: df.isnull().sum() 選項 B: df.isNaN().sum() 選項 C: df.isna().sum() 選項 D: df.isnan().sum()



17. 
若在高維度(>500維)的資料上應用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)演算法,卻發現所有資料點皆被判定為雜訊(Noise),下列何者為最有可能的原因?

18. 
在進行資料前處理時,若使用Label Encoding 將類別變數轉換為數字型態,下列何者為最常見的潛在風險?

19. 
某企業建置生成式 AI 系統,利用大量客服紀錄與產品評論資料訓練語言模型,以自動生成客服回覆與知識摘要。由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?

20. 
累積分佈函數(Cumulative Distribution Function, CDF)可用於描述隨機變數的機率分佈特性,其數學定義為下列何者?


error: Content is protected !!
返回頂端