114年第二梯次中級AI應用規劃師第二科大數據處理分析與應用(當次試題公告114.11.20),採智能選題,無限次反覆練習。
2.
某電信公司導入生成式AI客服系統,利用過去對話紀錄與用戶行為資料訓練語言模型,在資料治理與合規審查過程中,團隊發現模型可能會在回答中生成包含真實姓名、電話或交易資訊的內容。為確保系統符合個資法及生成式AI的安全與隱私要求,下列哪一項作法最符合實務可行及法規原則?
4.
某行銷團隊想了解「廣告預算」與「銷售金額」之間的關聯程度。經繪製散佈圖後發現兩者呈現明顯線性趨勢,且資料中無明顯離群值(Outliers)。若希望衡量兩者之間線性關係的強度與方向,下列哪一種方法最適合?
6.
考慮資料集已經填補遺漏值,參考下圖執行結果,下列何者正確? A:空格 1 完整語法 reg = LinearRegression().fit(y, X) B:空格 1 完整語法 reg = LinearRegression().fit(X, y) C:print(reg.coef_) 結果為包括截距項等 4 個係數值 D:空格 2 完整語法 sm.OLS(X2, y).fit() E:model_sm 迴歸模型的所有迴歸係數在$\alpha=0.05$ 之下具有顯著的解釋力 F:截距項係數值為 3.5561
8.
某金融科技公司分析每日上億筆交易資料,以監控客戶轉帳金額分佈與異常波動。由於資料量極大,為兼顧效率與準確度,團隊決定採用「近似分位數(Approximate Quantile)」方法進行資料摘要統計。下列何者最能正確反映該技術的核心目的?
11.
某串流影音平台運用關聯規則學習(Association Rule Learning)分析用戶的觀影行為,發現若使用者觀看了科幻影集,則有較高機率接著觀看超級英雄電影。分析顯示,同時觀看這兩種類型的使用者約佔全部觀影紀錄的12%,而觀看科幻影集的使用者中,有50%也觀看了超級英雄電影,該規則的提升度(Lift)為1.8。根據上述資訊,下列哪一項推論最為正確?
12.
某組資料共10項標籤如下: A, A, A, A, A, B, B, B, B, B 若該標籤僅有A、B兩種,請問這組資料的「正規化吉尼不純度(Normalized Gini impurity)」為何?
14.
在圖形資料庫(Graph Database)中建模社群平台資料時,若每筆「按讚」行為都包含時間戳記(Timestamp)與裝置類型(Device Type)等資訊。若希望同時保留使用者與貼文之間的互動關係,並能有效查詢「按讚」的行為屬性,下列哪一種設計方式最為合適?
17.
若在高維度(>500維)的資料上應用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)演算法,卻發現所有資料點皆被判定為雜訊(Noise),下列何者為最有可能的原因?
19.
某企業建置生成式 AI 系統,利用大量客服紀錄與產品評論資料訓練語言模型,以自動生成客服回覆與知識摘要。由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?