數位科技資訊
MPBus.COM

用戶評比TOP7 AI聊天機器人出爐!Gemini、DeepSeek意外超越ChatGPT

英國最新研究顛覆AI聊天機器人市場認知! 根據Prolific公司發布的《Humaine評測》,ChatGPT在用戶體驗評比中竟跌至第八名,前七名由Google Gemini、中國DeepSeek與法國Mistral等新秀包辦。這項調查透過2.5萬人實際對比測試,發現多數用戶更重視「對話流暢度」與「回答可信度」等實用表現。

OpenAI或許不是AI聊天機器人的開創者,但ChatGPT絕對是讓這項技術普及的關鍵推手。2022年11月推出的ChatGPT-3.5版本,被視為生成式AI邁向主流的重要里程碑。當時人們首次能直接與具備類人對話能力的大型語言模型互動,短短幾個月內就突破1億月活躍用戶,創下軟體史上最快成長紀錄。

不過領導地位不到半年就面臨挑戰,Google加速推出Bard(後改名Gemini)、Anthropic發表Claude、Meta公開LLaMA模型,市場正式進入戰國時代。

儘管ChatGPT至今仍佔全球48%市佔率,週活躍用戶達8億人,但在這項講究真實使用體驗的評比中,竟敗給兩款Gemini機型、兩個DeepSeek版本與兩代Grok模型,連法國新創Mistral的Magistral都搶佔第三名。

這項評測特別之處在於建立名為「Humaine」的全新基準,專注測試四大關鍵指標:

  1. 核心任務表現與邏輯推理
  2. 互動流暢度與適應能力
  3. 溝通風格與呈現方式
  4. 信任度與道德安全

令人意外的是,Google Gemini 2.5 Pro以18.75分(滿分27分)奪冠,在「多輪對話適應力」表現尤其出色。中國DeepSeek v3則在「溝通風格」項目拿下第一,成為銀牌得主。最大黑馬是法國Mistral AI的Magistral中型模型,這款2025年6月才推出的新品,對話自然度媲美人類,但道德安全評比僅排第12名。

馬斯克旗下的Grok表現也值得關注,雖然年初曾傳出爭議回答問題,但在最新版本中已移除「搞笑模式」,信任度評分明顯提升。v4與v3版本分別佔據第四、五名,年成長率更是所有競品中最高。

這項研究採用「匿名對比測試法」,參與者隨機使用兩款匿名聊天機器人後直接評分,避免品牌偏好影響結果。現有28款模型皆經過1,400至2,300次實際對話測試,數據顯示當用戶不被品牌名稱影響時,市佔率與實際體驗存在明顯落差。

OpenAI唯一安慰是在「最具主動性」單項獎中,由ChatGPT-o3版本奪冠。但綜觀六項特別獎,Google Gemini就包辦四座,顯見AI聊天機器人的王者之爭已進入全新階段。

贊(0)