用戶評比TOP7 AI聊天機器人出爐！Gemini、DeepSeek意外超越ChatGPT

英國最新研究顛覆AI聊天機器人市場認知！根據Prolific公司發布的《Humaine評測》，ChatGPT在用戶體驗評比中竟跌至第八名，前七名由Google Gemini、中國DeepSeek與法國Mistral等新秀包辦。這項調查透過2.5萬人實際對比測試，發現多數用戶更重視「對話流暢度」與「回答可信度」等實用表現。

OpenAI或許不是AI聊天機器人的開創者，但ChatGPT絕對是讓這項技術普及的關鍵推手。2022年11月推出的ChatGPT-3.5版本，被視為生成式AI邁向主流的重要里程碑。當時人們首次能直接與具備類人對話能力的大型語言模型互動，短短幾個月內就突破1億月活躍用戶，創下軟體史上最快成長紀錄。

不過領導地位不到半年就面臨挑戰，Google加速推出Bard（後改名Gemini）、Anthropic發表Claude、Meta公開LLaMA模型，市場正式進入戰國時代。

儘管ChatGPT至今仍佔全球48%市佔率，週活躍用戶達8億人，但在這項講究真實使用體驗的評比中，竟敗給兩款Gemini機型、兩個DeepSeek版本與兩代Grok模型，連法國新創Mistral的Magistral都搶佔第三名。

這項評測特別之處在於建立名為「Humaine」的全新基準，專注測試四大關鍵指標：

核心任務表現與邏輯推理
互動流暢度與適應能力
溝通風格與呈現方式
信任度與道德安全

令人意外的是，Google Gemini 2.5 Pro以18.75分（滿分27分）奪冠，在「多輪對話適應力」表現尤其出色。中國DeepSeek v3則在「溝通風格」項目拿下第一，成為銀牌得主。最大黑馬是法國Mistral AI的Magistral中型模型，這款2025年6月才推出的新品，對話自然度媲美人類，但道德安全評比僅排第12名。

馬斯克旗下的Grok表現也值得關注，雖然年初曾傳出爭議回答問題，但在最新版本中已移除「搞笑模式」，信任度評分明顯提升。v4與v3版本分別佔據第四、五名，年成長率更是所有競品中最高。

這項研究採用「匿名對比測試法」，參與者隨機使用兩款匿名聊天機器人後直接評分，避免品牌偏好影響結果。現有28款模型皆經過1,400至2,300次實際對話測試，數據顯示當用戶不被品牌名稱影響時，市佔率與實際體驗存在明顯落差。

OpenAI唯一安慰是在「最具主動性」單項獎中，由ChatGPT-o3版本奪冠。但綜觀六項特別獎，Google Gemini就包辦四座，顯見AI聊天機器人的王者之爭已進入全新階段。

用戶評比TOP7 AI聊天機器人出爐！Gemini、DeepSeek意外超越ChatGPT

相關文章

相關文章