
最近大模型更新真的有點密,更了好多但是卻不知道到底誰好用。
有說 Qwen3.7-Max 已經力壓 GPT-5.5,僅次於Claude 系列。

也有說 GPT-5.5 已經登頂。

普通人看排行榜估計越看越疑惑,寫文章該用哪個?數據分析該用哪個?寫代碼、審 PR、拆任務又該用哪個?
我挑了四款最近討論度很高的模型:Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,做一次橫評,看看它們在真實任務裏的交付表現。
01. 案例實測
本次測評我們用同一份材料、同一條提示詞、同一套評分標準,分別丟給四個模型,主要包含長文檔處理、任務規劃、代碼修復、中文寫作、數據分析、格式遵循、SVG 生成這七項常見任務類型。
案例1:長文檔精讀
這個 case 測的是:模型是不是真的讀懂材料,而不是看見幾個關鍵詞就開始發揮。
適合測試報告、會議紀要、投研材料、產品文檔。
任務:
1. 用 200 字以內總結材料核心結論。
2. 提取 5 條最重要事實,每條標註原文依據。
3. 找出 3 個不確定點或數據缺口。
4. 判斷作者結論是否被材料充分支持,給出“支持/部分支持/不支持”。
5. 輸出表格:結論、證據、風險、建議繼續追問的問題。
要求:
– 材料沒有提到的內容,寫“材料未說明”。
– 不要編造。
– 不要輸出思考過程。
材料如下:
SU7上市一年兩個月,我們累計交付超過了25.8萬輛。在上個月的話我們交付了2.8萬輛,這個數字的話,在20萬以上的所有車型中,這一款車成爲了銷量冠軍。下面的話我爲大家發佈小米YU7,這是小米首款SUV。大家問的問題,第一個問題是YU7怎麼命名?YU7這樣命名:御風而行。這4個字來自於莊子的逍遙遊,就是駕着風飛行,這個寓意特別好,所以叫YU7。 那麼YU7定位成豪華高性能SUV,這就意味着YU7不是一輛普通的平庸的SUV,這是一款精心設計的豪華高性能的SUV,它具有優雅的造型,駕駛的愉悅感,同時還有空間的舒適度和豪華體驗。造型我們來看一眼造型,它跟小米SU7一樣,家族化的設計語言,但絕對不是SU7的簡單拉高版,我們在SU7的基礎上重新設計的,它優雅的設計風格,線條流暢且富有力量感。我們再來看一下它獨特的豪車氣質不同凡響,還有跑車般的駕控體驗,人、車、合一。說句實話,在這個價位這樣好看的SUV是非常罕見的。我們先看一下亮相視頻。我們YU7的話車長5米,軸距三米,車寬兩米,像這樣的尺寸是一款中大型的SUV,雖然外觀看起來非常緊湊,而實際的空間因爲它是一款中大型的SUV,所以實際空間是非常大的。我們仔細來看一下,它的側面低趴優雅,極具運動感,然後尾部肌肉感十足,非常有力量。俯視的話它的型面很立體,而且特別的飽滿。好看嗎?我想跟大家分享一下,我們這麼好開一輛車是怎麼做出來的。首先美首先來自於比例,其實比例好看,這個車才能好看。就像身材好看這個人纔會好看。我們來看一下,它好看的本質來自於三倍的輪軸比,2.1倍的輪高比,1.25倍的寬高比。同時它還有1.3倍的輪身比,它修長的車頭,這是百年汽車工業沉澱下來的豪華設計,而且他從後視角看,極具肌肉感,自帶寬體,還可以選配275毫米的後輪的寬胎,所以它整個特別特別有力量感。第二的話美還來自於細節。首先我們來看一下這水滴大燈,從功能上講支持了180度的超廣角的照明,有很好的夜間視野。你仔細看的話,你發現它上半部分是鏤空的,然後嵌入風道,跟前艙蓋打通,這是百萬跑車纔有的設計,然後光環尾燈也升級了,更適合SUV的造型,更加的簡潔立體,更有力量感。在夜間的車流裏面也格外醒目。我們剛剛發佈的時候大家有點不習慣,當你看習慣,你會覺得這個尾燈特別的好看。還有門把手,我們發佈以後,很多人都問我們說SU7的半隱藏門把手是挺好的,你們這怎麼用?就退步了?其實沒有。這是一個變動的內翻門把手,當你一靠近門把手就自動內翻了,當你離車或者坐到車裏,他又回來了,這樣的話它既好看風阻又小,我們來看一眼,人一走近,它就自動彈開,然後當你坐到車裏面以後,它又自動關閉,它是自電動的內翻的這種設計。而且在空氣動力學方面的話,10組貫穿的風道,19個風口在梳理全車的氣流。我們來看一些細節,像主動進氣格柵,100檔的智能開合,降低了18個count,相當於增加了14公里的續航。尾部的擾流板我們改了100版,降低了10個count。還有超大超帥的蚌式大機蓋,一體式設計降低了兩個count,所以我們改了多少個細節,改了40多處的風阻優化,像這麼一款運動型的SUV,我們的風阻係數做到了0.245, 在運動型的SUV裏面表現是非常突出的,它相當於續航增加了59公里。顏色還有美來自於色彩,SUV的型面更飽滿更立體,我們在大自然裏面尋找有生命力的色彩,這樣在光線的折射下,它的變化更加的豐富,也更加的好看。今天我們給大家介紹的第一款顏色是什麼呢?是寶石綠,這是一款高飽和度的顏色。我首先給大家介紹一下,這個高飽和度的顏色以前都是有跑車做,爲什麼?爲什麼你在大街上看到都是黑的白的灰的?因爲這三種顏色又好看又便宜,主要是便宜。高飽和顏色貴在什麼地方?各位想一想,這些車要在戶外,風吹雨打,太陽曬,要10年20年不變色,大家想一想這個做高飽和的顏色有多複雜?所以每研發一款顏色往往的週期都是13個月,週期特別長,所以這個顏色絕對不是我們在電腦調色板裏改一下出來的,還是一個很複雜的研發過程。所以也只有做超跑的人才,願意花那麼多時間做那麼漂亮的顏色,投那麼高的成本。大家還記得SU7的海灣藍其實也很好看,也是高飽和度的,所以我們在做這些車的時候,特別願意給大家推薦一些特別好看的顏色。同時我要給大家講的是什麼?這一款寶石綠,它的靈感來自於哥倫比亞的綠寶石,它的顏色飽和鮮豔,它有不可比擬的翠綠的色澤,晶瑩剔透的質感,在光線下熠熠生輝。那麼爲了更好的還原綠寶石的質感,我們這是在工藝上採用了雙層色漆的工藝,這個雙層的設計,色漆的工藝是怎麼做的?光色罐用了三套,像外表面我們先噴一層黃綠色的金屬漆,再噴一層透明的珠光漆,在內表面我們噴的是金屬漆和珠光漆的混合漆,就噴成一個顏色要三個罐子噴,其他的顏色簡單的都是用一個罐就行了,所以成本比一般的顏色貴了兩倍以上,然後所以做起來比他想象的要困難。這款顏色在陽光下看的時候特別好看,我們來看一下。在不同角度下欣賞寶石綠的話,它看着就像寶石一樣,光在斜面上流轉,印在漆面上流動特別好看。我們在竹林也拍了一組也很好看。今天的話我們也給大家介紹第二款顏色叫鈦金屬色,彰顯豪華低調。在漆面裏面我們加入了粗顆粒的鋁粉,讓漆面具備金屬獨特的力量感。特別好看。同時的話我還做了一款極爲炸裂的顏色,熔岩橙,我特別喜歡這款顏色,但是我認爲SUV的型面更立體,更有質感和衝擊力。所以的話特別適合激情澎湃的年輕人,我也特別喜歡。所以也適合像我這樣的年輕人。我們來看一下很漂亮。加上上次的寒武巖灰,整個YU7我們已經給大家介紹了4款顏色,後面還有5款,下次發佈會再給大家慢慢介紹,都挺好看的。天際屏我們來看一下它的內飾怎麼樣?現在大家靜靜的看一會,是不是有點像航空艙的感覺?然後我們的整個交互系統增加了小米天際屏的全景顯示,那麼後排的控制屏帶來了全新的視覺體驗。我們仔細看一下,這就是我們的天際屏。交互有趣。各位仔細看,它不是一個簡單的屏幕,它是一個集成了先進技術的高端投影,它有三塊mini的屏幕,通過全景曲面投影技術,反投到前風擋下的黑區,形成了1.1米超寬的顯示,而且顯示精度的話,也是超視網膜的高清顯示,所以特別好看,它是一個全景的曲面投影技術,它不是簡單在那做了一塊屏,而且我們的交互系統也特別好用,符合直覺。像開車的時候,時速導航這些信息一眼就能看清楚。這個副駕還可以顯示音樂卡片,轉向的時候盲區影像就直接顯示了,一轉向盲區影像就直接顯示了很方便,然後輔助駕駛的時候自動切換成SR的路況信息,切換駕駛模式的時候還可以顯示動力空懸等信息。我們提供了5類的信息卡片,大家還可以自動的組合,好像這樣先進的技術。內飾我們的內飾不僅有科技感,還有豪華感,我們採用了雙區環繞的設計,它的型面簡潔飽滿,儀表台很薄,視野特別通透,用料也特別的豪華,人接觸的地方100%軟包覆的,而且我們的材料還是嬰兒可以直接接觸的這種材料,獲得了國際的一級認證,所以整個材料觸感都特別好,這個空間也特別大,前排的空間,我們用的1.88米的假人,當你坐進去的時候,頭頂空間還有100毫米,這個比Model Y和保時捷卡宴都要大不少。而且座椅的風格,這一次我們調的是豪華舒適型的,因爲SU7我們調的偏硬,偏運動型的偏路感型的,YU7偏豪華型的。我們還搭載了零重力座椅,通過把腿部和靠背的角度調整成120多度,科學分配身體的壓力,來提升乘坐的舒適感。而且我們還配了10點式的按摩,特別適合停車的時候休息一下,或者中午在車裏睡個午覺什麼的。我們的主駕的零重力座椅有12層結構,更厚、更軟、更有支撐力。其中零壓感的海綿讓短途乘坐更舒服,高密度的記憶海綿,它的支撐力好久坐不累,而且全車的座椅都是Nappa真皮包覆,它的觸感極其的細膩。談到零重力座椅,也是這幾年,我們國家的新能源汽車捲起來了,豪車都還沒開始卷,我們已經全捲進零重力座椅了。大家用零重力座椅的時候往往都是放在後排或者副駕,而我們的車放在前排,因爲我們發現很多人開車的時候在車上休息,都習慣坐在主駕位上,所以這一次我們特別設計了前排主副駕都是零重力座椅,歡迎大家到店體驗。這不是一輛MPV,這是一輛自己開的車,所以主駕我們一定要設計的特別舒服。像這樣的設計其實在SUV裏是很少見的,一般放後排或者副駕。我們在想這個車是你不想開的舒服一點嗎?所以我們的雖然是運動的姿態,但是我們的內部空間有驚喜。比如說後排依然是1米88的假人,頭部空間有77毫米,膝部空間73毫米,都比Model Y和保時捷卡宴好,所以大家完全不用擔心。後排的座椅,也是同級一流的可坐可躺,電動無級調節能調35度的範圍,他們說堪比豪車的座椅的舒服度,我就不跟哪個豪車比了。我們的內飾有三種顏色,有松石灰,它是綠灰雙色的,有珊瑚橙,還有慕尼黑藍,有三種顏色。空間談到這裏我們再看看儲物空間,首先我要給大家推薦的是蚌式前機蓋,超大。聽我的同事介紹這是量產車裏最大規模的,它的面積有3.11平方米,做到了無縫縫,這對製造要求是很高的,跟整車的型面渾然一體,非常的漂亮。而且這個是一個電動的,前機蓋打開以後裏面有141升的超大前備箱,然後整車的儲物容積有1970升,非常的大。我們把大家常用的場景也捋了一下,比如說兩個人去郊外騎行,帶兩輛自行車和行李,週末咱們去滑雪,三套滑雪板帶行李,或者自駕遊帶很多的箱子和行李,都可以搞得定。設計所以聊到這裏的話,我還要最後聊一聊YU7的設計理念,它完全遵循了我們小米汽車的設計理念,就是迴歸設計的本質,尋找符合直覺的美,符合自然的美。用一句話總結就是做經得起時間考驗的設計。下面的話我們請我們的首席設計師李田原通過視頻方式給大家介紹一下。(播放設計師李田原視頻)“如果給你一張白紙,不管多少年過去了,多少款車過去,依然能夠畫出小米汽車的家族符號,這些符號是屬於這台車的,它也屬於時間。我們SU7開發了10個月後就開始做YU7的開發,當時有過一段掙扎,必須需要做的很熟悉一樣,還是說要走上一個完全不同的方向,最終的答案很清晰,YU7必須屬於這個家族,但他也必須有自己的個性。誰知這一切從比例開始,比例是汽車設計的靈魂,我們希望它能夠繼承SU7的運動調性,有流暢的車身,穩健的姿態,但在力量表達上應該有自己的方式,SUV的厚重感其實也可以轉化成一種優雅的張力,科技可以一直在變,但自然的規律是不會變的。水滴大燈融合了風道的設計,風道貫穿整車順勢導流,尾部鏤空擾流板,讓氣流分離得更加乾淨徹底,燈始終是最重要的家族符號,簡單提取了粗細的輪廓線,並且它集成了一橫兩點的關鍵符號。新款尾燈用更強的轉折撐起了更有力量的雙線。當你坐進車內,你觸摸到的、看到了、聽到的都剛剛好,符合你的直覺,他很有共鳴感是始終存在的,所以我會覺得YU7它不只是一台車,他也是家族的一員是延續和進化,是一種能夠經得住時間考驗的存在,這就是小米YU7的設計。也是小米汽車設計的信念。喜歡我們小米汽車的設計嗎?”性能好,YU7作爲一款豪華高性能的SUV,下面我們聊一聊性能,它的性能也非常的出色,它的零百的加速3.23秒,它的最大馬力690匹,它的最高時速253公里每小時,這台SUV裏是非常出色的,我們比一下像Model Y的性能版,Performance的版本它的零百是3.7秒,像邁凱倫Artura這款96.8萬的將近100萬的車,它的零百是3.3秒,YU7的頂配是3.23秒,所以這個成績在SUV裏是非常出色的。那麼這麼好的性能,它背後是強大的電機,小米超級電機V6S的Plus,這個是在V6S的基礎上,轉速提升到22,000轉,它的扭矩和功率也升級了,性能變得更好。同時它有豪華的底盤配置,兼顧了運動和舒適性。然後整車的標配了連續阻尼的可變減震器,精準匹配的路況需求,快速的調節阻尼力,能夠適應山路,城市高架和爛路各種各樣複雜的工況,然後還有閉式的雙腔空懸,它有5檔的高度調節,最大的調節範圍達到75毫米,最高的離地間隙達到了222毫米,而且它可以快速調節空懸的剛度,最大的高低剛度差超過了40%,在保持路感的同時可以做到更加的舒適。所以我們整個底盤系統是極其豪華的配置,它的制動能力同樣很出色,從100公里每小時殺到0,最短的制動距離33.9米,這個和保時捷911相當,這是百萬跑車級的制動能力,而且還提供了四重製動冗餘的安全機制,帶來了更穩定更安全的制動能力。我們總結一下,這個YU7有三個版本,和Model Y的版型是一樣的,有單電機的後驅版,也有雙電機的四驅版和高性能四驅版三個版本。它的性能都非常好,都有HyperEngine Plus的小米超級電機,那麼Max的零百達到了3.23秒,在SUV裏非常強大,而且全系標配的固定卡鉗和四重冗餘的剎車安全系統,它的底盤都很好,都標配了連續阻尼的可變減震器。所以大家仔細看看你需要哪一檔的動力,平時家用的話這個後驅版挺好的,如果預算還可以的話直接上頂配,它的性能很好,當然了Pro版的話也相當不錯,還有連續阻尼的減震器也有空懸,而且又是四驅,它的通過性和脫困性,包括性能都很不錯。所以這張圖片給大家拍下來可以仔細看一下,就關於我們的動力版型跟Model Y的設置是完全一樣的。續航續航這一款純電的SUV來說,續航尤其重要,因爲開SUV大家都經常願意跑遠路,但是從汽車研發的角度上來說,續航是最貴的配置,所以看車貴不貴先看續航。因爲電池包特別貴,電池包裝的整車成本40%上下,所以續航是最貴的配置。大家知道YU7的標準版的續航有多少嗎?大家冷靜看一下,835公里,這是標準版的續航。因爲續航能力我的同事們做了很多的比較,它是所有中大型純電SUV的續航第一,哪怕你擁有更大的電池包,也未必比我們跑得遠。因爲有時候電池包太大以後它也變得更重,而且續航除了電池包以外,它還跟很多因素相關,我們可以比一下。你比如說極氪001開100度電跑700公里,智己LS7 111度電跑742公里,所以我們要找到一個最佳的平衡,做了835公里,那麼835公里我們搭配的是多大的電池?我們起步就是96.3度電,將近100度電,我們起步就是將近100度電的大電池包,成本非常的貴。大家知道我們有三個版本,我們看一下四驅的純電續航,因爲往往動力越大續航會越差,因爲它跑得快它是需要消耗更多的動力的。我們來看一下,你會發現我們四驅的純電SUV的續航也不錯,能做多少?770公里。它也是四驅純電SUV的續航冠軍。Model Y的四驅它的續航是多少?它的續航是719公里,他們其實已經做得很好了,我們是770。所以我還是要再畫一次重點,哪怕是四驅的SUVYU7依然是續航第一。所以我總結一下,我們三個版本全部都是大電池,全系都是超長續航,而且全系800伏碳化硅的高壓平台,而且我們的Max版還是5.2C的充電,15分鐘能最大補能620公里,所以充電的效率也非常的快。我們簡單的比一下充電 Model Y大概是10%~80%需要27分鐘,極氪001是21分鐘,我們12分鐘,所以我們的充電效率是非常快的。這就是我們三個版本的電池續航和充電效率。你看標準版835公里96.3度電的天理鐵鋰電池,Pro版是770公里96.3度的鐵鋰,Max版是101.7度電的三元鋰760公里,但是它主要是爲了更高的性能和更強大的動力,所以YU7的這款純電SUV具備超強的產品力,全系大電池包全系超長續航,全系800伏的高壓,所以這些都是很頂的配置。安全所以聊到這裏,聊到這裏,我想跟大家說,YU7之所以如此的強大,背後有非常多的創新技術。今天的時間很短,我就給大家講三點。第一個,YU7也採用的是Modena的技術架構跟SU7一樣,我們在繼承了SU7的優勢上做了大幅度的修改和增強。比如說鎧甲籠式車身全面升級,全面升級以後內容很多,我講三點,第一點,我們長車頭帶來的這個車頭的吸能空間,你碰撞的時候有個吸能快速的吸能空間,我們做到了659毫米,然後比Model Y多了100毫米的吸能空間,能夠承受更大的潰縮率。第二個底部我們增加了1500兆帕的橫樑,用來降低電池包經常遇到石子刮壞的可能性,增加了一個1500兆帕的橫樑。第三點,我們電池包底部也用了OTA同款的防彈塗層來進一步保護電池包的安全。還有一個最重要的,我們SU7他用了2000兆帕的潛艇鋼,這一次我們YU7用了2200兆帕的小米超強鋼,這是目前量產的最高強度的熱成型鋼。好,它強在什麼地方?我們用在什麼地方?首先我們用在側橫樑上,就是4門的防撞梁,因爲有時候側撞的時候,乘員艙側撞的時候離乘客很近,一直是被動安全的難點。我們這次用了2200兆帕用在4門的防撞樑上,前門的承載能力提升了50%,後門的承載能力提高了37%,有效的提升了側碰的安全性。所以這個材料科技非常重要。第二個,我們在A柱B柱裏面用了6根熱成型管,也是2200兆帕的小米超強鋼,能跟車身配合在一起,形成了一個防滾架的模型,這就是我們借鑑的防滾架的原理。它能夠在應付惡劣的場景下,更好地保護乘員艙的結構。大家瞭解A柱和B柱,這裏面裝了6根熱成型管,形成了一個內嵌式的防滾架的結構。有什麼好處?我們來看一下。A柱的承載力提升35%,B柱提升了70.5%,所以它的強度得以大規模的提升。那麼這是怎麼做到的呢?我們的工藝用了一種叫熱氣脹工藝,就用高壓氣體,像吹氣球一樣,把2200兆帕的材料在模具裏面吹成你所需要的形狀,然後嵌入到A柱和B柱裏,這個技術還是蠻難的。這麼高強度的鋼材要吹成這個形狀,用的熱氣脹的工藝。這個材料的話是和大學的科研團隊合作研發的,所以材料科技非常關鍵。那麼超強鋼有多強呢?我讓同事們做了個實驗,用251公斤的金屬球去撞擊這個防撞梁,我們原來的防撞梁就是1500兆帕的,換成2200兆帕的時候我們看一下,我們就可以用這麼大一個鐵球250多公斤去砸防撞梁,1500的已經裂開了,2200兆帕的沒事。所以我們籠式車身的話,鎧甲籠式車身的話,高強度鋼和鋁合金的佔比達到了90.2%,車身的扭轉剛度超過了47,000牛米每度,在SUV裏面是表現極其不錯的。然後全場景的被動安全的性能測試多達50多項,完全覆蓋了CNCAP和中保研的所有的碰撞測試。所以我們在過去我們的SU7的產品裏,在所有的權威機構的碰撞測試裏面,我們都拿到了最高分。電子電器架構下面我們講第二項技術,電子電氣架構,因爲智能電動汽車智能佔的比例越來越高,而且也越來越複雜。這也是我跟大家講爲什麼小米造車優勢之所在,就是我們做電子已經做了15年,我們給大家介紹一個我們的自研的產品叫什麼?叫四合一的控制器,這就是把汽車裏面的輔助駕駛域、智能座艙域、整車控制域和通訊模塊4個盒子全部合併在一起,高度集成,它相當於幾十個功能合在一起了,相當於一個中央大腦,你可以把它理解成一個小服務器。原來在車裏就是搞了一堆的盒子,把它全部集成在一起了。那麼原來或者今天的主流的結構是怎麼樣的?我專門買了一套,就是搞了一堆盒子,這就是我們的四合一的。所以一比你就知道它首先一個特點,它的體積大規模縮小了,而且它減重,它從原來的5公斤降低到3.6公斤,而且把域全部合併以後,它的能效大幅的優化,通訊性能也大幅度提高,而且控制器的數量也大幅度減少。我舉一個小例子,比如說哨兵模式,原來哨兵模式爲什麼耗電,它跨好多個月才能把視頻內容上傳雲端,你才能看得到在手機上。現在的話它的通訊鏈路被極大的精簡,它都是在一個域就完成了,視頻信號兩步就可以上傳雲端,整個功耗降低了40%,所以整個四合一帶來的好處是非常之多的。而且的話我們的座艙的SOC用了第三代驍龍8的移動平台,4納米的平台,像高算力的旗艦平台,然後系統極其流暢,所以我們的整個車開機快,應用啓動快,OTA升級也快,最快15分鐘就能完成OTA。這可能是行業今天最快的OTA。比如說有的車一升級需要一兩個小時,所以升級很慢。第二個的話就是四合一控制器,它的輔助駕駛模塊的算力也很恐怖,它是搭載了最新的NVIDIA DRIVE Thor平台4納米的先進工藝,700 TOPS的算力是極其驚人的,而且還有先進的通訊技術,有雙5G的並行通訊網絡,UWB的近場通訊,還有WiFi7,你在車裏玩手機連接車內熱點的時候可以提速超過80%,所以把最新的科技全部用了一遍。而且我們新一代的電子電氣架構經過了非常嚴苛的可靠性測試,耐久測試採用的是行業標準兩倍以上的標準進行嚴格測試的。所以這是我剛纔介紹的第二項技術:四合一的控制器。輔助駕駛第三項是小米輔助駕駛,這一次我們全套硬件都是高端配置,我簡單給大家介紹一下,算力是700 TOPS的,這是英偉達最先進的和最新的專爲大模型時代而生的。我們搭載的激光雷達也是全球首批第二個,它的探測距離達到200米,進一步提高了輔助駕駛的安全性。在暗光環境下,在異形障礙物的識別裏面,激光雷達有明顯的優勢,還有4D毫米波雷達,它的分辨度和識別距離都提升了。在一些複雜的場景,比如說跟車當前車急剎車的時候,它有更好的預警能力,在雨天霧天惡劣天氣的時候,即使肉眼看不見的時候,也能更好地感知交通狀態。所以有4D毫米波雷達,哪怕攝像頭我們也應用了我們手機相機的技術,做了LMR的鍍膜,能更好的抑制逆光眩光產生的視覺干擾,整個畫質更加清晰透徹。全套的硬件都是非常高端的,包括700多個TOPS算力,激光雷達,4D毫米波雷達,11個高清攝像頭,還有其中7個做了LMR鍍膜,還有12個超聲波雷達,那麼這一套配置進一步提高了安全性,而且成本也非常貴。爲了進一步提高輔助駕駛的體驗,我們全系標配,所以我們的入門版就是帶激光雷達,帶4D毫米波雷達,帶700 TOPS的算力的,全是今天最高端的配置之一。配置講到這裏,這就是我們今天給大家介紹的YU7。我簡單的總結一下,作爲一台豪華高性能的SUV,全系標配了非常強大的配置。第一個全部標配的大電池超長續航,全部標配了全景小米天際屏全景顯示,全系標配了700 TOPS的算力,全系標配了激光雷達,全系標配了連續阻尼可變減震器,就是超豪華的底盤。我們再看一眼,它有三個版型,標準版續航835公里,然後96.3度電,帶激光雷達,700多TOPS的算力,包括連續阻尼減振器,像這樣的配置拿出來,可能是其他公司的車型裏面的Pro版,還是Max?還是Ultra。我們在內部也反覆討論說,我們要不也跟大家對齊叫Max版。其實在這個討論裏面,我還是希望我們小米保持真誠,它就叫標準版好嗎?只不過是我們的標準版是超大杯的,大家理解了嗎?來我們看Pro版增加了什麼?最重要的是增加了雙電機四驅,雙腔空簧,就是它的動力通過性脫困能力大幅度提升了。大家理解了吧?Max它是高性能四驅,它全部是頂配,有非常多豪華配置,我今天就不展開講了。爲了讓大家加深印象,我們比一下Model Y。爲什麼比Model Y?因爲反正Model Y打遍天下沒敵手,Model Y是全球銷冠很厲害。因爲Model Y也是三個型號,我們就一個型號,對一下,讓大家建立一個印象,我們來看一下全球銷冠Model Y的標準版就是他所謂的後驅版。YU7零百是5.88秒,它是5.9秒,這兩家的動力差不多。而我們用了96.3度電,835公里的續航,他們只有62.5度電,590公里的續航,大家知道差了多少嗎?差了34度電,差了340多公里的續航,好像高了好幾個檔次,各位簡單算一下,貴了好幾萬。第二個YU7還標配了天際屏激光雷達連續阻尼可變減震器800伏,還有各種各樣我還沒有講的豪華配置,反正Model Y定價26.35萬,我覺得YU7看這些配置至少應該貴個六七萬,具體的價錢等我們7月份發佈的時候再講好嗎?但是我看到網上有很多人出來說雷總肯定定個199,000,不要這麼講不可能的好吧?這個配置Model Y沒有三十幾萬,絕對下不了台的。好,我們再來看一下Pro版對它的長續航全輪驅動。它們的動力依然差不多,但是他們的電池只有78度電,我們是96度電,差了18度電,續航多了50公里,更重要的我們還配了空懸,所以配置也比他們強很多。那麼他們的性能版Model Y的性能版也是78度電,我們101.7度電,它的性能版只有615公里的續航,我們760。動力,續航豪華配置,我覺得我們的Max版是真的非常領先,具備壓倒性優勢。好說到這裏的話,我們的YU7的發佈就快結束了,YU7將於7月份正式上市。如果大家特別關心YU7的話,現在就下載小米汽車的APP,可以提前預約諮詢,展車我們馬上就陸續到店,等到店以後,我們的產品專家會邀請大家到店體驗。好嗎?我曾經也想向同行學習搞個小訂,但是今天我們的操盤手擔心太折騰大家了,所以我們就不搞小訂了。如果你們有興趣,歡迎大家在小米汽車APP裏面留下聯繫方式,我們的產品專家會聯繫你好嗎?好,下面就進入最重要的環節,用熱烈的掌聲歡迎YU7上台。(YU7SUV亮相)好看嗎?是不是太漂亮了?大家欣賞一下我們的寶石綠很漂亮。首先我們看一下它的大燈非常的漂亮,上半部分是鏤空的,前蓋還是蚌式的鋁製大機蓋,而且風道是跟前艙蓋連通的。然後我們來看一下,整個車的姿態非常的低趴,很有力量感很有衝勁,而且也是黃色的卡鉗固鉗,整個顏色在燈光下熠熠生輝非常的漂亮。聊到這裏的話,我還有一個小的消息,我們1:18的核心車模已經上架,它的4門兩蓋都可以打開,做工非常的精緻,其實我們的車模比車還難搶。定價多少錢?599,有寶石綠和鈦金屬兩款顏色,還有禮盒版和至尊版,想要的朋友現在就可以開始買了。我還給大家推薦一下我們小米金駕的高階駕駛培訓課程。4年前我剛剛開始做車的時候,我們就給所有的高管安排了一次駕駛培訓,其實參加完這次培訓以後,我發現我開了30多年車,原來我還是不太會開車,因爲我從來沒有一腳踩死過剎車,我們以前學車的時候大家都叫你點剎,其實遇到緊急狀況最好是一腳踩死。可是當你所以那一次我們學了一腳地板油,一腳剎車緊急變線,我覺得這些能力提高以後使我重新開始認知怎麼開車。所以我們專門設計把我們內部的課程拿出來,想希望更多的車主學習這些高階駕駛技巧,就是從理論到實踐來提高駕駛能力,比如說加速、制動、緊急變線練習。比如說你能不能一腳剎車剎停在錐桶前面,你能不能在最短的時間加速到一定的速度,而且你應該怎麼學習變線。第二個課程叫繞樁練習,你怎麼躲人躲東西,然後怎麼繞樁。然後第三個訓練就是低附路面的駕駛培訓,比如說下雨天下雪天冰面路滑,應該怎麼開車?所以爲什麼我們這一次在YU7的三個版型裏面專門增加了兩款四驅(原來SU7只有一款四驅),主要是脫困性能,就是在低附路面上的脫困。除了這三個培訓以外,爲了提升課程的有趣性,我還讓他們提供了金卡納的練習。金卡娜就是用很多錐桶來擺線路的一種小型場地障礙賽,就是你要用加減速,連續變向過彎等技巧快速的跑完全程,然後在這種比賽的環境裏面提高你對極限狀況的響應,來提高你的駕駛能力,學完以後會非常有幫助。這段時間我都在考察各種各樣的培訓項目,但是這類的培訓其實同行也有,定價都非常的貴,它的成本也特別貴,所以後來我們定價1999,這個5月27號開啓報名,在多個城市陸續開始培訓。首先面向小米的車主,還有鎖單的準車主。當然我們的團隊已經做了精心的準備,我依然擔心他們的經驗不足,所以我爲這個培訓也會提供一個特別的優惠,來邀請一些車主幫我們測試。那麼這個優惠幅度有多大呢?首批的1萬人全部免費。所以如果大家有興趣的話,在5月27號開始報名,因爲車教練場地都是我們提供的,然後我們也會跟大家從理論到實踐來,教大家怎麼把車開好,怎麼了解車的邊界,好嗎?如果我們這個培訓課程有什麼需要改進的,隨時希望大家在社區裏給我們提意見,我們會把這些課程改得越來越好,好嗎?到這裏的話,我們的YU7的發佈就要結束了。我想跟大家聊聊YU7是爲誰設計的?我覺得這個問題蠻重要的。其實我在設計YU7的時候我們思考非常多,這輛車我們做了三年多時間,我們是爲哪些人設計的呢?我們是爲那些不能容忍平庸的人設計的,是爲那些始終走在時代前列的人設計的,就是無法容忍平庸,所以我們希望做一個有性格有態度的車。那麼這些人他們是一個什麼樣子的人呢?我用幾段話來描述一下,他們經歷風雨,依然對生活充滿熱情,他們樂觀豁達,始終保持着自信進取的個性。還有無論世界如何紛繁,他們都能做到從容不迫,舉重若輕。我們的YU7就是爲那些先進的時代精英打造的先進的SUV。今年是小米15週年,我想和大家分享一句我特別喜歡的話,我曾經5年前引用過,叫疾風知勁草,路遙知馬力。今天的小米肯定有很多不完美的地方,肯定有很多不如意的地方。在下個5年,我們承諾大家,我們會用更堅實的成長來交出一份更好的答卷。好,今天的發佈會到此結束,謝謝大家!
材料我用的是雷總小米 YU7 上市發佈會演講稿,接下來分別看看四個模型的交付。
Claude Opus 4.8:

Claude Opus 4.8 事實選擇很核心,價格、續航、智駕、安全、測試口徑這些關鍵缺口都抓到了。表格也完整,基本就是研究助理級交付。
Gemini 3.5 Flash:

Gemini 3.5 Flash 的總結把價格未定、顏色未披露、Pro 版數據不全,這幾個缺口抓到了。
但它的問題是“ 5 條最重要事實”選得不夠好,都不是關鍵信息,對產品信息的核心判斷不夠準確。
GPT-5.5:

GPT-5.5 把文檔讀的很透,指出“壓倒性優勢”“續航第一”等強結論缺少獨立測試、完整價格和明確口徑。
但5 條事實偏基礎,沒抓住關鍵。
Qwen3.7-Max:

Qwen3.7-Max 核心信息抓的很好,但它有兩個地方要扣分。
“835km 續航起”這個說法不嚴謹,容易讓人誤解成最低續航 835km。
發佈會暗示寫得太確定,比如“定價將顯著高於 Model Y”“30 萬+”,材料裏確實暗示不便宜,但最終價格未公佈。
這輪長文檔精讀,Claude Opus 4.8> GPT-5.5> Qwen 3.7-Max > Gemini 3.5 Flash。
案例2:任務規劃
現在很多模型都在強調任務規劃能力。
但任務規劃能力能不能用,還是得看它能不能把任務拆清楚。
你是一個可調用工具的 Agent,但現在只需要輸出計劃,不要真的執行。
可用工具:
– search_web(query)
– open_url(url)
– read_file(path)
– write_file(path, content)
– create_spreadsheet(name, rows)
– send_email(to, subject, body)
用戶目標:
我下週要去東京出差 4 天,需要你幫我做一份行程方案,包括航班建議、酒店區域、每天日程、預算表、風險提醒,並最後生成一封發給同事的確認郵件草稿。
請輸出:
1. 如何拆解任務。
2. 每一步要調用什麼工具,參數是什麼。
3. 哪些信息必須先向用戶確認。
4. 如果搜索結果衝突,如何處理。
5. 最終交付物清單。
輸出格式必須是 JSON,不要 Markdown。
分別看看四個模型的交付。
Claude Opus 4.8:

Claude Opus 4.8 流程規劃的很完整,也知道先確認信息、不直接發郵件。
但它預算裏寫了“酒店 x 4 晚”,4 天出差通常是 3 晚。
Gemini 3.5 Flash:

Gemini 3.5 Flash 完成了基本要求,但沒有做覈驗,信息確認項偏少,會很影響真實出差方案。
GPT-5.5:

GPT-5.5 最好的地方是注意到了當前日期,Agent 做日程類任務,最容易翻車的就是相對時間。
基礎的 search,覈驗;預算表、行程文檔、郵件草稿;發送確認也都有
但沒有像 Claude 那樣把預算項目拆分的更具體。
Qwen3.7-Max:

Qwen3.7-Max 第一步就開始搜“東京商務出差推薦酒店區域”,但還沒確認會議地點、出發城市、日期、預算。順序不太對。
更嚴重的是沒有加“郵件需要用戶確認後再發送”的硬門檻。
還有一個跟Claude Opus 4.8一樣的錯誤: 4 天出差通常是 3 晚,但是他定了 4 晚。
這一題任務規劃我的排序是:
GPT-5.5 > Claude opus 4.8 > Gemini 3.5 Flash > Qwen3.7-Max。
案例3:代碼修復
這題不用搞很難。
普通業務代碼裏的日期、邊界、異常處理,反而更能看出模型到底靠不靠譜。
你是一名資深 TypeScript 工程師。下面代碼在處理跨月日期時有 bug,請找出問題並給出最小修改版本。
要求:
– 不要重寫整個模塊。
– 保留函數簽名。
– 解釋 bug 出現的原因。
– 給出 5 個測試用例,覆蓋邊界情況。
代碼:
function getNextBillingDate(startDate: string, billingDay: number): string {
const date = new Date(startDate);
const year = date.getFullYear();
const month = date.getMonth() + 1;
const next = new Date(year, month, billingDay);
return next.toISOString().slice(0, 10);
}
分別看看四個模型的交付。
Claude Opus 4.8:

Claude Opus 4.8 抓到了日期溢出和時區問題,但修復代碼裏還混用了 getFullYear/getMonth 和 Date.UTC。如果在負時區、月初日期場景下,仍可能出問題。
Gemini 3.5 Flash:

Gemini 3.5 Flash 最大的問題是:它擅自改了業務邏輯。
原函數明顯是在算“下個月的賬單日”,但 Gemini 改了這段邏輯,變成“如果本月賬單日還沒到,就返回本月賬單日”。
GPT-5.5:

GPT-5.5 直接指出核心 bug:JS Date 自動進位。也補充了 toISOString() 的時區問題,修復方案和 Claude 基本一致。
缺點是解釋比 Claude 少一點。
Qwen3.7-Max:

Qwen3.7-Max 同樣抓到了日期溢出和時區回退,而且講得很適合中文讀者,截圖裏的例子也直觀。
但測試沒有專門驗證不同時區下輸出一致。
這輪代碼修復,GPT-5.5 > Qwen3.7-Max > Claude Opus 4.8> Gemini 3.5 Flash。
案例4:中文寫作
這一題專門測中文語感。
你是一名中文科技媒體作者。請把下面信息改寫成一段微信公衆號文章開頭。
要求:
– 面向對 AI 工具有興趣、但不是專業工程師的讀者。
– 口吻自然,有信息密度,不要營銷腔。
– 不要使用“重磅”“顛覆”“炸裂”“遙遙領先”。
– 開頭 100 字以內。
– 最後給出 5 個標題,標題要有差異,不要標題黨。
信息:
【今天,我們正式發佈 Qwen3.7-Max,這是一款面向智能體時代的新一代旗艦模型。它不只擅長對話和推理,更面向真實任務執行而設計,能夠承擔代碼編寫與調試、辦公流程自動化、複雜信息處理,以及跨數百到數千步的長週期自主任務。
Qwen3.7-Max 的核心定位,是成爲全能型智能體基座。它可以作爲編程智能體,從前端原型、網頁生成、SVG 創作,到複雜多文件工程任務;也可以作爲辦公生產力助手,通過 MCP 集成和多智能體協作,完成文檔處理、表格分析、格式修復和可視化生成等工作。
在長週期自主執行方面,Qwen3.7-Max 展現出更強的持續規劃和迭代能力。官方案例中,它在約 35 小時的連續執行裏完成 1,158 次工具調用和 432 次內核評估,最終在 Extend Attention Kernel 優化任務中實現 10.0 倍幾何平均加速。這說明模型不只是能完成短任務,而是能夠在複雜環境中持續試錯、修復、優化並推進結果。
在智能體評測中,Qwen3.7-Max 在編程、通用智能體、MCP、辦公自動化、推理和多語言能力上都有突出表現。比如 Terminal Bench 2.0-Terminus 達到 69.7,SWE-Pro 達到 60.6,MCP-Mark 達到 60.8,SpreadSheetBench-v1 達到 87.0,GPQA Diamond 達到 92.4,HMMT 2026 Feb 達到 97.1。整體來看,它不僅追求單點能力,而是強調跨任務、跨工具、跨框架的穩定泛化。
更重要的是,Qwen3.7-Max 不綁定單一智能體框架。無論部署在 Claude Code、OpenClaw、Qwen Code,還是其他自定義工具調用框架中,它都能保持穩定表現,適合作爲下一代 AI Agent 系統的底層模型。
對於開發者,Qwen3.7-Max 已可通過阿里雲百鍊 API 調用,並支持接入主流智能體工具鏈。對於企業和團隊,它意味着複雜項目從“人力密集執行”轉向“模型持續協作執行”:從寫代碼、修文檔、做表格,到自動規劃、調用工具、生成交付物,模型可以承擔更完整的任務閉環。
Qwen3.7-Max 是 Qwen 面向智能體時代的一次重要升級。它把前沿推理能力、長週期自主執行、工具使用、多框架適配和生產力場景結合在一起,爲構建更可靠、更能幹的 AI 智能體提供了新的基礎。】
這裏信息是用的是千問的官方介紹:Qwen3.7: The Agent Frontier,來看看四個模型的交付:
Claude Opus 4.8:

Claude 4.8 的開頭信息密度很高,35 小時、1158 次工具調用、10 倍加速都放進去了,確實更有看點。
但硬要求是 100 字以內,它超過了。
Gemini 3.5 Flash:

Gemini 3.5 Flash開頭自然,讀者能看懂。題目只要求“給出 5 個標題”,它多輸出了不需要的內容。另外“解密”“新玩法”“數字協作者”稍微有一點AI感。
GPT-5.5:

GPT-5.5嚴格控制在 100 字以內,語氣自然,也沒有用誇張詞。標題之間有差異,而且不標題黨。缺點是少了一點具體數據。
Qwen3.7-Max:

Qwen3.7-Max開頭完整、順滑,也基本符合 100 字要求,很貼合原文的意境。標題也偏“技術路線”“通用基座”這種行業稿口吻,我覺得是最好的。
這輪中文寫作,Qwen3.7-Max>GPT-5.5>Claude Opus 4.8>Gemini 3.5 Flash。
案例5:數據分析
最常見的需求來了,讓AI分析數據並給出建議。
你是一名增長分析師。請分析下面 CSV 數據。
任務:
1. 計算每個渠道的轉化率。
2. 找出 ROI 最高和最低的渠道。
3. 判斷是否應該增加短視頻渠道預算。
4. 給出 3 條可執行建議。
5. 輸出一張 Markdown 表格。
注意:
– conversion_rate = orders / visits
– ROI = revenue / cost
– 所有百分比保留 1 位小數。
– 不要編造 CSV 外的數據。
CSV:
channel,visits,orders,cost,revenue
search,12000,840,30000,126000
short_video,18000,720,45000,108000
wechat,6000,510,12000,76500
affiliate,9000,360,15000,43200
display_ads,20000,300,50000,39000
Claude Opus 4.8:

Claude Opus 4.8 非常強。不只是算對,還算了單均成本、客單價,判斷出短視頻“能賺錢但賺得貴”。這比單純說 ROI 低更像增長分析師。
Gemini 3.5 Flash:

Gemini 3.5 Flash 把短視頻的判斷講得比較平衡:不是完全否定,而是“不建議盲目追加,先優化或小幅測試”。建議也具體到素材前 3 秒、購物車鏈路、落地頁排版,這個比泛泛而談好。
GPT-5.5:

GPT-5.5 計算全部正確,結論也正確,建議沒有廢話。
但它沒有展開 ROI 背後的業務含義。
Qwen3.7-Max:

Qwen3.7-Max 算出了主要指標,也給出了不加短視頻預算、削減展示廣告、放大微信的建議。

但有一個明顯問題。表格“按 ROI 從高到低排序”寫錯了。它把 short_video 放在 affiliate 前面,但 ROI 是 2.40 小於 2.88。
這輪數據分析,Claude Opus 4.8 > Gemini 3.5 Flash > GPT-5.5 > Qwen3.7-Max。
案例6:指令遵循壓力測試
這題看起來簡單,但特別容易翻車。
請根據下面材料生成一份摘要。
硬性規則:
1. 只能輸出 6 條 bullet。
2. 每條不超過 22 個漢字。
3. 不能使用“首先、其次、此外、總之”。
4. 必須包含一個風險判斷。
5. 不得出現英文。
6. 最後一條必須以“建議複覈”結尾。
材料:
【Qwen3.7-Max 是 Qwen 面向智能體時代發佈的新一代旗艦模型。與傳統對話模型相比,它的定位更偏向任務執行,而不是單輪問答。官方介紹中,Qwen3.7-Max 可以承擔代碼編寫、代碼調試、文檔處理、表格分析、複雜信息整理,以及跨數百到數千步的長週期自主任務。它既可以作爲編程智能體使用,也可以通過 MCP 集成和多智能體協作,參與企業辦公、數據處理和自動化工作流。
官方重點強調了它的長週期自主執行能力。在一個內核優化案例中,Qwen3.7-Max 連續運行約 35 小時,完成 1,158 次工具調用和 432 次內核評估,最終在 Extend Attention Kernel 優化任務中實現 10.0 倍幾何平均加速。這個案例說明,模型不只是能短時間生成答案,也能在複雜任務中持續嘗試、修復錯誤、分析反饋並推進結果。
在評測表現上,Qwen3.7-Max 覆蓋了編程、智能體、MCP、辦公自動化、推理和多語言等多個方向。官方給出的數據包括 Terminal Bench 2.0-Terminus 69.7、SWE-Pro 60.6、MCP-Mark 60.8、SpreadSheetBench-v1 87.0、GPQA Diamond 92.4、HMMT 2026 Feb 97.1。官方認爲,這些成績說明模型具備跨任務、跨工具和跨框架的泛化能力。
Qwen3.7-Max 也強調不綁定單一智能體框架。無論部署在 Claude Code、OpenClaw、Qwen Code,還是企業自定義工具調用框架中,它都能作爲底層模型接入。對於開發者,它已可通過阿里雲百鍊 API 調用;對於企業團隊,它的價值在於把部分原本需要人工連續執行的複雜任務,交給模型和工具鏈協作完成。
不過,官方材料仍有一些需要進一步驗證的地方。比如,長週期任務案例來自官方環境,是否能在普通開發者項目中穩定復現,還需要更多第三方測試。多框架表現雖然被強調,但不同工具鏈、權限設置、數據質量和任務複雜度都會影響最終效果。企業真正採用時,還要考慮成本、穩定性、權限邊界、結果審計和人工複覈機制。換句話說,Qwen3.7-Max 展示了智能體模型的新方向,但它是否能成爲可靠的生產力底座,還要看更多真實場景中的持續表現。】
Claude Opus 4.8:

Claude Opus 4.8 把6 條、短句、無英文、包含風險、最後以“建議複覈”結尾都做到了,信息密度還非常高。
最後一條:模型成爲生產力底座的可行性,建議複覈
嚴格說也“以建議複覈結尾”,沒問題。只是用了逗號,格式上比 Qwen 稍微不那麼幹淨。
Gemini 3.5 Flash:

Gemini 3.5 Flash 最大的問題是多條明顯超過 22 個漢字。
而且最後一條“建議複覈。”有句號,不是嚴格以“建議複覈”四個字結尾。
GPT-5.5:

GPT-5.5 也很穩,6 條、短句、沒有英文,風險判斷也有。
最後一條:企業落地需審計,建議複覈
也是同樣的,用了逗號,格式上比 Qwen 稍微不那麼幹淨。
Qwen3.7-Max:

Qwen3.7-Max 這輪最好,它嚴格輸出 6 條,每條都很短,沒有英文,也沒有多餘解釋。
最後一條是:實際效果建議複覈。
完全符合“最後一條必須以建議複覈結尾”。
這輪指令遵循壓力測試,Qwen3.7-Max > Claude Opus 4.8 > GPT-5.5 > Gemini 3.5 Flash。
案例7:svg 圖coding測試
最後測試一個代碼生成任務。
請儘可能詳細地生成一個 TI-84 計算器的 SVG 代碼
Claude Opus 4.8:

Claude Opus 4.8優點是整體可讀性不錯,屏幕函數圖也清楚,主體、屏幕、方向鍵、功能鍵、數字鍵都具備。
但二級功能標籤基本缺失,方向鍵和功能鍵區域有覆蓋。
Gemini 3.5 Flash:

Gemini 3.5 Flash 這張最像一張完成度高的產品插畫。
做出了磨砂黑機身、屏幕反光、按鍵陰影,視覺上最接近“可直接用”的成品圖。
GPT-5.5:

GPT-5.5 的細節很強,但它也有明顯問題:底部按鍵有點擠出機身,enter 出現兩次。
Qwen3.7-Max:

Qwen3.7-Max 的優點是結構完整,按鍵也比較全。
但最終圖偏扁平,質感弱一些,屏幕內容也比較簡單,沒有函數圖像展示。
這輪svg 圖coding測試,Gemini 3.5 Flash > Qwen3.7-Max> Claude Opus 4.8> GPT-5.5。
02. 實測總結
跑完這 7 個 case,我最大的感受是:模型選用真的不能只看發佈會,也不能只看榜單。
Claude Opus 4.8 綜合最強,尤其適合複雜理解、風險判斷和嚴肅任務拆解。
GPT-5.5 沒有特別突出,但穩定性很好,日常辦公和通用任務很省心。
Qwen3.7-Max 在中文寫作和硬格式遵循上表現突出。
Gemini 3.5 Flash 在視覺生成這類任務裏反而不錯。
最後的總測試排行如下:

03. 一些分享
現在的模型已經很難用一個“最強”來概括了,沒有一個籠統的第一給你選來用,而是根據你具體的用途去選擇。
這次測試裏,很多模型不是不會做,而是容易在某個環節出問題:有的會改業務邏輯,有的會多輸出格式,有的會把推測寫成事實,有的會算對但排序錯。
所以,真正會用 AI,不是把任務一丟就完事,而是知道每個模型適合放在哪個位置。
模型競爭已經從“參數和榜單”進入“真實任務交付”階段。
以後大家不會只關心某個模型在 benchmark 上高了幾分,而是會更關心:它能不能穩定調用工具,能不能遵守格式,能不能處理長任務,能不能在複雜工作流裏少出錯。
未來可能不會是一個模型通喫所有場景,而是多模型協作:一個負責深度分析,一個負責穩定輸出,一個負責中文表達,一個負責視覺和代碼生成。
所以這次橫評下來,我的最終建議是:
別隻看排行榜,也別隻聽發佈會。
拿自己的真實任務跑一遍,才知道哪個模型真的適合你。
原文鏈接:橫評 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,誰更強?