一、模型發布
階躍星辰于 2025 年 1 月 16 日重磅推出其自主研發的推理模型 Step Reasoner mini(簡稱 Step R - mini)。此模型作為 Step 系列模型家族的先鋒,具備獨一無二且出類拔萃的能力。

二、模型能力
-
擅長邏輯處理與規劃反思
-
此模型善于主動規劃、嘗試以及反思。不論是應對數學問題、邏輯推理難題,還是進行文學創作任務,都會依據任務需求率先制定規劃。當存在多種解題途徑或創作方案時,它會積極嘗試不同選擇。在這一過程中,通過模擬人類的慢思考過程,并借助反復驗證的機制,對每一步驟或結果進行多次校驗,例如反復檢查答案或者優化創作內容等,從而為用戶呈上精準可靠的回復。
-
-
文理兼修能力突出
-
理科能力:在數學和代碼領域表現卓越。于 AIME(美國數學邀請賽)和 Math 等數學基準測試中,成績超越了 o1 - preview,與 OpenAI 的 o1 - mini 旗鼓相當,足見其解決復雜數學問題的強大能力。在 LiveCodeBench 代碼任務方面,同樣優于 o1 - preview,這表明它在代碼編寫、解決代碼邏輯或者算法任務時的出色表現。在實際應用場景中,諸如處理 LeetCode 技術平臺上難度評級為 Hard 的算法題能夠正確解答,并且能夠應對復雜開發需求,通過逐步剖析用戶需求和意圖,構建正確的代碼邏輯等 。
-
文科能力:在文學創作等通用領域亦有上佳表現。它能夠承接文學創作任務,深度領會用戶的表達需求,從創作主題、文學體裁等方面展開全方位的思考。比如在創作過程中斟酌創作角度、描繪的景物、修辭手法、內容結構,賦予事物人類情感層面的象征意義,并增添個性化的、創新的表達風格,展現出在文科領域的創作能力與理解能力。同時在日常聊天任務中,也能出色地理解用戶意思并給予合理反饋,將文理能力完美融合 。
-
三、模型特點
-
獨特的邏輯機制與優秀的測試表現
-
基于慢思考和反復驗證的邏輯機制:Step Reasoner mini 的顯著特色之一便是擅長主動規劃、嘗試和反思。在處理各類任務時,例如數學題或者邏輯推理題,它采用類似于人類的慢思考模式。比如在解答邏輯推理任務時,會自主進行多種解題思路的嘗試,這是主動規劃和嘗試多種可能性的體現。在得出初步答案后,會自我反問是否存在其他可能性,確保枚舉出所有效果良好的解決方案并檢查有無遺漏,這就是反復驗證的過程。這種機制能夠讓模型在復雜任務中提供更準確、全面的答案 。
-
在基準測試中成績優異:在眾多基準測試里彰顯出強大實力。在 AIME 和 Math 等數學基準測試上,成績超過了 o1 - preview 并且達到了與 OpenAI 的 o1 - mini 并駕齊驅的水準。在 LiveCodeBench 代碼任務方面的效果也勝過 o1 - preview。例如,在實際解答數學問題的場景中,當遭遇奧數難題時,能夠像專業數學家一樣構建合理的推理鏈,實現從復雜數學問題的規劃到逐步求解的過程,并且會枚舉不同的解法方案交叉驗證;在處理幾何題目時,甚至能主動通過畫草圖這種方式構建深度思考的內容介質,顯示出其邏輯解釋性和深度思考能力 。
-
-
文理均衡發展的能力架構
-
大規模強化學習訓練與文理兼修的能力:通過大規模的強化學習訓練,并運用同策略強化學習算法 On - Policy 達成了文理兼修的獨特成效。在眾多推理模型中,隨著訓練參數規模增加,往往會出現文科能力提升則理工科能力下滑這種不平衡的現象,但 Step Reasoner mini 成功克服了這一難題。其既能精確解答數學、代碼、邏輯推理等理工科性質的問題,又能富有創意地完成文學內容創作、日常聊天等文科類的任務。比如創作類任務時,能夠深入理解用戶對于創作主題、文學題材的要求后,進行深度創作思考,元素涉及創作角度、描繪的景物、修辭手法、內容結構等多個文學創作要素的思考,還能賦予事物情感象征意義、個性化表達及創新風格等 。
-
四、模型應用場景
-
學術與專業領域
-
數學與邏輯推理問題求解:
-
在學術學習方面,學生或者研究人員在面對數學難題時,例如數學競賽中的復雜題目,像 AIME(美國數學邀請賽)中的題目類型等,Step Reasoner mini 能夠構建合理的推理鏈進行求解。在處理邏輯推理問題時,無論涉及的是邏輯關系復雜的數學邏輯題,還是需要推理人物關系、事件先后順序等普通邏輯推理類型的題目,它都能運用其擅長主動探索多種解題思路的能力,對問題進行仔細分析,得出較為準確的結論。例如,對于一些需要高邏輯性的學科作業或者研究課題的邏輯部分,它可以輔助快速提供解決方案 。
-
在專業領域 ,如代碼開發方面,開發者遇到 LeetCode 技術平臺上難度評級為 Hard 的算法題或者需要處理復雜開發需求時,它能夠逐步分析用戶需求和意圖,構建正確的代碼邏輯,像是在復雜的算法設計、軟件架構邏輯分析等場景下提供有價值的參考建議或者直接給出可行的代碼解決方案。這對于編寫高效、復雜的代碼功能邏輯模塊十分有用。
-
-
-
文學創作與日常交流互動
-
文學創作的輔助與創意生成:
-
在文學創作方面,對于需要創作不同文學題材的寫作者,無論是詩歌、散文、故事創作等,它都能夠深入理解創作者對于主題、文學題材的要求。例如根據用戶要求創作一首抒情詩,模型可以思考創作角度,如從個人情感的細膩之處入手,描繪景物來烘托情感,再選擇合適的修辭手法像比喻、擬人等來豐富詩歌內涵,構建合理的內容結構,并且能夠賦予事物人類情感層面的象征意義,比如將月亮象征團圓等情感意義。還可以增加個性化的、創新的表達風格,讓文學作品在傳統優秀創作模式基礎上加入新鮮元素,促進文學創作活動。
-
在日常聊天對話場景中,它能夠很好地理解用戶的提問、陳述內容并給予合適回復。無論是進行日常文化知識交流、分享觀點等場景下,都能像與朋友聊天一般自然地互動并提供有趣有深度的回應。可以與用戶共同探討一部小說的情節解讀,電影的藝術表現形式等,提供豐富的想法和觀點交流。
-
-
五、模型比較
-
綜合能力對比
-
性能超越部分模型:在數學基準測試(AIME 和 Math)上,Step Reasoner mini 的成績已然超越了 o1 - preview。在代碼任務測試(LiveCodeBench)上,同樣比 o1 - preview 效果更優。這清晰地展現出在數學與代碼的處理能力方面,相較于 o1 - preview 有著顯著的優勢 。
-
與優秀模型表現持平:與 OpenAI 的 o1 - mini 相較,在 AIME 和 Math 等數學基準測試中成績相當,說明在處理數學問題的能力方面已經達到了和 o1 - mini 類似的水平,在智慧、邏輯推理能力的某些衡量標準下,具備和 o1 - mini 競爭的實力。
-
-
文理能力均衡性對比
-
在文理兼修方面的優越性:大多數推理模型,隨著訓練參數規模增加時很難兼顧文理科兩個方向的能力。它們往往在文科能力提升的時候,會損失理工科能力的確定性。而 Step Reasoner mini 通過特定的大規模強化學習訓練和 On - Policy(同策略)強化學習算法成功實現了文理兼修。例如,既能夠解答邏輯推理、代碼、數學等理工科領域的專業問題,同時又可以充滿創意地完成文學創作、日常交流聊天等文科性質的任務,這在文理能力平衡方面較其他多數模型具有很大優勢,適用性更廣,不會出現只是文科或只是理科能力突出而在其他方面短板明顯的情況。
-
六、使用方法
-
訪問平臺及初步操作
-
平臺入口:據當前消息,Step Reasoner mini 已在躍問網頁端全量開放,用戶可通過此網頁端進行訪問 。不過目前尚未有更多關于是否有手機端應用等其他訪問方式的消息披露。
-
基本交互方式:訪問網頁端平臺后進入交互界面。如同其他語言模型交互場景,用戶可以以文字形式輸入自己的問題或者需求。例如用戶想要它解決一道數學難題或者創作一首詩歌,只要清晰地以文字表達出具體需求內容即可,模型就會依據所輸入的內容進行處理。
-
-
根據任務類型的輸入要點
-
解答專業問題時的輸入:
-
在需要解答數學或者邏輯推理等專業問題時,為了模型能夠準確提供有效解答,最好盡可能將題目或問題陳述清楚。比如對于數學題,不僅要輸入題意內容,還需要明確已知條件、所求結果等內容信息。例如在輸入一個幾何題時,要準確表述圖形的形狀特征、已知邊長或者角度等詳細信息;對于邏輯推理題要把人物關系、事件先后順序等已知邏輯元素完整表達。
-
在代碼開發需求方面,如果需要要求模型構建一段代碼,要說明需求的功能,例如是實現對文件的排序功能、網絡數據交互功能等,還有輸入輸出要求等編程元件相關的基本信息。
-
-
獲取文學創作與日常聊天時的輸入:
-
在文學創作請求時,需要明確創作的主題方向、文學體裁要求。例如,如果希望得到一篇關于愛情的散文,就要輸入明確的 “愛情” 主題和 “散文” 這種體裁。若想讓創作內容有更多的特殊要求,如特定的情感氛圍、修辭手法、結構形式等,也可以盡可能詳細地在輸入內容中表述出來。
-
在日常聊天場景下,自然地輸入想要交流的內容就可以,例如表達觀點、分享日常經歷或者提出感興趣的話題等,模型就會根據輸入的聊天內容進行相應的回應。
-
-