會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

本文作者：鄭佳美

2026-06-10 23:43

導(dǎo)語(yǔ)：原生全模態(tài)架構(gòu)首度通過(guò)生產(chǎn)驗(yàn)證.

近日，智象未來(lái)（HiDream.ai）全新推出的商用版圖像生成模型 HiDream-O1-Image-1.5 再次實(shí)現(xiàn) SOTA，在全球知名獨(dú)立 AI 模型評(píng)測(cè)與分析平臺(tái) Artificial Analysis的文生圖榜單（Text to Image Leaderboard）上，一舉登上中國(guó)圖像生成模型第一，成為評(píng)分僅次于OpenAI的中國(guó)大模型公司，超越Google Nano Banana 2（Gemini 3.1 Flash Image Preview）、NVIDIA Cosmos3-Super-Text2Image 和字節(jié)跳動(dòng)的Seedream 4.0等國(guó)內(nèi)外大廠的主流圖像生成模型。

半個(gè)月前，智象未來(lái) HiDream-O1 系列的開(kāi)源模型 HiDream-O1-Image-Dev-2604 剛剛登頂文生圖榜單開(kāi)源模型全球第一。數(shù)周之后，HiDream-O1-Image-1.5再次進(jìn)入全球文生圖大模型榜單前三，連續(xù)登頂不僅印證了智象未來(lái)在圖像生成大模型上的硬核實(shí)力，更標(biāo)志著其已在視覺(jué)生成大模型的角逐中穩(wěn)居全球第一梯隊(duì)陣營(yíng)。

Artificial Analysis 的 Text to Image Leaderboard 采用匿名對(duì)比、用戶(hù)投票和ELO動(dòng)態(tài)排名機(jī)制，盡量減少品牌認(rèn)知對(duì)評(píng)測(cè)結(jié)果的影響，更接近真實(shí)用戶(hù)在開(kāi)放生成場(chǎng)景中的偏好判斷，在這一專(zhuān)業(yè)評(píng)測(cè)體系下，HiDream-O1-Image-1.5在超過(guò)4000 個(gè)樣本對(duì)比中取得1265 ELO。HiDream-O1-Image-1.5 的表現(xiàn)不僅體現(xiàn)了模型在圖像質(zhì)量上的競(jìng)爭(zhēng)力，也反映出其在語(yǔ)義遵循、復(fù)雜畫(huà)面生成、文字渲染和多主體控制等綜合能力上的提升。

HiDream-O1-Image-1.5 的再度 SOTA, 不只是中國(guó)領(lǐng)先大模型公司的又一次全球榜單領(lǐng)先，它更標(biāo)志著智象未來(lái)在業(yè)內(nèi)率先把創(chuàng)新的原生全模態(tài)架構(gòu)Unified Transformer (UiT)從“技術(shù)驗(yàn)證”推進(jìn)到“生產(chǎn)驗(yàn)證”，是 HiDream將底層架構(gòu)優(yōu)勢(shì)轉(zhuǎn)化為視覺(jué)生產(chǎn)力工具的關(guān)鍵一步：開(kāi)源版本證明了像素級(jí)原生全模態(tài)架構(gòu)可以在開(kāi)放評(píng)測(cè)和開(kāi)發(fā)者社區(qū)中跑通，HiDream-O1-Image-1.5 商用版本則進(jìn)一步面向廣告營(yíng)銷(xiāo)、品牌設(shè)計(jì)、電商視覺(jué)、游戲內(nèi)容、影視分鏡、IP 創(chuàng)作等更高要求的商業(yè)場(chǎng)景，全面展示了強(qiáng)化的圖像質(zhì)量、文字渲染、復(fù)雜排版、多主體一致性和視覺(jué)敘事能力。

接下來(lái)，真正值得關(guān)注的，是它在真實(shí)內(nèi)容生產(chǎn)任務(wù)中的表現(xiàn)。

01 會(huì)寫(xiě)字、懂排版、能分鏡，HiDream-O1-Image-1.5 展現(xiàn)全能圖像生成能力

1. 人像攝影生圖實(shí)例：攝影級(jí)畫(huà)質(zhì)與多風(fēng)格表達(dá)

在人像生圖場(chǎng)景中，HiDream-O1-Image-1.5 展現(xiàn)出穩(wěn)定的攝影級(jí)畫(huà)質(zhì)和多風(fēng)格適配能力。從魔幻光影、雙人互動(dòng)到人物特寫(xiě)，模型在皮膚質(zhì)感、服飾紋理、肢體關(guān)系和環(huán)境虛化等細(xì)節(jié)上表現(xiàn)自然；即使面對(duì)廣角、低機(jī)位、室內(nèi)暖光等復(fù)雜構(gòu)圖，也能保持人物比例、空間透視與畫(huà)面敘事的協(xié)調(diào)。體現(xiàn)出面向商業(yè)人像、品牌視覺(jué)和影視分鏡等高要求場(chǎng)景的強(qiáng)交付能力。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

2. 動(dòng)物生圖實(shí)例：運(yùn)動(dòng)形態(tài)與自然環(huán)境的精細(xì)建模

在動(dòng)物生圖場(chǎng)景中，HiDream-O1-Image-1.5 展現(xiàn)出對(duì)主體形態(tài)、運(yùn)動(dòng)狀態(tài)與自然環(huán)境的精細(xì)建模能力，在動(dòng)物結(jié)構(gòu)、皮毛質(zhì)感、動(dòng)態(tài)表現(xiàn)及復(fù)雜光照、水下折射等高難度畫(huà)面中保持真實(shí)感與視覺(jué)沖擊力，體現(xiàn)出面向自然影像、品牌視覺(jué)、游戲資產(chǎn)和創(chuàng)意內(nèi)容生產(chǎn)等場(chǎng)景的生產(chǎn)級(jí)交付能力。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

3. 自然風(fēng)光生圖實(shí)例：空間與光影變化的精細(xì)捕捉

在自然生圖場(chǎng)景中，HiDream-O1-Image-1.5 展現(xiàn)出對(duì)大場(chǎng)景空間層次、光影變化與環(huán)境氛圍的精準(zhǔn)控制能力，在雪山湖泊、沙漠駝隊(duì)、晶體洞穴等復(fù)雜地貌與多光源場(chǎng)景中保持縱深感、電影感和細(xì)節(jié)表現(xiàn)，體現(xiàn)出面向旅游視覺(jué)、影視概念圖、游戲場(chǎng)景和品牌傳播等復(fù)雜商用場(chǎng)景的穩(wěn)定交付能力。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

4. 多種藝術(shù)風(fēng)格：精確的風(fēng)格理解與視覺(jué)表達(dá)

在多風(fēng)格藝術(shù)生成場(chǎng)景中，HiDream-O1-Image-1.5 展現(xiàn)出優(yōu)秀的風(fēng)格理解、語(yǔ)義遵循與視覺(jué)表達(dá)能力，可在日系插畫(huà)、動(dòng)漫戰(zhàn)斗、卡通海報(bào)和國(guó)風(fēng)武俠等風(fēng)格間準(zhǔn)確切換，并保持角色造型、構(gòu)圖關(guān)系、動(dòng)作節(jié)奏與畫(huà)面氛圍統(tǒng)一，同時(shí)在復(fù)雜姿態(tài)、動(dòng)態(tài)特效和基礎(chǔ)文字渲染上具備較強(qiáng)穩(wěn)定性。可為 IP 創(chuàng)作、漫畫(huà)分鏡、游戲美術(shù)、品牌創(chuàng)意視覺(jué)提供高效的生產(chǎn)支持。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

5. 電商海報(bào)生圖實(shí)例：復(fù)雜畫(huà)面與文字信息無(wú)縫融合

在電商海報(bào)生成場(chǎng)景中，HiDream-O1-Image-1.5 展現(xiàn)出對(duì)商品主體、版式結(jié)構(gòu)與文字信息的綜合把控能力，可針對(duì)不同品類(lèi)快速匹配視覺(jué)風(fēng)格，并自然融合商品、場(chǎng)景、裝飾元素與營(yíng)銷(xiāo)文案；在中英文混排、多層級(jí)賣(mài)點(diǎn)和復(fù)雜排版任務(wù)中，仍能保持較高的文字可讀性、畫(huà)面完整度與商業(yè)質(zhì)感，顯著提升廣告營(yíng)銷(xiāo)、電商上新、社媒種草和品牌物料制作效率。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

6. IP形象設(shè)計(jì)：多視角生成與角色一致性

在 IP 形象設(shè)計(jì)場(chǎng)景中，HiDream-O1-Image-1.5 展現(xiàn)出對(duì)角色設(shè)定、表情變化與多視角一致性的穩(wěn)定控制能力，可圍繞同一角色生成多角度視圖和多種情緒表情，并保持五官、發(fā)型、服飾與整體風(fēng)格統(tǒng)一，呈現(xiàn)豐富的性格與表現(xiàn)力，可顯著提升 IP 設(shè)定、角色三視圖、動(dòng)畫(huà)前期、美術(shù)資產(chǎn)和品牌吉祥物開(kāi)發(fā)的效率。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

7. 多宮格/分鏡設(shè)計(jì)圖：穩(wěn)定敘事理解與連續(xù)畫(huà)面生成

在多宮格與分鏡設(shè)計(jì)場(chǎng)景中，HiDream-O1-Image-1.5 展現(xiàn)出對(duì)連續(xù)敘事、畫(huà)面順序與信息層級(jí)的理解能力，可在工具流程、任務(wù)推進(jìn)、兒童繪本和冒險(xiǎn)故事等多畫(huà)面內(nèi)容中生成邏輯連貫的分鏡畫(huà)面，并保持角色、場(chǎng)景與視覺(jué)風(fēng)格統(tǒng)一；同時(shí)對(duì)宮格布局、編號(hào)、標(biāo)題和關(guān)鍵文字具備較強(qiáng)組織能力，可為影視分鏡、漫畫(huà)創(chuàng)作、廣告腳本、教育內(nèi)容和短視頻腳本視覺(jué)化提供高效支持。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

8. 多層次復(fù)雜文字渲染能力：多語(yǔ)言，多結(jié)構(gòu)的綜合生成能力

在多層次復(fù)雜文字渲染任務(wù)中，HiDream-O1-Image-1.5 展現(xiàn)出對(duì)多語(yǔ)言文本、信息結(jié)構(gòu)與視覺(jué)場(chǎng)景的綜合生成能力，可將海報(bào)、計(jì)劃書(shū)、結(jié)構(gòu)拆解圖、課堂白板、直播界面和數(shù)據(jù)看板等內(nèi)容自然嵌入對(duì)應(yīng)場(chǎng)景，并兼顧排版秩序、圖文關(guān)系與整體美感；面對(duì)中英文混排、數(shù)字公式、圖表信息和多級(jí)標(biāo)題等復(fù)雜需求，仍能保持較好的可讀性與版面穩(wěn)定性，拓展了其在廣告設(shè)計(jì)、辦公協(xié)作、電商詳情頁(yè)和教育培訓(xùn)等場(chǎng)景的實(shí)用價(jià)值。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

02 原生全模態(tài)進(jìn)入生產(chǎn)驗(yàn)證階段，HiDream-O1-Image-1.5持續(xù)放大UiT 架構(gòu)優(yōu)勢(shì)

HiDream-O1-Image-1.5 的表現(xiàn)，進(jìn)一步證明了智象未來(lái)在原生全模態(tài)路線(xiàn)上的架構(gòu)創(chuàng)新優(yōu)勢(shì)和快速迭代能力，HiDream-O1 系列（8B 開(kāi)源版、Pro 版到 1.5 商用版）已經(jīng)形成清晰而高效的能力演進(jìn)曲線(xiàn)。

傳統(tǒng)文生圖模型通常采用“文本編碼器 + VAE + DiT / 擴(kuò)散模型”的模塊化路徑，其形態(tài)更像一棵不斷分叉生長(zhǎng)的樹(shù)：文本有自己的 tokenizer，圖像和視頻有各自的 encoder / decoder，音頻、動(dòng)作、空間關(guān)系也往往沿著不同路徑被處理，模塊之間需要多次轉(zhuǎn)換信息。在文字密集排版、UI 頁(yè)面、多主體生成、多參考圖控制、多分鏡敘事等復(fù)雜任務(wù)中，也更容易帶來(lái)細(xì)節(jié)損耗、語(yǔ)義錯(cuò)位和結(jié)構(gòu)不穩(wěn)定。

HiDream-O1 原生全模態(tài)架構(gòu)走的是另一條路線(xiàn)：真正的“原生全模態(tài)”，不是各個(gè)模態(tài)長(zhǎng)大之后二次拼接，而是從原生初始階段就像“青梅竹馬”一般在模型底層水乳相融。HiDream-O1 的 Image系列模型剔除了傳統(tǒng)路徑中的 VAE 和獨(dú)立文本編碼器，將圖像像素、文本 Token、視頻體素以及音頻、動(dòng)作、空間關(guān)系等原始信號(hào)映射進(jìn)同一個(gè)共享 Token 空間，直接與同一套 UiT——像素級(jí)統(tǒng)一的 Unified Transformer 交互，在統(tǒng)一表征系統(tǒng)中完成理解、生成和推理。

以下為X平臺(tái)Artificial Analysis 官方賬號(hào)發(fā)布的一組對(duì)比效果圖：

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

這也是 HiDream-O1 能夠在復(fù)雜圖文融合、文字渲染、多主體一致性和分鏡敘事等任務(wù)中持續(xù)進(jìn)階的關(guān)鍵。當(dāng)所有模態(tài)在底層被真正打通，模型才有可能走向真正的“Any to Any”：任意輸入支持任意輸出。這不僅是圖像生成模型的能力升級(jí)，也是世界模型所需要的基礎(chǔ)能力——在統(tǒng)一架構(gòu)中理解、生成并預(yù)測(cè)現(xiàn)實(shí)世界的不同狀態(tài)。HiDream-O1-Image-1.5 的快速進(jìn)階，正是對(duì)原生全模態(tài)這一路線(xiàn)可擴(kuò)展性的堅(jiān)實(shí)驗(yàn)證。

03 持續(xù)架構(gòu)創(chuàng)新，構(gòu)建原生全模態(tài)世界模型

智象未來(lái)始終認(rèn)為，圖像是通向視頻生成和全模態(tài)世界建模的重要入口。一張圖像承載著現(xiàn)實(shí)世界某一時(shí)刻的主體、空間、材質(zhì)、光影、文字和關(guān)系；只有穩(wěn)定理解并生成這些狀態(tài)，模型才有可能進(jìn)一步處理連續(xù)時(shí)間中的運(yùn)動(dòng)、因果、鏡頭和敘事。

HiDream-O1-Image-1.5強(qiáng)勢(shì)表現(xiàn)說(shuō)明，基于像素級(jí)原生統(tǒng)一架構(gòu)的路線(xiàn)，正在把圖像生成模型的競(jìng)爭(zhēng)從“更大參數(shù)”和“更好看畫(huà)面”，推進(jìn)到由架構(gòu)能力、生產(chǎn)效率和工作流價(jià)值共同決定高度的新階段。它不僅提升了單圖生成效果，也為多圖一致性、分鏡生成、視頻首幀、圖像編輯乃至未來(lái)長(zhǎng)視頻生成提供了更穩(wěn)定的底層能力，進(jìn)一步證明了中國(guó)大模型企業(yè)參與全球頂級(jí)打模型競(jìng)爭(zhēng)的實(shí)力，也驗(yàn)證了 UiT 原生統(tǒng)一架構(gòu)作為下一代多模態(tài)模型堅(jiān)實(shí)底座的可行性。

面向未來(lái)，智象將繼續(xù)沿著原生全模態(tài)技術(shù)路線(xiàn)推進(jìn)模型迭代，加速圖像、視頻、動(dòng)作等多模態(tài)能力的融合，推動(dòng)生成式人工智能技術(shù)深入落地到內(nèi)容創(chuàng)作、商業(yè)營(yíng)銷(xiāo)、影視創(chuàng)作、游戲生產(chǎn)等全模態(tài)智能體的真實(shí)應(yīng)用場(chǎng)景。從單張圖像生成的入口到連續(xù)世界建模，智象未來(lái)正在以持續(xù)的底層架構(gòu)創(chuàng)新，構(gòu)建下一代內(nèi)容生產(chǎn)與智能交互的人工智能基礎(chǔ)設(shè)施。

歡迎通過(guò)以下鏈接體驗(yàn)HiDream-O1-Image-1.5 ：

https://vivago.ai/

https://hiharness.ai/

開(kāi)源模型HiDream-O1-Image下載地址：

GitHub：https://github.com/HiDream-ai/HiDream-O1-Image

Huggingface：https://huggingface.co/HiDream-ai/HiDream-O1-Image

和Nano Banana 2對(duì)比

Prompt：一張高端中國(guó)白酒的奢華電商海報(bào)。正中央矗立著一個(gè)純凈、半透明的羊脂玉瓷瓶。在瓶身的曲面上直接浮雕著一首八句中文古詩(shī)：“昔人已乘黃鶴去，此地空余黃鶴樓。黃鶴一去不復(fù)返，白云千載空悠悠。晴川歷歷漢陽(yáng)樹(shù)，芳草萋萋鸚鵡洲。日暮鄉(xiāng)關(guān)何處是？煙波江上使人愁?！钡窨痰奈淖謨?nèi)部鑲嵌著精致、閃爍的金箔，正捕捉著光線(xiàn)。酒瓶放置在一塊粗糙的黑板巖上，半浸在清澈見(jiàn)底的淺水池中，水面蕩漾著柔和的同心漣漪。美麗的液體焦散光影和反光在瓶底跳躍。在深度虛化的背景中，有微型盆景松樹(shù)和薄霧。戲劇性的邊緣輪廓光，商業(yè)產(chǎn)品攝影。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

Prompt: An adorable, candid photograph of a curious kitten exploring a lush, green garden, with oversized flowers and foliage creating a whimsical, fairy-tale atmosphere.

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

Prompt: 在一個(gè)燈光昏暗、煙霧彌漫的審訊室里，一張氣氛緊張的過(guò)肩鏡頭（OTS）電影劇照。在極度靠前的前景中，占據(jù)畫(huà)面左側(cè)三分之一的是偵探肩膀和側(cè)臉的嚴(yán)重失焦剪影。相機(jī)的焦點(diǎn)完全鎖定在背景中坐在金屬桌對(duì)面的嫌疑人身上。嫌疑人是一個(gè)疲憊的賽博格，擁有發(fā)光的紅色光學(xué)植入物，被頭頂搖晃的刺眼聚光燈照亮。極淺的景深在模糊的前景審訊者和細(xì)節(jié)銳利、滿(mǎn)頭大汗的嫌疑人面部之間形成了強(qiáng)烈的光學(xué)分離。85mm鏡頭，f/1.4大光圈。

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

會(huì)寫(xiě)字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析