商湯科技數(shù)字文娛事業(yè)部副總裁李星冶：如影隨形實(shí)現(xiàn)數(shù)字人自由

2024-10-17 21:22 | 來源：中國記協(xié)網(wǎng)

【字號: 大中小】打印

Video PlayerClose

　　今年是商湯成立第十年，經(jīng)歷了從創(chuàng)業(yè)1.0時(shí)代到2.0時(shí)代，在1.0時(shí)代大家對我們的了解更多是基于感知和認(rèn)知，在2015、2016年的時(shí)候大家認(rèn)為商湯是做人臉識別的公司，過兩天之后又認(rèn)為商湯是做自動駕駛的公司，隨著人工智能技術(shù)的發(fā)展，尤其是AIGC和大模型的興起，我們進(jìn)入了2.0時(shí)代，專注于生成式人工智能產(chǎn)品和內(nèi)容的創(chuàng)新，跨越10年所做的事情有什么不同。

　　最簡單的功能去做檢測的識別，傳統(tǒng)的識別方式是監(jiān)督學(xué)習(xí)，給計(jì)算性確定性的答案，比如說限速牌，開過車都知道限速30，給確定的識別結(jié)果，跟結(jié)果做對應(yīng)就像傳統(tǒng)的ARP語料庫一樣。大模型思考邏輯這里有30公里小孩的標(biāo)志。為什么大模型有幻想，他猜的可能是對的，可能是不對的，如果這個(gè)場景不熟悉就可能出現(xiàn)幻想問題。2023年成為人工智能企業(yè)跨越的節(jié)點(diǎn)，標(biāo)志著AI產(chǎn)業(yè)規(guī)模的顯著增長。

　　1.0時(shí)代大家更熟悉我們，做一些感知的識別。2.0就是生成式人工智能做的產(chǎn)品和內(nèi)容，本身從大家更破圈地理解生成式人工智能，理解所謂的大模型是從2022年10月份，行業(yè)內(nèi)關(guān)注商湯、華為等大廠，大家更早是2017年有學(xué)術(shù)成果就開始關(guān)注了。GPT4把模型參數(shù)卷到萬億的參數(shù)，包括GPT5也是千呼萬喚難出來，大家不在于把模型做得更大，而是把模型做得更小。我們的重點(diǎn)產(chǎn)品“如影”數(shù)字人，是與媒體集團(tuán)合作的成果，包括與湖南廣電、36氪等的合作。在內(nèi)蒙古參加央視頻會議時(shí)，大量的微短劇，有人物的關(guān)鍵點(diǎn)，有一些劇作的梗要怎么出分劇本，這中間需要大量的文字上的創(chuàng)作的內(nèi)容，甚至創(chuàng)作內(nèi)容可視化，我們探討了如何利用數(shù)字人技術(shù)創(chuàng)作微短劇，包括劇本創(chuàng)作和內(nèi)容可視化。 “秒畫”就是文生圖、圖生圖，24張圖連在一起就慢慢變成一楨視頻或者是電影里面一格，圖生圖衍生的場景就是圖生視頻。實(shí)現(xiàn)數(shù)字人的孿生、物品的孿生、空間的孿生，有三個(gè)比較中國風(fēng)的名字“如影”“瓊宇”“格物”。在過去一年中，我們致力于開發(fā)更高效的模型應(yīng)用，推出了基于流式的、端上的模型，確保數(shù)據(jù)安全和低成本推理。大廠都在做的一件事情，怎么樣有更好的模型的應(yīng)用，所以做了基于流式的、基于端上的，這個(gè)模型只有幾B，比如說隨便拍一個(gè)樓，這就是基于端上實(shí)時(shí)做流式的交互，意義所在我可以完全離線確保數(shù)據(jù)安全，第二推理成本極低幾乎可以忽略不計(jì)，我們都知道現(xiàn)在很多廠商，無論是做應(yīng)用還是做算法的，都在給做云服務(wù)的打工，因?yàn)榇罅康耐评?、?jì)算、調(diào)用的成本，完全基于端上，或者是5G的下一個(gè)時(shí)代一只腳邁入時(shí)代的門檻當(dāng)中，基于流式做這件事情意義會比較大，如果有人第一次來到長沙，美食、杜甫江閣是什么。爬岳麓山、愛晚亭中間的故事是什么，這些模型已廣泛應(yīng)用于文旅場景，以及智慧城市等更廣泛的應(yīng)用場景，比較容易破圈，所以空間更多一些。

　　今年5月日日新5.0迭代發(fā)布會上做了展示，右邊綠色小人基于GPT4做的，左邊是商湯自己的算法用了Lite版，評估的方法很簡單，哪個(gè)小人把對方打倒了暴力的評估方法，最后的結(jié)果我們把GPT4打贏了，仔細(xì)看沒有創(chuàng)新招式，唯一一點(diǎn)紅色小人出拳更快，天下武功唯快不怕，我們有更快的運(yùn)算速度，把模型的推理和運(yùn)算放在更前的地方，性價(jià)比更高、運(yùn)算效率更優(yōu)。主流嵌入很多的芯片，手機(jī)、車機(jī)、車載、AI設(shè)備等都有大量的應(yīng)用。AI Agent，這是所謂人工智能L3或者是L4應(yīng)用的場景，這比如說收到一個(gè)郵件有辦公的場景，給微信里一些人去邀請，比如說給張總邀請吃飯，要給張總發(fā)消息確認(rèn)，約餐廳，甚至約一個(gè)人接張總，所以中間有大量的跨平臺的智能助理的工作，和海量的APP談相關(guān)的工作，背后也有國家的支持，所以一定程度上代替人做智能交互的場景。

　　媒體老師比我們做得更好，這個(gè)很有趣雖然也是圖生圖，做了大量的人臉融合的工作，我的臉怎么樣跟鄭欽文的臉合在一起，怎么和潘展樂一樣在泳池里面游泳，所以有人臉融合的做的比較好玩，也可以用在數(shù)字人等場景里面。我們進(jìn)行了人臉融合技術(shù)的研究，與央視合作，為王冰冰等知名人士創(chuàng)建數(shù)字人。在技術(shù)壁壘方面，我們成功創(chuàng)建了錢學(xué)森的數(shù)字人，錢老離開很久了，很多影像資料是不可獲取的，我們最后做錢老數(shù)字人是按照雕像去做的，甚至找不到完整的視頻，這個(gè)技術(shù)壁壘是挺高的。特別是人民網(wǎng)、新華社、中央廣播電視總臺，對于審核有更高的要求，我們與工信部合作，開發(fā)了可信數(shù)字人，每個(gè)數(shù)字人都擁有可信認(rèn)證，類似于數(shù)字身份證。制作非常快，一分鐘或者是幾十秒的視頻生成數(shù)字人，通過提示詞去修改數(shù)字人，假如某位女士本身就很漂亮，但是如果希望在今天的場合出現(xiàn)，就要很正式，可以微調(diào)她的發(fā)型、服飾，也可以調(diào)整體的風(fēng)格。還有物體的數(shù)字孿生，比如說博物館，我們也做了大量的文博的場景，周大福和得物等做了選品的合作，還有更大空間的數(shù)字孿生，比如說智慧城市所謂AI1.0時(shí)代，這是典型應(yīng)用的場景。在今年世界智能大會被官方評為鎮(zhèn)館之寶的產(chǎn)品Vimi相機(jī)，就是通過人可以驅(qū)動生成另外一個(gè)人，比如說用蒙娜麗莎的照片，通過我去驅(qū)動蒙娜麗莎的照片去做任何一件事情，所以是可控的數(shù)字人，背后可以用AIGC生成短片，因?yàn)槲覀兌贾罒o論是文生圖還是圖生視頻就像開盲盒一樣，這事很有難度，怎么樣可控是有難度的，所以2024人工智能大會被評為鎮(zhèn)館之寶。當(dāng)前我們和新浪微博做合作，微博錢包里面可以看到應(yīng)用，可以做表情包，讓一些明星來做。

責(zé)任編輯: 楊涵

商湯科技數(shù)字文娛事業(yè)部副總裁李星冶：如影隨形 實(shí)現(xiàn)數(shù)字人自由

相關(guān)稿件

商湯科技數(shù)字文娛事業(yè)部副總裁李星冶：如影隨形實(shí)現(xiàn)數(shù)字人自由