今年是商湯成立第十年,經(jīng)歷了從創(chuàng)業(yè)1.0時(shí)代到2.0時(shí)代,在1.0時(shí)代大家對我們的了解更多是基于感知和認(rèn)知,在2015、2016年的時(shí)候大家認(rèn)為商湯是做人臉識別的公司,過兩天之后又認(rèn)為商湯是做自動駕駛的公司,隨著人工智能技術(shù)的發(fā)展,尤其是AIGC和大模型的興起,我們進(jìn)入了2.0時(shí)代,專注于生成式人工智能產(chǎn)品和內(nèi)容的創(chuàng)新,跨越10年所做的事情有什么不同。
最簡單的功能去做檢測的識別,傳統(tǒng)的識別方式是監(jiān)督學(xué)習(xí),給計(jì)算性確定性的答案,比如說限速牌,開過車都知道限速30,給確定的識別結(jié)果,跟結(jié)果做對應(yīng)就像傳統(tǒng)的ARP語料庫一樣。大模型思考邏輯這里有30公里小孩的標(biāo)志。為什么大模型有幻想,他猜的可能是對的,可能是不對的,如果這個(gè)場景不熟悉就可能出現(xiàn)幻想問題。2023年成為人工智能企業(yè)跨越的節(jié)點(diǎn),標(biāo)志著AI產(chǎn)業(yè)規(guī)模的顯著增長。
1.0時(shí)代大家更熟悉我們,做一些感知的識別。2.0就是生成式人工智能做的產(chǎn)品和內(nèi)容,本身從大家更破圈地理解生成式人工智能,理解所謂的大模型是從2022年10月份,行業(yè)內(nèi)關(guān)注商湯、華為等大廠,大家更早是2017年有學(xué)術(shù)成果就開始關(guān)注了。GPT4把模型參數(shù)卷到萬億的參數(shù),包括GPT5也是千呼萬喚難出來,大家不在于把模型做得更大,而是把模型做得更小。我們的重點(diǎn)產(chǎn)品“如影”數(shù)字人,是與媒體集團(tuán)合作的成果,包括與湖南廣電、36氪等的合作。在內(nèi)蒙古參加央視頻會議時(shí),大量的微短劇,有人物的關(guān)鍵點(diǎn),有一些劇作的梗要怎么出分劇本,這中間需要大量的文字上的創(chuàng)作的內(nèi)容,甚至創(chuàng)作內(nèi)容可視化,我們探討了如何利用數(shù)字人技術(shù)創(chuàng)作微短劇,包括劇本創(chuàng)作和內(nèi)容可視化。 “秒畫”就是文生圖、圖生圖,24張圖連在一起就慢慢變成一楨視頻或者是電影里面一格,圖生圖衍生的場景就是圖生視頻。實(shí)現(xiàn)數(shù)字人的孿生、物品的孿生、空間的孿生,有三個(gè)比較中國風(fēng)的名字“如影”“瓊宇”“格物”。在過去一年中,我們致力于開發(fā)更高效的模型應(yīng)用,推出了基于流式的、端上的模型,確保數(shù)據(jù)安全和低成本推理。大廠都在做的一件事情,怎么樣有更好的模型的應(yīng)用,所以做了基于流式的、基于端上的,這個(gè)模型只有幾B,比如說隨便拍一個(gè)樓,這就是基于端上實(shí)時(shí)做流式的交互,意義所在我可以完全離線確保數(shù)據(jù)安全,第二推理成本極低幾乎可以忽略不計(jì),我們都知道現(xiàn)在很多廠商,無論是做應(yīng)用還是做算法的,都在給做云服務(wù)的打工,因?yàn)榇罅康耐评?、?jì)算、調(diào)用的成本,完全基于端上,或者是5G的下一個(gè)時(shí)代一只腳邁入時(shí)代的門檻當(dāng)中,基于流式做這件事情意義會比較大,如果有人第一次來到長沙,美食、杜甫江閣是什么。爬岳麓山、愛晚亭中間的故事是什么,這些模型已廣泛應(yīng)用于文旅場景,以及智慧城市等更廣泛的應(yīng)用場景,比較容易破圈,所以空間更多一些。
今年5月日日新5.0迭代發(fā)布會上做了展示,右邊綠色小人基于GPT4做的,左邊是商湯自己的算法用了Lite版,評估的方法很簡單,哪個(gè)小人把對方打倒了暴力的評估方法,最后的結(jié)果我們把GPT4打贏了,仔細(xì)看沒有創(chuàng)新招式,唯一一點(diǎn)紅色小人出拳更快,天下武功唯快不怕,我們有更快的運(yùn)算速度,把模型的推理和運(yùn)算放在更前的地方,性價(jià)比更高、運(yùn)算效率更優(yōu)。主流嵌入很多的芯片,手機(jī)、車機(jī)、車載、AI設(shè)備等都有大量的應(yīng)用。AI Agent,這是所謂人工智能L3或者是L4應(yīng)用的場景,這比如說收到一個(gè)郵件有辦公的場景,給微信里一些人去邀請,比如說給張總邀請吃飯,要給張總發(fā)消息確認(rèn),約餐廳,甚至約一個(gè)人接張總,所以中間有大量的跨平臺的智能助理的工作,和海量的APP談相關(guān)的工作,背后也有國家的支持,所以一定程度上代替人做智能交互的場景。
媒體老師比我們做得更好,這個(gè)很有趣雖然也是圖生圖,做了大量的人臉融合的工作,我的臉怎么樣跟鄭欽文的臉合在一起,怎么和潘展樂一樣在泳池里面游泳,所以有人臉融合的做的比較好玩,也可以用在數(shù)字人等場景里面。我們進(jìn)行了人臉融合技術(shù)的研究,與央視合作,為王冰冰等知名人士創(chuàng)建數(shù)字人。在技術(shù)壁壘方面,我們成功創(chuàng)建了錢學(xué)森的數(shù)字人,錢老離開很久了,很多影像資料是不可獲取的,我們最后做錢老數(shù)字人是按照雕像去做的,甚至找不到完整的視頻,這個(gè)技術(shù)壁壘是挺高的。特別是人民網(wǎng)、新華社、中央廣播電視總臺,對于審核有更高的要求,我們與工信部合作,開發(fā)了可信數(shù)字人,每個(gè)數(shù)字人都擁有可信認(rèn)證,類似于數(shù)字身份證。制作非常快,一分鐘或者是幾十秒的視頻生成數(shù)字人,通過提示詞去修改數(shù)字人,假如某位女士本身就很漂亮,但是如果希望在今天的場合出現(xiàn),就要很正式,可以微調(diào)她的發(fā)型、服飾,也可以調(diào)整體的風(fēng)格。還有物體的數(shù)字孿生,比如說博物館,我們也做了大量的文博的場景,周大福和得物等做了選品的合作,還有更大空間的數(shù)字孿生,比如說智慧城市所謂AI1.0時(shí)代,這是典型應(yīng)用的場景。在今年世界智能大會被官方評為鎮(zhèn)館之寶的產(chǎn)品Vimi相機(jī),就是通過人可以驅(qū)動生成另外一個(gè)人,比如說用蒙娜麗莎的照片,通過我去驅(qū)動蒙娜麗莎的照片去做任何一件事情,所以是可控的數(shù)字人,背后可以用AIGC生成短片,因?yàn)槲覀兌贾罒o論是文生圖還是圖生視頻就像開盲盒一樣,這事很有難度,怎么樣可控是有難度的,所以2024人工智能大會被評為鎮(zhèn)館之寶。當(dāng)前我們和新浪微博做合作,微博錢包里面可以看到應(yīng)用,可以做表情包,讓一些明星來做。