中科聞歌源自中科院,創(chuàng)始團(tuán)隊2007年在自動化研究所承擔(dān)國家互聯(lián)網(wǎng)大數(shù)據(jù)的各種項目,沉淀了技術(shù)和產(chǎn)品。2017年中科院鼓勵科學(xué)家創(chuàng)業(yè),走出了舒適區(qū),經(jīng)過市場化的洗禮,一路走來,得到了中科院基金、中網(wǎng)投、央視新媒體基金等國家資本的投資,又紅又專的人工智能領(lǐng)先企業(yè)。去年研發(fā)訓(xùn)練了雅意大語言模型,今年8月底發(fā)布YOYA多模態(tài)文生視頻平臺。
聞歌的大數(shù)據(jù)和人工智能技術(shù)積累,針對不同行業(yè)的場景需求,推出紅旗融媒體智能平臺,晴天多模態(tài)媒體洞察平臺,多投智能投研平臺等系列產(chǎn)品方案,賦能千行百業(yè)。研發(fā)服務(wù)多個國家級標(biāo)桿項目,中間是全球輿論態(tài)勢感知平臺。
今年2月,OpenAI的Sora發(fā)布,讓內(nèi)容產(chǎn)業(yè)的從業(yè)人員感到驚艷和震撼!Sora作為一個素材生成器拓展了素材獲取的途徑,但大模型賦能多媒體內(nèi)容創(chuàng)作仍需要做大量工作。我們把多媒體內(nèi)容的生產(chǎn)過程拆解,就可以看到,AI 好像還可以干很多事情,從創(chuàng)意腳本到分鏡到素材檢索到旁白配音到剪輯等等。直接使用AI工具輔助內(nèi)容生產(chǎn)的體驗并不是特別好!這很正常!因為OpenAI發(fā)布Chatgpt、Sora是在走通用人工智能之路,而不是為內(nèi)容產(chǎn)業(yè)量身定制的系統(tǒng)。這需要我們這樣的人工智能企業(yè)深入到內(nèi)容產(chǎn)業(yè)的場景中,根據(jù)需求和高質(zhì)量的數(shù)據(jù)研發(fā)訓(xùn)練各種系統(tǒng)工具。
內(nèi)容生產(chǎn)離不開文圖音視四種模態(tài)。第一代創(chuàng)意制作全由人工實現(xiàn),比如說:靠人的寫文字+手繪圖發(fā)行報紙書籍;第二代:人工創(chuàng)意+輔助制作工具,比如說:電腦軟件Word,PS、AE輔助創(chuàng)作;第三代:人與AI共創(chuàng)新模式,AI既是人靈感的拓展,也是創(chuàng)作的伙伴。比如說:你有一個想法扔給AI,他可以給你編腳本,給你出視頻,這就變成你的創(chuàng)意,這是一個人和AI共創(chuàng)的新時代!
中科聞歌研發(fā)推出了國產(chǎn)自主可控的雅意大語言模型1.0、2.0、3.0;YOYA讓AI生成有價值視頻;應(yīng)用在視頻創(chuàng)作全鏈路,比如說:無中生有,30s一鍵生成視頻;有中生優(yōu),媒資庫素材一鍵成片;
很多媒體領(lǐng)導(dǎo)跟我們交流時,都談到一個痛點剛需,媒體多年積累了很多高質(zhì)量的圖文視聽語料,要花大量的人力財力進(jìn)行標(biāo)注治理,才能方便后面的同事,找得到某一段要用的視頻或鏡頭。而且數(shù)據(jù)不能出域,每年上萬小時的圖文視聽語料需要加工,耗時耗錢,才能成為數(shù)據(jù)資產(chǎn),可以交易。記者們有了創(chuàng)意,查閱內(nèi)部各種資料時,也存在這樣的剛需痛點。優(yōu)雅(YoYa)的多模態(tài)內(nèi)容理解與編目技術(shù)能力,可以幫到大家。我們看這個視頻,優(yōu)雅可以從主題、景別、運鏡、場景、節(jié)奏來把這個視頻讀懂,進(jìn)行自動化的標(biāo)注編目,節(jié)約大量成本,形成自己多模態(tài)的語料素材庫,即方便查找,方便二次創(chuàng)作;又能轉(zhuǎn)售給其他需要的單位,通過數(shù)據(jù)交易獲得新收入。
雅意Agent的技術(shù)能力,實現(xiàn)人機(jī)混合的群體智能;中科聞歌的聯(lián)合創(chuàng)始人曾大軍所長,90年代在美國卡耐基梅倫大學(xué)讀博士專門學(xué)習(xí)人工智能時,他的導(dǎo)師是agent 主要推動者之一。2017年創(chuàng)立中科聞歌的時候他還不是自動化研究所副所長,現(xiàn)在兼任中科院基礎(chǔ)能力局副局長。中科聞歌在智能體方面的技術(shù)積累是非常豐厚。怎么玩?比如說:您要編一本書,可以根據(jù)創(chuàng)意生成大綱,有不同章節(jié),然后扔給不同的智能體,去生成不同章節(jié)的內(nèi)容,反復(fù)干,直到滿意。
所以我們提出“人工+智能”共創(chuàng)內(nèi)容產(chǎn)業(yè)新范式,適用于出版?zhèn)髅?、電廣傳媒、影視傳媒等內(nèi)容產(chǎn)業(yè),由1數(shù)據(jù)基座+2大模型系列+3平臺+N智能體應(yīng)用。
先盤清楚我們的語料數(shù)據(jù)庫,到底有哪些形態(tài)的語料數(shù)據(jù)?分布在哪里?然后通過語料加工平臺,多模態(tài)信息經(jīng)過抽取、清洗、語料化加工、審核,進(jìn)入到管理平臺,進(jìn)行多模態(tài)內(nèi)容編目、特征抽取、語義檢索。這就方便我們找到想要的素材,以文搜圖、圖搜圖、圖搜視頻都可以。 在此基礎(chǔ)上,就可以進(jìn)行內(nèi)容生產(chǎn)和知識服務(wù);面向不同領(lǐng)域的場景需求,應(yīng)用多智能體編排支撐內(nèi)容生產(chǎn)。
泛媒體內(nèi)容智能生產(chǎn)與傳播系統(tǒng)的框架圖,AI全面賦能內(nèi)容生產(chǎn)的策采審編發(fā),管饋評聯(lián)的全流程。光說不練是假把式,看看我們的YoYA系統(tǒng)。基于多模態(tài)媒資庫一鍵成片。輸入一句話,自動完成全流程,快速生成高質(zhì)量的視頻,可以修改編輯素材,修改背景音樂,媒資庫可以基于電視臺或者出版社的私域圖文視聽語料庫。雅意大模型有很多功能,不管是從選題編寫,還是擴(kuò)寫視頻創(chuàng)作,都可以干,時間關(guān)系我們就不展開。
我們認(rèn)為生成式人工智能將重塑內(nèi)容生產(chǎn)全流程,“人工+智能”將共創(chuàng)內(nèi)容產(chǎn)業(yè)新范式。