主題演講:海量公司首席科學(xué)家、博士周富秋

時間:2011-11-15 17:01   來源:中國臺灣網(wǎng)

  很高興今天下午能夠聽到尤其在游戲行業(yè)里關(guān)于云計算的實質(zhì)性應(yīng)用。因為上個月我參加了全國第十屆互聯(lián)網(wǎng)大會,我聽的最多的是大家談概念,我可以直白的講,大陸有一個毛病就是喜歡炒概念,沒有真正實質(zhì)性的去談到一些應(yīng)用。我的結(jié)論是參加第十屆互聯(lián)網(wǎng)大會,聽眾非常多,但是他們談的更多是云的概念而不是云的計算。就想起了什么都是浮云。今天很高興能夠聽到很多新的想法。

  如果真正要談到云計算,實際上最初提出云計算概念是24年前提出來,當(dāng)時實際上是云計算的雛形,由于種種原因沒有付諸實施。隨著時代的變化,IT行業(yè)的變化,如果追溯到遠一點60年代IBM推出大型計算機,現(xiàn)在我們看得最多的是每個人手上拿的移動設(shè)備,平板電腦等等。另外一個是互聯(lián)網(wǎng),互聯(lián)網(wǎng)的興起和發(fā)展尤其是在大陸,在臺灣提出互聯(lián)網(wǎng)比較早一些,真正互聯(lián)網(wǎng)在國內(nèi)的興起是1996年,我記得1995年從美國回來的時候,很多人問我什么是互聯(lián)網(wǎng),甚至有人問我什么是電子郵件,短短的16年期間互聯(lián)網(wǎng)在大陸簡直是蓬勃發(fā)展,現(xiàn)在的興起簡直是勢不可當(dāng),滲入生活當(dāng)中的各個層面。但是更大的問題是什么呢?互聯(lián)網(wǎng)的興起,我認為最大的弊病在于數(shù)據(jù)急劇增加,我對現(xiàn)在互聯(lián)網(wǎng)數(shù)據(jù)的增加最大的概括,互聯(lián)網(wǎng)給我們的生活帶來陽光,但是只有幾屢陽光,還不是充滿陽光,就像一首歌講的還有很多陰霾,就是多、雜、亂、難。我們實際上很多人在遭受一種病癥就是信息污染綜合癥。我們十年以前、十五年以前、二十年以前是遭受信息匱乏的病癥,現(xiàn)在是信息太多。怎么辦?我談到兩個原因,計算平臺的轉(zhuǎn)移和互聯(lián)網(wǎng)的興起,在呼救云計算。

  我認為談云計算更多在計算上下功夫,如果現(xiàn)在是這樣的現(xiàn)狀,互聯(lián)網(wǎng)大量的信息需要超級的計算模式去解析它,去分析它,找出它真正能夠給人們的生活和工作帶來價值的東西提供給我們的客戶。這就是我們海量信息技術(shù)有限公司致力于追求的,我們有智能計算的手段去處理海量的互聯(lián)網(wǎng)的信息,把這個平臺建立在云計算的框架里,F(xiàn)在最大的問題是看到一大堆問題,真正要分享很難,谷歌兩位年輕人很厲害,他們說建立谷歌的目的是梳理世界上的信息,使之在全球范圍內(nèi)可得。是要梳理它,不是說把這個東西給你,現(xiàn)在我們在谷歌和百度拿到一大堆原始數(shù)據(jù)的羅列,看到第三頁,我想我看到第二頁就不想看了。怎么讓計算機去處理,真正解決我們的社會問題。這就是我認為最關(guān)鍵的智能計算帶來的社會價值。

  以前我們關(guān)心更多的是技術(shù)上的東西,我們應(yīng)該轉(zhuǎn)移態(tài)度多關(guān)注社會上的問題;谶@一點,我認為將來的互聯(lián)網(wǎng)是什么樣子?很多人都講是移動化的,無國界的,互動性的,互聯(lián)網(wǎng)將來也是不可分割的一部分,我認為更關(guān)鍵的是怎么處理這些數(shù)據(jù),這么多信息怎么去解析它,我提出一個觀點就是一定要智能化、結(jié)構(gòu)化的互聯(lián)網(wǎng),這才是將來的方向,這個不謀而合和硅谷的大師凱文講的一樣,不會太好,但是不一樣。不一樣在什么地方?用三個字來解釋,首先是聰明、智能,互聯(lián)網(wǎng)能看到東西,能理解數(shù)據(jù),能歸納數(shù)據(jù),能篩選數(shù)據(jù),給出的是我們所需要最終的知識和情報,而不是一大堆原始的東西。二是更加個性化,因為我們市場的細分。三是無處不在,一天24小時。這是未來互聯(lián)網(wǎng)的憧憬,我認為這完全符合我們所打造的。

  我們已經(jīng)實現(xiàn)了計算機的互聯(lián),在80年代、90年代初的時候是用的大型機,然后是用了PC,基本上可以把互聯(lián)網(wǎng)上相互之間的電腦連接起來,現(xiàn)在我們做到網(wǎng)頁互聯(lián),谷歌和百度就是,把同樣的信息分類出來,我可以在網(wǎng)站里查到我的信息,可以從我的電腦聯(lián)系到另外一臺電腦。但是有一點沒有做到,就是讓互聯(lián)網(wǎng)更加智能,就是把網(wǎng)頁里談到的東西聯(lián)系起來,這就非常難了。就是讓它智能化,網(wǎng)頁里提到的事物之間到底有什么關(guān)系,這一點是更重要的。將來我們的互聯(lián)網(wǎng)是語義網(wǎng)絡(luò),是數(shù)據(jù)的網(wǎng)絡(luò),將來呈現(xiàn)在我們面前是一個網(wǎng)狀的東西,而不是豎狀的。我們期望互聯(lián)網(wǎng)將來的數(shù)據(jù)是結(jié)構(gòu)化,是相互關(guān)聯(lián)的。一個頁面上的概念和另外一個頁面上的概念是相關(guān)的。提到的人、事、物都有獨一無二的身份,有獨一的屬性。我看到網(wǎng)頁上有姚明,它談的是一個人,跟NBA有關(guān)系,跟上海球隊有關(guān)系等等,這就是互聯(lián)網(wǎng)賦予人理解文本的這種解釋。比如讀到北京,互聯(lián)就就知道它是一個地名,有經(jīng)度、有緯度,有人口等等。不是做不到,而是必須要做到。

  所以我們海量公司一直在追求這個,我們一定要把互聯(lián)網(wǎng)上的數(shù)量變成質(zhì)量,要從信息服務(wù)轉(zhuǎn)化為知識獲取。比如一個老板有一個秘書,老板提出需求,你給我找一個東西,找一個我做抉擇的依據(jù),秘書第二天拿一大堆的資料給他,這是一種解決方案。另外一種解決方案可能是通過一個團隊的工作,把一大堆的資料濃縮成一個表格,我想老板肯定是喜歡第二種做法。我們希望這個壓縮的工作讓機器去做,不是做不到,是能夠做到。以內(nèi)容為紐帶,將網(wǎng)絡(luò)搭成一個語義邏輯整體。最后讓機器讀懂互聯(lián)網(wǎng)。機器能看懂互聯(lián)網(wǎng)上的內(nèi)容。

  要這樣做一定是依賴于云計算大的框架,四年以前還沒有興起云概念的時候,剛才大家談到IAAS、PAAS、SAAS,我們已經(jīng)基于云計算大框架,根據(jù)客戶提出的對數(shù)據(jù)加工的需求,我們提出了云的采編服務(wù)。城邦的公司肯定他們的編輯要處理大量的工作,而且很多大量的工作是用手工做的,我們能不能讓機器做一些案頭工作,把編輯做的找轉(zhuǎn)編發(fā)這些進行智能化,這就是云采編服務(wù)。還有云凈化服務(wù),國務(wù)院一再強調(diào)不能有不良信息、色情的信息、違法的信息在網(wǎng)上散發(fā),很多網(wǎng)站很緊張,錄用一大批小姑娘、小伙子成天在這兒看,看到不好的就刪掉。我們提出一個云計劃的凈化服務(wù),我們可以用機器來刪除,我們刪掉的目標已經(jīng)做到95%。我們可以看看客戶群里已經(jīng)有這樣的反饋,它可以做到95%到98%的機器凈化。而只提出2%到5%讓客戶進行審核。還有云發(fā)布也是基于云計算的發(fā)布,可以提高網(wǎng)站的流量等等。我們還推出我一直比較希望推出的通過這個平臺的建立,能夠推出一個云的標引,數(shù)據(jù)來了以后怎么給數(shù)據(jù)打上標簽,讓這些數(shù)據(jù)更加智能化。云的標簽,對出版商、對網(wǎng)站,因為我以前在美國工作了15年,處理了大量的美國200年的數(shù)據(jù)庫,因為是非結(jié)構(gòu)化的文本,怎么把它結(jié)構(gòu)化,就是必須打上標簽,就便于后端和前端用戶進行檢索和分析。

  這WOS平臺應(yīng)用架構(gòu)圖。我們采用了很多業(yè)界的標準東西,最終的目的是什么?是希望客戶提供所需要的信息。如果客戶來了以后,他提出信源,有很多不同的信息來源,這些是非結(jié)構(gòu)化的,這些是不同文本和格式,通過我的平臺就把它轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),這個結(jié)構(gòu)化的數(shù)據(jù)就是大家談的RDF,大量的文本來了以后,要變成一個表格一樣的東西,變成幾行字來解決。知道里面提到的人事物,因為文本往往是這樣的,自然語言往往是這樣的,在談事情的時候必須要提到人,必須要提到專有名詞,必須要提到時間、地點等等。我們通過智能化處理以后,人與物、人與人都建立語義管理,這樣我們對人的行為進行分析,我們可以進行鏈接和推送服務(wù)。

  舉一個例子,中文要做到真正讓中文能夠讓機器理解中文,首先要把中文分詞分清楚,你看不出中間這個詞是怎么分的,可以說乒乓球拍賣完了,也可以說是乒乓球,拍賣完了。這是不一樣的。給大家看一下怎么用智能的方法去理解一篇文章,首先分詞很重要。所謂智能分詞、命名實體、語義網(wǎng)。比如寧靜這個詞,比如寧靜的夏天、寧靜的夜晚,往往從這個理解,我們的機器也按照這個方向理解。往往在娛樂圈里,在中國大陸寧靜是一個很有名的演員,我能不能在一篇文章里把寧靜分出來,它不是一般的詞,而是指一個人名,然后給她建立關(guān)系,她跟紅河谷有關(guān)系,她演過的所有電視劇和電影有關(guān)系,而且和其他的明星有關(guān)系等等。智能分詞從這兒做起。

  再舉一個例子,有一個客戶找到我們,說我是幫助企業(yè)尋找廣告代言人,一般廣告代言人都找明星,我設(shè)廣告代言人所設(shè)定的明星在一個時間段里,我們通過智能分析,它給我們兩個人,一個是王菲,一個是李亞鵬,我在想大陸都知道這是一對很有名的夫婦。他們的曝光率在這四個點上,第一個點把關(guān)鍵詞和特征詞看一下,這個點他們談什么,有什么具體的題目,這個點和這個點上是什么,在這個時間段里他們倆在網(wǎng)絡(luò)上的曝光率就是這樣的狀態(tài)。然后給了我們上千個影視明星,他就非常高興,說可以幫助企業(yè)很快的找到這個新聞的熱點,怎么發(fā)現(xiàn)新聞的熱點,根據(jù)名人,然后進行跟蹤,最終幫助他們篩選出要做廣告代言人的選擇。

  還有在垂直行業(yè),有一個醫(yī)療網(wǎng)站叫“好大夫在線”,他們每天要收到成千上萬份不同的客戶在網(wǎng)上提出的需求,他描述我到底身體有哪些不適,有哪些病狀和問題,可是描述得往往不專業(yè),不會用專業(yè)的醫(yī)療詞匯等等。這樣的話,好大夫在線抓住這個時機,因為有很多網(wǎng)民年齡大了就希望自己能夠在網(wǎng)上得到醫(yī)療的咨詢,就招了一大批有醫(yī)療背景的人坐在那里分診,這個網(wǎng)站可以分400條不同的病例,網(wǎng)民提出的需求到底是哪種病,分給哪個醫(yī)院,哪個大夫都是通過人工的。他們找到我們,我們做了關(guān)鍵的幾步,把大量的網(wǎng)上談到醫(yī)療方面的信息進行抽取,找了專業(yè)詞匯,找了一些模糊的地方,然后進行對比,基本上把網(wǎng)站所需要用人去處理的分診系統(tǒng)基本上95%替代。還能夠根據(jù)他的病癥提出不同的解決方案,比如哪個醫(yī)院,哪個大夫更有效等等。

  我們在移動行業(yè)當(dāng)中,我拿著手機,將來拿著手機什么都沒有,只要我提出需求,我要得到什么就得到什么。這也是凱文凱利夢寐以求的。比如拿著手機看到樓房,通過衛(wèi)星定位知道我在什么地方,這是基本上能夠?qū)崿F(xiàn)的。更關(guān)鍵的是這片樓里在干什么,有什么活動,有什么樣的商店,有什么樣的影院,有什么樣的餐飲等等。這從云當(dāng)中獲得,這些都是經(jīng)過結(jié)構(gòu)化處理的,經(jīng)過海量的結(jié)構(gòu)化處理。把結(jié)構(gòu)化處理后的信息能不能夠疊加在手機上,讓它知道最終能夠知道到底需要什么。可以看出這一片的樓的價格比另一片樓的價格更低或者更高等等。這都是應(yīng)用云計算來做。最關(guān)心的是怎么從網(wǎng)絡(luò)當(dāng)中獲取信息。

  “云”中的智能計算,在互聯(lián)網(wǎng)當(dāng)中怎么做智能計算?現(xiàn)在的互聯(lián)網(wǎng)不再是PGC占主導(dǎo)地位,就是專業(yè)人士知道的東西,現(xiàn)在已不占主流,關(guān)鍵是UGC,這個非常龐大,而且非常亂,我們一定要對這些數(shù)據(jù)進行結(jié)構(gòu)化、智能化的處理以后,它才能夠發(fā)揮作用,才能夠從云中得到圖像、視頻、購物等等。這是我們認為云中的智能關(guān)鍵,也就是網(wǎng)上大量非結(jié)構(gòu)化的信息,有條理的統(tǒng)一的處理,這就是智能計算。

  我們希望通過“云”中的智能計算,我們迎來的互聯(lián)網(wǎng)首先是有效的,現(xiàn)在的互聯(lián)網(wǎng)你以為他給你帶來很多很好的好處,確實是可以上網(wǎng),但是真正關(guān)鍵的東西查了嗎?百度、谷歌做了權(quán)威性的調(diào)查,實際上百度、谷歌的搜索引擎只能滿足人們對信息需求的20%,有80%并沒有滿足。但是怎么讓那80%呈現(xiàn)在用戶面前,首先通過智能計算是有效的。二是安全的。三是可操作的。四是可靠的。五是一致的。六是可擴展的。中間這個球就是互聯(lián)網(wǎng),也就是凱文講的。未來的互聯(lián)網(wǎng)通讓它擁有語義網(wǎng)絡(luò)的服務(wù),最終無時不在,無所不包,而且是24小時不間斷運作。最后實現(xiàn)大家夢寐以求的夢想。謝謝大家。

編輯:郭慶娜

相關(guān)新聞

圖片

本網(wǎng)快訊

熱點新聞

奇聞趣事

兩岸