雖說趙施言並不覺得自己像凌志說的那樣誇張,像太陽一樣照耀著周圍的人。
但是她同樣沒覺得凌志在說謊或者應付她,她能感覺得到男生心中的真誠,所以她還是很開心的,誰不喜歡別人夸自己啊。
趴在桌上的她現在想想,她形容凌志是個「乾淨」的男孩子。
剛剛說出口之時,確實是憑藉感覺脫口而出的。
但現在仔細回憶回憶前兩次的碰面,她愈發肯定自己的形容十分準確。
如果光說外表的話,男孩確實不是長得很帥的那種。
單眼皮,小眼睛,戴個眼鏡,甚至還有少許鼻毛和沒刮乾淨的鬍子,一看就是一個普通的學生形象。
然而他打起檯球和聊起檯球時的那種認真的眼神,出杆時不急不躁的動作,讓她覺得打球就應該是如此,而不是摻雜一些別的東西。
只是偶爾對自己好球的誇讚和說自己壞球的運氣差,讓她覺得十分好笑。
「真是個傻子,每杆沒打好的球都是運氣差嗎?」 趙施言沒好氣地想道。
所以,她願意跟這樣的男孩做球友,畢竟球房裡想找到跟自己同水平的姑娘幾乎不可能。
不過現在,她覺得她不光願意跟男孩做球友,甚至 念頭一起,她迅速不自覺地搖了搖頭。
她也有著自己的煩惱,只不過這些被她用她固有的氣場很好地掩飾住了。
過了一會兒,她抬起頭,拍了拍自己的臉蛋。
「嗯,不能再這樣了,這一點都不像我。
」 趙施言借住的學姐的宿舍是個單人間,學姐暑假外出實習,而她應該在學姐實習回來前就搬到新宿舍了。
她準備用從學姐那裡借來的校園卡洗個澡,希望能順利地忘記煩惱。
第二天,凌志早早來到實驗室。
今天周六,實驗室也會有同學過來,但比一般時候來的晚一些。
凌志並沒有像往常一樣打開論文,而是打開一款接單軟體。
自從他學會給自己採集數據之後,凌志覺得自己的這項技能不能被埋沒啊,於是給自己找了個活兒干,每周末給一些客戶整理一些公開數據集,不會占據自己太多的時間。
凌志在線掛了一會兒,今天的第一個客戶出現了。
「您好,在嗎?」 「在的親,請問您想要採集什麼數據呢?」 「您好,請問可以幫忙分析數據嗎?」 分析數據啊,凌志不是專門做數據分析的,但是能不能做要看情況。
如果只是做一些簡單的統計的話 「您可以把您的需求發出來,我看看能不能做。
」 「好的,我是想計算一下行業內每兩個公司之間的相似度」 凌志聽著客戶的需求,也不時提出一些疑問。
回答完之後根據數據量給出了一個報價以及預期交付時間,客戶並沒有多砍價,就這麼敲定了。
實際上計算文本相似度的方法有很多,比如統計兩個文本中有沒有詞語同時出現,出現頻率是否相近,標點符號使用頻率是否一致等等。
但這些統計都是表層的統計,句子語義深層次的相似度沒有辦法通過這種辦法來計算。
比如「開心」和「快樂」是同一語義,相似度為0.97,而「開心」和「傷心」則是相反語義,相似度為0.02。
如果用最表層的統計方法是沒辦法得出上述結論的。
所以在當下,深度學習方法則成為主要的學習句子深層次語義的方法。
凌志並不想糊弄客戶,他想既然要做那就儘量做到最好。
雖然客戶在這一塊並不是專業的,也並不知道計算相似度都有哪些方法,更沒有去問凌志打算如何計算,但凌志依然想用深度學習方法來幫助客戶準確計算每個公司的相似度。
凌志看著客戶發來的每個公司的代表產品,找到了之前自己訓練好的一份詞向量表,先把產品名用分詞工具分詞,再對應到詞向量表中,最終將兩個公司之間的產品所對應的向量進行兩兩歐氏距離計算,最終一平均得到了每一對公司之間的相似度 感覺也不複雜,但是不知不覺一天就過去了。
凌志整理了一下數據,發給了客戶。
「您好,相似度的計算已經搞好了,您看您還滿意麼?」 過了一會兒,客戶回復道: 「[拱手]整理得太細緻了,謝謝您。
不過您是怎麼計算相似度的呢?如果方便的話能不能告訴我一下,我想寫進我的介紹推文里。
」 「哦哦,其實也不複雜,我用的是詞向量計算的,而詞向量是用深度學習方法訓練出來的」 凌志仔細地打了一大段文字,大概介紹了一下原理,沒有說得太細。
實際上詞向量的訓練過程是深度神經網絡根據詞的上下文來推斷出來的,比如說,「開心」這個詞周圍經常出現的詞彙與「傷心」就截然不同。
所以深度語義,本質上也是由他的上下文來決定的,這也是凌志大致解釋給客戶的內容。
至於如何根據上下文推導出詞向量,上下文的範圍界定到底有多廣,凌志就沒有細講,講了客戶也不關心,他只會挑重點說。
小主,這個章節後面還有哦,請點擊下一頁繼續閱讀,後面更精彩