相關性分析

電腦通訊 9547 777 2016-05-31

相關性分析是指對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度。相關性的元素之間需要存在一定的聯系或者概率才可以進行相關性分析。相關性不等于因果性,也不是簡單的個性化,相關性所涵蓋的范圍和領域幾乎覆蓋了我們所見到的方方面面,相關性在不同的學科里面的定義也有很大的差異。下面簡單介紹常見的幾種相關性分析。

基本信息

  • 中文名稱

    相關性分析

  • 外文名稱

    correlation analysis

  • 類    別

    分析方法

  • 功    能

    衡量兩個變量因素的相關密切程度

目錄
1基本概念
2網絡介紹
3其他領域

基本概念

相關性分析是指對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度。相關性的元素之間需要存在一定的聯系或者概率才可以進行相關性分析。相關性不等于因果性,也不是簡單的個性化,相關性所涵蓋的范圍和領域幾乎覆蓋了我們所見到的方方面面,相關性在不同的學科里面的定義也有很大的差異。下面簡單介紹常見的幾種相關性分析。

網絡介紹

網站相關性分析

搜索引擎幾乎每天都在發生著變化,搜索引擎想要給使用它的用戶一個好的體驗,需要給用戶一個他想要的頁面,搜索引擎根據用戶搜索的內容在茫茫互聯網找到跟用戶想要的內容最相關的網頁,一個一個羅列在用戶面前供他挑選,只不過地方小了點,東西多了點而已。那么我們現在把搜索引擎和使用搜索引擎的人都當做我們的用戶,那么你的網站有沒有用戶最想要的東西呢?網站需要怎么做才能讓搜索引擎和用戶最滿意最看好我們呢?要知道搜索引擎與使用它的人之間的橋梁就是網站的相關性,用戶通過搜索引擎檢索跟網站相關的內容找到該網站,而搜索引擎通常使用相關性規則,來展示搜索結果。一個有極高相關性的匹配是對那個搜索請求排名第一的候選結果。也就是說網站相關性是指自然搜索與搜索請求相關的程度。

影響網站相關性的主要因素

域名  

現在我們使用的域名一般是英文域名,當我們使用漢語拼音進行搜索的時候,域名對網站相關性的影響是顯而易見的,那么搜索引擎這臺機器會考慮那么多嗎?答案是:會的。當然你應該比搜索引擎考慮的更多。

二級域名  

相對而言二級域名比較獨立,需要像對待一個新站一樣,但是二級域名可以讓搜索引擎分辨你不同的主題,做的好做的多對主站的權重、網站的相關性等方面影響是很大的,在搜索引擎中子域名與主域名是作為分離的、獨立的域來對待的,因此子域間的鏈接、子域與主域的鏈接在某種意義上相當于來自外部網站的鏈接,但是二級域名也需要考慮對關鍵詞的影響和和網站的相關性等因素。

二級目錄  

其實這里二級目錄和二級域名還是有一定的差距的,在主域名下面添加二級目錄可以增加主域名的權重,而不會分散權重效果,增加內容的相關性。

相關網站  

主要表現在相關網站的鏈接交換和外鏈的建設對網站相關性的影響。

網站內容  

網站所添加的內容要與網站本身具備一定的相關性,根據這個主題為網站添加相關的內容,這就是網站相關性的重要表現之一。需要說的是不同的行業網站的內容和數量都有較大的差異。網站內容對網站相關性的影響不是說原創還是偽原創,當然原創的更好,而是說網站內容與網站主題的相關性如何,與網站主題相關的頁面的多少。

網站內容與網站內容  

網站內容與網站內容之間的內部鏈接、關鍵詞策略等等因素相結合不光可以方便PR值的傳遞還可以幫助新頁面收錄并且提高頁面的相關性。

外鏈頁面與網站頁面  

外鏈頁面與網站頁面相關性越強搜索引擎就越能夠分析該頁面傳遞的關鍵字相關性是什么,進而提升網站相關性。

網站內聯  

內聯相關性主要表現在文章、文本最好和相關的文章、相關關鍵詞或者相關欄目進行相互連接,主要是為了方面用戶的閱讀,可以增加網站瀏覽量和用戶停留時間,同時有利于搜索引擎對其他相關網站文章的抓取,提高搜索引擎在站內的爬行速度和抓取速度,更有利于網站相關性的提升。但是千萬別迷路了。

網站外聯  

外鏈無論相關內容是在哪里投放的,最好是和網站主題相關,這樣可以非常好的提升我們網站的相關性

權重繼承  

大多數站長都養過資源站,都曾有購買過有pr的域名,但如果域名前后網站類型不具備相關性,那么權重是不會得到繼承的,如果網站類型不想管但之前的站和將要做的新站的關鍵詞在網站的標題中出現交叉雖然能繼承但難度很大,所以最好購買同行業網站相關性強的域名,再通過路徑恢復實現權重的繼承。

關鍵詞  

搜索引擎喜歡網站圍繞一個核心進行逐一展開,從而方便自己的程序爬取,這也是為綜合性網站建立資源站的時候,大部分站長選擇用主站的一個點進行建站優化,這其中關鍵詞對網站相關性的影響是很不容忽視的。其實與網站相關性聯系密切的關鍵詞也是不斷擴展不斷延伸的,順序一般是核心關鍵詞進而目標關鍵詞最后是長尾關鍵詞,而反過來無論順序是什么都對網站相關性有很大影響。

搜索引擎相關性排名算法  

搜索引擎的算法直接影響網站相關性的判定,進而影響網站排名,搜索引擎排名算法包含很多因素,包括匹配搜索請求內容所在網頁的位置,網頁的權威性,搜索請求中的詞語在網頁上的密度和彼此的接近程度等都會直接影響網站相關性搜索結果。

增加網站相關性的幾點小技巧

1、搜索引擎對搜索結果進行匹配的時候并不使用元標簽如關鍵詞或描述標簽。這是由于在這些元標簽中所使用的文字并不能為實際的訪問者所看到,因而一般是將一個網頁的頭幾行文字內容來生成對一個網站的描述。如果網站的關鍵詞或關鍵短語放到網頁的上方,這樣搜索引擎會很容易找到它們,就會相應提高你網站的相關性。而假如搜索引擎在頂部找不到這樣相關的內容,那么它要花費很大的力氣來尋找你頁面的其它具備相關性的部分,之所以用很大力氣來形容是相對于那0.1秒的時間來說的。

2、搜索引擎還會考慮網頁中正文內容的關鍵詞密度,所以你要確保在你的整個網頁中貫穿出現了若干次關鍵詞和關鍵短語。但是密度過火了你的網頁也燒不起來。

3、在內容標題中放入關鍵詞,并盡可能對內容中出現的關鍵詞進行加粗,搜索引擎會認為加粗的是重點。但是太粗了我看見都吐了更可況搜索引擎。

4、圖片的索引增加ALT屬性文字描述,那么ALT屬性中包含關鍵詞,可以增加網站的相關性。

5、外鏈盡量與網站具備相關性,外鏈頁面的權重是次要的,然后再看外鏈頁面導出鏈接數量和外鏈頁面可用鏈接位置。

6、盡量使你網站上的外鏈頁面文字包含關鍵字錨文本超鏈接可有效提高你的網站相關性。

網絡相關性分析

在社交網絡之后,下一個大的潮流又是什么呢?

科技愛好者們談論這個話題已經有好幾年時間了。我認為新的潮流已經出現:網絡正在從簡單的社交共享轉向個性化的、具有相關性的內容。

這個潮流的關鍵元素是,配合社交圖譜的興趣圖譜變得越來越重要。

相關性是解決信息超負荷問題的唯一辦法。

究竟什么是網絡相關性?

要針對信息超負荷的戰斗中,人們使用的“武器”通常有兩種:相關性和人氣。這里的“相關性 ”等同于“個性化”,是和“人氣”相對的選擇。

然而,相關性并不總是意味著個性化。相關性是一種非常動態化的東西,它取決于一個人在某個特定的時間點上的需要。有很多時候,你想了解人氣最高的內容,而其他時候,你只想看到個性化的內容。

目前有多種方法來對信息進行相關性過濾。比如搜索引擎是通過相關性算法來過濾,而Reddit、Hacker News使用了眾包(crowdsourcing)方式。Klout的“影響力排名”可以被用來過濾Twitter消息流,Facebook在新聞流中使用了社交關系這個過濾器,在它新推出的評論插件中使用的過濾器則是社交信號。對于提供具有相關性的內容來說,地理位置是另一種重要的信號,而且它在移動世界中的重要性正在日益增長。

換句話說,相關性橫跨了幾乎所有象限,在上述的各種相關性過濾方法中,沒有哪一種是“最好的辦法”,因為對于相關性來說,不存在“殺手級”的方法。支持多種發現方法,多種過濾方法,具有靈活性,并支持多種移動平臺的服務才會更具競爭優勢。

由相關性驅動的互聯網,其影響深遠而廣泛。一個服務如果可以更好地利用興趣圖譜,它就會獲得更好的定向廣告效果,而對CPM (每千人瀏覽頁面的費用)式廣告的依賴性也可能會降低。而且有可能通過把重心放在交易和訂閱上獲得更高的營收。網絡媒體發布商會更重視相關性指標,比如用戶參與度和花費在站點上的時間,而不是像網頁瀏覽和流量這樣的原始指標。

其他領域

財務會計學上的相關性分析

又稱有用性分析,是財務會計的一部分,是指會計信息要同信息使用者的經濟決策相關聯,即人們可以利用會計信息做出有關的經濟決策,相關性分析的目的在于提高使用者的經濟決策能力和預測能力。

經濟學上的相關性分析

相關性的統計與分析是經濟學中常用的一種方法。相關性是指當兩個因素之間存在聯系,一個典型的表現是:一個變量會隨著另一個變量變化。相關又會分成正相關和負相關兩種情況。

統計學上的相關性分析

相關性系數的計算過程可表示為:將每個變量都轉化為標準單位,乘積的平均數即為相關系數。兩個變量的關系可以直觀地用散點圖表示,當其緊密地群聚于一條直線的周圍時,變量間存在強相關性。

數學上的相關性分析

當兩個變量的標準差都不為零時,相關性系數才有定義。當一個或兩個變量帶有測量誤差時,他們的相關性就會受到削弱。

幾何學上的相關性分析

對于居中的數據來說(居中也就是每個數據減去樣本均值,居中后它們的平均值就為0),相關性系數可以看作是兩個隨機變量中得到的樣本集向量之間夾角的cosine函數。

大氣科學上的相關性分析

對回歸因素所引起的變差與總變差之間的相關性分析。

生態學上的相關性分析

度量兩個隨機變量間的關聯程度。相關性系數的取值范圍為(-1, 1)。當相關系數小于0時,稱為負相關;大于0時,稱為正相關;等于0時,稱為零相關

遺傳學上的相關性分析

是對物種與物種之間具備相關性的基因、功能及其變異、傳遞和表達規律的相關性分析。