數據指標與標籤在數據分析中的關係與應用
導讀:分享數據指標體系的文章很多,但講數據標籤的文章很少。實際上,標籤和指標一樣,是數據分析的左膀右臂,兩者同樣重要。實際上,很多人分析不深入,就是因爲缺少對標籤的應用。今天系統的講解下。
一、何爲指標,何爲標籤,兩者有何區別?
1、從內容上看:指標通常描述客觀事實,標籤往往存在人爲劃分。
指標是用來定義、評價和描述特定事物的一種標準或方式,多爲數值型。比如:新增用戶數、累計用戶數、用戶活躍率等是衡量用戶發展情況的指標;月均收入、毛利率、淨利率等是用來評價企業經營狀況的指標。
標籤是人爲設定的,根據業務場景的需求,對目標對象運用一定的算法得到高度精煉的特徵標識,標籤是經過人爲加工後的結果。比如客羣標籤可以分爲長尾客戶、高淨值客戶;產品標籤有高風險和低風險。標籤並不是一個客觀的事實,而是由人爲的定義和客觀事實結合得到的數據標籤。其核心的目的是劃分不同的實體羣組。
從二者之間的關係來說,指標和標籤之間是可以相互轉化的。指標可以從標籤中轉化,比如高淨值客戶的遷移率,其中高淨值客戶和長尾客戶都是標籤,但在標籤的基礎上增加一個遷徙率,就由標籤轉化爲了指標。
同樣標籤也可以從指標轉化得來,比如說銀行中常用的數據標籤:私行客戶(AUM>=1000萬),其中 AUM 就是數據指標,不同銀行的標籤設定可能是不同的。
2、從分類和場景上看:指標和標籤的分類原則不同,使用的場景也不同。
1.指標分類一般來說指標常用的分類是相對固定的,會將指標分爲原子指標、派生指標和衍生指標三類。
2.標籤分類標籤可分爲事實標籤、規則標籤和模型標籤。
3.指標使用場景
指標通常拆解使用。比如一個較大的指標:客戶數,可以拆解到不同維度上,並且加以限定詞,比如手機銀行客戶數、七日內客戶數的增量等,主要是用來監測和評價業務的效果。
4.標籤使用場景
標籤通常歸納使用,用來刻畫某一個羣體的特徵,可以是客戶也可以是產品,其核心是分類,給予不同類別不同的經營策略。
具體舉例說明:指標體系通常會首先定義一個或幾個北極星指標,比如銀行常年使用AUM 作爲北極星指標,將北極星指標拆解到現金/存款、投資理財或其他業務模塊,同時用戶也可以拆解爲活躍用戶和非活躍用戶等。以此基礎可以梳理出整體的指標框架,從而指導業務。在標籤的使用場景上更多的偏向一線的營銷場景,包括客戶的經營、精準營銷和資格判斷等。通過不同客戶的標籤將其分成不同的類別,並進行不同的活動、資格或者產品的推送。也可以給產品打標籤,用來標識產品適合哪類人羣,在平安銀行口袋 APP 這樣的平臺就做到了千人千面,每個人進去看到的具體內容是不一樣的,這就是通過標籤去篩選圈定的。
二、 指標體系相關概念
數據指標就是將大數據之“大”的精髓給提煉出來,展現每日觀察數據的使用者最迫切想要看到的統計量。數據指標體系並不是第三方服務公司的專利,只要對埋點科學地進行數據採集,每個成型的互聯網公司都可以自己搭建數據指標體系。
數據之大,很多時候人們並不知從哪裡着手,甚至弄不清自己到底想要什麼數據,這時候數據產品經理這一角色應運而生。數據產品經理既要完成數據體系設計,讓原本無序或龐雜的數據變得“規矩”,又要根據業務場景的變化不斷調整項目內容,推進項目進度,推進數據指標體系的建設與迭代。
數據指標體系的規劃是平臺型數據產品經理必備的能力,這也是數據產品經理有別於其他產品經理和數據分析師的方面。
《荀子》有云:“水能載舟,亦能覆舟。”在公司日常運營過程中,數據指標體系就像是水,孕育着生命,承載着萬物。科學的數據指標體系能指引公司在正確的道路上不斷前進,或者使平淡無常的業務煥發新生,而不合理的數據指標體系可能使得業務方無所適從。
1、什麼是數據指標體系?
在瞭解什麼是數據指標之前,我們思考一下爲什麼會出現指標,它是爲了解決什麼問題。人類及科學的發展是與時俱進的,早期爲了使自然科學的實驗及結果更具統一性及方便標準化衡量,一些標準化的專業指標應運而生。
隨着人類社會的發展,社會科學也越來越需要統計學來進行事物的衡量,一系列統計學指標也逐步產生了。隨着新信息技術的發展,數據指標逐步被大衆認可爲衡量目標的方法。
從社會科學角度看,指標是統計學的範疇,用於數據的描述性統計。指標是說明總體數量特徵的概念及其數值的綜合,故又稱爲綜合指標。
在實際的統計工作和統計理論研究中,往往直接將說明總體數量特徵的概念稱爲指標。傳統的指標有國內生產總值(Gross Domestic Product,GDP)、國民生產總值(Gross National Product,GNP)、居民消費價格指數(Consumer Price Index,CPI)、滬深300指數等。
1. 什麼是數據指標?
數據指標有別於傳統意義上的統計指標,它是通過對數據進行分析得到的一個彙總結果,是將業務單元精分和量化後的度量值,使得業務目標可描述、可度量、可拆解。
數據指標需要對業務需求進行進一步抽象,通過埋點進行數據採集,設計一套計算規則,並通過BI和數據可視化呈現,最終能夠解釋用戶行爲變化及業務變化。常用的數據指標有PV、UV等。
本文提及的指標是衡量目標的方法,指標由維度、彙總方式和量度組成(見下圖)。
指標的構成
比如,播放總時長是指用戶在一段時間內播放音頻的時長總和(單位:分鐘)。按照上述拆解,維度是指篩選的一段時間,彙總方式爲計算了時間長度的總和,而量度就是統一的單位—分鐘數。
這裡,我們可以理解爲指標是由這幾個方面構成,相當於英文的構詞法,前綴、後綴等共同形成了一個單詞。
2. 什麼是指標體系?
體系化的本質是將數據指標系統性地組織起來,具體會按照業務模型、按標準對指標不同的屬性分類及分層。當然,不同的業務階段、不同業務類型會有不同階段的劃分標準。
數據指標體系含有十分豐富的統計量,從宏觀上看,它是一個相對全面的有機整體;從微觀上看,每個數據指標都有其特定含義,反映了某一細節的客觀事實。不同的數據指標定義不同,邏輯也不同,這些各種各樣的統計量共同構成了數據指標體系,使其產生不可磨滅的價值。
總的來說,數據指標體系是對業務指標體系化的彙總,用來明確指標的口徑、維度、指標取數邏輯等信息,並能快速獲取到指標的相關信息。
2、數據指標體系的價值
數據指標體系是業務數據標準化的基礎,其對指標進行了統一管理,體系化是爲了方便統一修改、共享及維護。
宏觀方面,數據指標體系建設是數據中臺建設的重要一環,不僅符合“創新驅動”的意識,更是企業實現自身“數據驅動”發展的重要途徑。
隨着大數據和人工智能技術的發展,很多企業選擇藉助信息技術實現轉型升級。在大數據時代早期,大部分數據並沒有被充分地挖掘分析和利用。雖然數據規模非常大,但是卻很難利用這些數據創造價值。而數據中臺的提出及數據指標體系的構建,使得數據產生了實際價值。
有了數據指標,人們做決策時不再是按照經驗“拍腦袋”,而是看看數據是怎樣呈現的,能夠及時基於數據進行戰略調整及決策規劃。
數據指標體系的價值主要體現在全面支持決策、指導業務運營、驅動用戶增長,同時統一統計口徑(如下圖所示)。其中,作爲壓軸作用的統一統計口徑對於數據指標體系而言具有戰略意義。
在一個整體中,如果不能統一口徑,那麼一切分析及對比的參考價值就會顯得無意義,各方也會陷入公說公有理,婆說婆有理的尷尬局面。由此說明,對於衡量整個公司的業務價值而言,建立一套統一標準的數據指標體系的作用不言而喻。
1. 全面支持決策
數據指標極具參考價值,公司的管理層爲了更準確地進行戰略決策,需要搭建完備的數據指標體系。一個相對全面的數據指標體系,可以讓管理者對公司的發展從數據層面有一個比較客觀的認知,而不是管中窺豹,這樣在進行戰略決策時,可以保持相對理性。
而對於新業務的洞察,也可以不斷融入新的數據指標,豐富指標體系,靈活且全面地把握業務發展趨勢,爲未來的決策提供借鑑。
2. 指導業務運營
不懂數據的產品不是好運營,爲了便捷地瞭解產品現狀及業務效果,指標體系中會有很多拆解的細分指標,這些數據的變動反映的是用戶對於運營情況的最新反饋,爲運營的業務決策提供了數據支持。用戶運營可以根據這些數據,瞭解用戶的喜好,決定下一步的運營策略和活動開展。
例如,對於閱讀行業來說,內容編輯會基於自己對內容的認知,將一組有共性特徵的書籍組成一個書單推送給用戶,那麼指標體系中也會有相應的指標反映用戶對這個書單的偏好。內容編輯就可以通過這些指標,瞭解用戶的偏好,決定下一步是否要繼續嘗試這種類型的專題。
3. 驅動用戶增長
最近最火的詞莫過於用戶增長,數據指標體系中的用戶行爲數據,可以讓產品及運營人員對用戶的行爲路徑和喜好模式有一個比較深入的理解。剖析用戶的行爲特徵,助力用戶價值的提升,讓產品及運營更聚焦於產品細節的優化,更好地進行監測,提升用戶留存及轉化。
人們在分析和挖掘用戶行爲的過程中,也許會發現不少新的用戶增長點。體系化的指標結合了用戶的場景,且多個不同的指標和維度可以串聯起來進行全局分析,解決了非體系化指標無法串聯的痛點。
公司在深入進行數據分析後,可能會在原有業務中發現某個點潛藏着巨大商業價值,從而單獨把這塊業務重點推進,實現用戶增長的二次騰飛。
4. 統一統計口徑
從技術角度來看,數據中臺是爲了彙總與融合企業內的全部數據,甚至外部數據,打破數據隔閡,解決數據標準與口徑不一致的問題。數據指標體系化有個好處是可以實現指標的統一管理,實現統一的統計口徑,避免定義模糊和邏輯混亂,影響數據質量。
同時,完備的數據指標體系也可減少重複統計的問題,從而避免日誌上報產生的數據冗餘和重複分析產生的服務器資源浪費。
三、 標籤體系相關概念
標籤由標籤和標籤值組成,打在目標對象上,如圖所示。
標籤由互聯網領域逐步推廣到其他領域,打標籤的對象也由用戶、產品等擴展到渠道、營銷活動等。
標籤分爲事實標籤、規則標籤和模型標籤,如圖所示。
標籤管理分爲標籤體系建設和打標籤。1、標籤體系建設
2、打標籤
1. 打標籤數據存儲結構
打標籤是建立標籤值與實例數據的關係,可以對一個業務對象、一個邏輯數據實體、一個物理表或一條記錄打標籤。
爲了方便從“用戶”視角查找、關聯、消費標籤,可增加用戶表,將標籤歸屬到該“用戶”下,這裡的“用戶”是泛指,可以是具體的人,也可以是一個組織、一個部門、一個項目等。
2. 打標籤的實現方法
總結:
本文首先區分了標籤和指標兩個概念的一些異同;後面分別介紹了指標和標籤體系的一些相概念,指標體系的梳理及應用價值等,標籤要根據實際的應用場景出發,建立體系化的標籤。
免責聲明:本文素材和觀點均基於當前可獲得的資料和作者的個人理解進行撰寫。本文章及其中所涉及的內容僅供讀者參考和交流之用,並不構成任何專業建議、投資意見或法律指導,如文中有涉及您的著作權或所有權問題,請及時聯繫我們修改或下架文章,謝謝~