數據挖掘機:200萬黨員信息之醫療科技篇

撰稿:Gradient Boost

審稿:永遠小學生 編輯:五餅二魚

去年十二月上海200萬黨員信息泄露的消息可以說是壹石激起千層浪,而隨該消息同時流出的,自然還有那接近200萬黨員的數據文件。作為壹個剛入門Python(壹種可用於數據分析的程序語言)不久的代碼菜鳥,筆者感覺或許找到了壹個練手的機會。滅共的同時順便提升壹下自己的職業技能水平,何樂而不為呢?

Pexels免費照片資料庫

由於數據過於龐大,壹次來個全方位的分析對於筆者手中又小又破的筆記本電腦來說實在是不太現實,所以筆者決定每次專註調查某壹特定領域。正好最近與疫苗有關的話題熱度高漲,而且澳大利亞已在本月22日正式全面開展CCP病毒疫苗的接種工作,筆者今天就來挖掘壹下醫療技術行業黨員的滲透情況。

在此之前筆者已經發布過兩篇挖掘黨員信息的文章,分別關註的是外資銀行以及信息科技產業,這些文章的鏈接會貼在本文末尾,供讀者們參考查詢。

我得到的數據資料壹共被分成了兩個部分,第壹部分名單包含1,048,576個觀測數據,而第二部分則包含908,663個觀測數據,似乎是與各大媒體報道的名單中人數相符。這壹回主要調查醫療行業,筆者使用的方法是首先在網絡上搜索壹些較為知名的醫療技術或藥品企業,然後將這些企業名稱代入數據中進行檢索,從而得到滲透該企業黨員和黨支部數量。

首先我們來看滲透醫療企業的黨員人數情況:

圖片為筆者自制

在所有被檢索出來的醫療技術或藥物研發企業中,滲透西門子公司的黨員人數是最多的,達到了679人。而且這個數目實際上是被低估的,因為我們本次研究的僅為醫療產業,所以只有西門子總部和醫療技術分部的黨員人數被統計其中,而西門子通信分部、西門子開關和西門子自動化的黨員加在壹起還有差不多兩百來號人。

緊隨其後的則是來自瑞士的羅氏和來自美國的強生公司和3M公司,這三家公司的黨員人數基本持平,人數在250到270之間。強生公司的數目有可能被低估,因為上海還有名為“強生”的投資公司以及汽車公司,但這些似乎與美國的強生公司沒有關聯,保險起見筆者只記錄了“強生上海”和“強生制藥”的黨員人數。

至於大家較為關心的疫苗生產商,比如輝瑞以及阿斯利康,其實也都有上榜。這兩家疫苗企業的黨員人數也較為相近,輝瑞有69人,阿斯利康則有54人。這兩家公司生產的疫苗被德國之聲評為全球最為領先的十個CCP病毒疫苗項目。

現在讓我們再來看壹下黨支部數量:

圖片為筆者自制

若論黨支部數量,我們發現飛利浦的排名有大幅度上升,以9個黨支部排在第二,僅次於內部建立了12個黨支部的西門子。飛利浦的支部委員會建制如果仔細觀察,會發現還是按照樓號分批次建立的:比如飛利浦公司壹號樓有2個支部,二號樓有4個支部等等……

CCP病毒疫苗制造商輝瑞內部能查到的有4個黨支部,而相比之下阿斯利康就只有1個。3M與強生的黨支部數量也不少,不過考慮到滲透這兩家公司的黨員人數皆在前列,所以也並不奇怪。

文章最後,分享壹張大統計表(總覽)。因為本人純新手壹位,屬於之前Python個人作業只拿了六十分的那種,在數據呈現方面如果有任何紕漏或錯誤,歡迎各位高手指正。

(本文純屬個人觀點)

圖片為筆者自制
  1. 數據來源:https://gitlab.com/wesliew/shanghai-ccp-member-db/-/tree/master/untrusted-blob-of-raw-data (但是筆者再次想要訪問時發現數據已經下架)
  2. 筆者使用的數據處理工具為Python Pandas DataFrame,即不壹定必須使用SQL(但Excel應該是操作不了……)
  3. 第壹篇文章《數據挖掘機:200萬黨員信息之外資銀行篇》簡體版鏈接如下:https://gnews.org/zh-hans/680193/
  4. 第壹篇文章《數據挖掘機:200萬黨員信息之外資銀行篇》繁體版鏈接如下:https://gnews.org/zh-hant/680262/
  5. 第二篇文章《數據挖掘機:200萬黨員信息之電子信息科技篇》簡體版鏈接如下:https://gnews.org/zh-hans/746015/
  6. 第二篇文章《數據挖掘機:200萬黨員信息之電子信息科技篇》繁體版鏈接如下:https://gnews.org/zh-hant/746042/

全球知名醫療企業名單參考資料:
新浪醫藥新聞之壹(中共國墻內媒體網站)
新浪醫藥新聞之二(中共國墻內媒體網站)
新浪財經(中共國墻內網站)
德國之聲(中文)

新聞參考鏈接:
澳大利亞廣播公司(中文)

免責聲明:本文內容僅代表作者個人觀點,平台不承擔任何法律風險。

0 則留言
Inline Feedbacks
View all comments