五十路熟女亂倫,女性自慰性用品,一本大道香蕉久伊在线播放

分析了波周杰倫，還做了數(shù)據(jù)可視化！

來(lái)源：數(shù)據(jù)不吹牛時(shí)間：2023-04-11 20:06:16

 字號(hào)：大中小

本案例中的歌詞數(shù)據(jù)來(lái)自中文歌詞數(shù)據(jù)庫(kù)。

前排提示：文末送可視化好書~

(資料圖片)

這個(gè)數(shù)據(jù)庫(kù)提供了華語(yǔ)歌手的歌曲及歌詞信息，數(shù)據(jù)以 JSON 格式存儲(chǔ)。

為了盡量完整地呈現(xiàn)從原始數(shù)據(jù)到可視化的過(guò)程，接下來(lái)我們會(huì)先簡(jiǎn)單講解數(shù)據(jù)的預(yù)處理過(guò)程，即如何將 JSON 數(shù)據(jù)轉(zhuǎn)化為Excel 格式，以及如何對(duì)周杰倫的歌曲進(jìn)行分詞。

若你希望跳過(guò)數(shù)據(jù)預(yù)處理的過(guò)程，也可以在《數(shù)據(jù)可視化設(shè)計(jì)指南：從數(shù)據(jù)到新知》一書的下載文件中，直接使用分好詞的 Excel 文件進(jìn)行可視化練習(xí)。

數(shù)據(jù)預(yù)處理指的是將原始數(shù)據(jù)處理成我們希望的格式，并提取出我們需要的信息。

在本案例中，我們需要先從數(shù)據(jù)庫(kù)中篩選出演唱者為周杰倫的歌曲，然后獲得這些歌曲的歌詞，并將它們存儲(chǔ)到純文本文檔（.txt 格式）中。以下提供兩種方法。

第一種方法，先把 JSON 文件轉(zhuǎn)換為 Excel 可以打開(kāi)的 .csv 文件或 .xlsx 文件格式。這可以借助一些在線的轉(zhuǎn)換工具完成（如 JSON to CSV Converter）。一般而言，只需將文件拖入這些工具，選擇好轉(zhuǎn)換格式類型，即可轉(zhuǎn)換完成。接著，我們便可以在 Excel 中打開(kāi)該數(shù)據(jù)，然后單擊“數(shù)據(jù)→篩選”命令，選擇歌手為“周杰倫”的歌曲。之后，選中它們的歌詞，并將其粘貼到純文本文檔中。

第二種方法，通過(guò) Python 進(jìn)行數(shù)據(jù)預(yù)處理。代碼如下。

首先，需要引入 JSON 庫(kù)（未安裝者通過(guò) pip install json 安裝）。

import json

然后，讀取我們下載的 JSON 文件，存儲(chǔ)在名為 data 的變量中。

with open(‘ lyrics.json’ , ‘ r’ ) as f:data = json.load(f)

接著，遍歷 data 中的每一項(xiàng)，找出“歌手”=“周杰倫”的數(shù)據(jù)項(xiàng)，存到data_zjl 中。

data_zjl = [item for item in data if item[‘ singer’ ]==’ 周杰倫’ ]print(len(data_zjl))

建立一個(gè)空列表 zjl_lyrics，用于存儲(chǔ)歌詞。遍歷 data_zjl 中的每一首歌，將它們的歌詞存到 zjl_lyrics 中。

Zjl_lyrics = []for song in data_zjl:zjl_lyrics = zjl_lyrics + song[‘ lyric’ ]

最后將 zjl_lyrics 寫入一個(gè)新的 .txt 文件。

with open(“ zjl_lyrics.txt” , “ w” ) as outfifile:outfifile.write(“ 
” .join(zjl_lyrics))

通過(guò)這幾行代碼，我們就獲得了周杰倫所有歌曲的歌詞數(shù)據(jù)（見(jiàn)圖1）。以這個(gè) .txt 文件為基礎(chǔ)，我們便可以進(jìn)行詞頻統(tǒng)計(jì)了。

圖1

以下附上一種在 Python 中分詞的方法。首先引入 jieba 庫(kù)（安裝：pip install jieba）、pandas 庫(kù)（安裝：pip install pandas）、用于頻次統(tǒng)計(jì)的 Counter 庫(kù)，以及表單工具，代碼如下。

import jiebaimport jieba.analyseimport pandas as pdfrom collections import Counter

事先準(zhǔn)備好一個(gè)中文的停用詞表（.txt 文件，里面包含一些常見(jiàn)的、需要過(guò)濾的中文標(biāo)點(diǎn)和虛詞，可在網(wǎng)上下載），代碼如下。

with open(‘ chinese_stop_words.txt’ ) as f:stopwords = [line.strip() for line in f.readlines()]

打開(kāi)歌詞文件，利用 jieba 庫(kù)進(jìn)行分詞。分詞之后，刪除停用詞、去除無(wú)用的符號(hào)等。用 Counter 庫(kù)對(duì)清洗干凈的詞語(yǔ)進(jìn)行頻次統(tǒng)計(jì)。然后將統(tǒng)計(jì)結(jié)果用 pandas庫(kù)轉(zhuǎn)換為數(shù)據(jù)表單，存儲(chǔ)為 Excel 文件，代碼如下。

fifile = open(“ zjl_lyrics.txt” ).read()words = jieba.lcut(fifile, cut_all=False, use_paddle=True)words = [w for w in words if w not in stopwords]words = [w.strip() for w in words]words = [w for w in words if w != ‘ ’ ]words_fifilter = [w for w in words if len(w) > 1]df = pd.DataFrame.from_dict(Counter(words_fifilter), orient=’ index’ ).reset_index()df = df.rename(columns={‘ index’ :’ words’ , 0:’ count’ })df.to_excel(“ 周杰倫分詞結(jié)果 .xlsx” )

由此，我們便獲得了分詞后的單詞及詞頻（見(jiàn)表1）。使用這個(gè)文檔，我們就可以開(kāi)始制作可視化了。

表1

由于是文本類數(shù)據(jù)，我們首先想到的可視化形式可能是文字云。如果你使用 Python，則可以直接基于剛才的分析結(jié)果，調(diào)用wordcloud庫(kù)繪制文字云，代碼如下。

from wordcloud import WordCloud# 注 ：這里需要引入一個(gè)中文字體，否則會(huì)亂碼wc = WordCloud(font_path = ‘ Alibaba-PuHuiTi-Regular.ttf’ ,background_color=” white” ,max_words = 2000)wc.generate(‘ ‘ .join(words_fifilter))import matplotlib.pyplot as pltplt.imshow(wc)plt.fifigure(fifigsize=(12,10), dpi = 300)plt.axis(“ off” )plt.show()

繪制結(jié)果如圖2所示。

圖2

不過(guò)，在代碼工具內(nèi)繪制文字云，進(jìn)行定制化設(shè)計(jì)相對(duì)比較復(fù)雜。因此，也可以借助一些在線工具幫助我們實(shí)現(xiàn)更好的可視化效果。

目前，許多中文的工具都可以專門用來(lái)制作文字云，如微詞云、易詞云、圖悅等（相關(guān)總結(jié)可參考知乎專欄的一篇文章《詞頻統(tǒng)計(jì)工具哪家強(qiáng)，對(duì)比 8 款工具得出了結(jié)果》）。下面，我們以微詞云為例進(jìn)行演示。

進(jìn)入微詞云界面后，首先單擊“導(dǎo)入單詞”，進(jìn)行數(shù)據(jù)導(dǎo)入。選擇“從 Excel 中導(dǎo)入關(guān)鍵詞”，然后上傳我們剛才得到的包含單詞和詞頻的 Excel 文檔（需要注意的是，微詞云目前對(duì)上傳的 Excel 文件格式有一定要求，比如，列名必須叫“單詞”和“詞頻”才能識(shí)別，詳見(jiàn)其頁(yè)面指引），即可生成文字云（見(jiàn)圖3）。

圖3

可以看到，微詞云的頁(yè)面上還有另外兩種導(dǎo)入數(shù)據(jù)的選項(xiàng)。其中，“簡(jiǎn)單導(dǎo)入”支持用戶輸入用逗號(hào)隔開(kāi)的單詞?！胺衷~篩詞后導(dǎo)入”則支持用戶粘貼長(zhǎng)文本，然后由系統(tǒng)自動(dòng)進(jìn)行分詞和詞性判別。換句話說(shuō)，如果你有一個(gè)文檔文件，也可以直接粘貼進(jìn)微詞云進(jìn)行分詞。

接下來(lái)我們用周杰倫的歌詞文檔來(lái)嘗試一下。選擇“分詞篩詞后導(dǎo)入”，然后將圖1 的 .txt 格式的文檔粘貼進(jìn)微詞云。之后，單擊“開(kāi)始分詞”，軟件就會(huì)自動(dòng)把詞語(yǔ)切割出來(lái)，并按詞性歸類，結(jié)果如圖4所示。

圖4

可以看到，所有的詞語(yǔ)被按照動(dòng)詞、名詞、形容詞、人名等歸類。詞語(yǔ)后面的括號(hào)標(biāo)注了詞頻。同時(shí)，微詞云還自動(dòng)幫我們把高頻的詞匯勾選出來(lái)。我們也可以根據(jù)個(gè)人需求，在這個(gè)界面中進(jìn)一步編輯，例如只顯示名詞、只顯示動(dòng)詞等，然后單擊“確定使用所選單詞”按鈕，即可生成詞云。

之后，我們可以在“配置”欄中編輯詞云的顯示方式。其中，“計(jì)算模式”指的是字體的大小是否嚴(yán)格與詞頻匹配，因此我們選擇“嚴(yán)格比例”。另外，我們還可以更改文字的顏色，以及文字云中單詞的數(shù)量等。在本案例中，我們把單詞數(shù)量調(diào)整到 200（見(jiàn)圖5）。調(diào)整完畢后，單擊右上角的“下載到本地”按鈕即可。

圖5

在左側(cè)編輯區(qū)的“形狀”中，可以替換詞云的蒙版。其中既有內(nèi)置的一些矢量形狀，也可以上傳自己的圖片（見(jiàn)圖6，筆者上傳了一張周杰倫的素材圖片）。

圖6

當(dāng)然，雖然詞云在視覺(jué)上比較有趣，但在展示數(shù)據(jù)上卻不一定清晰。因此，我們也可以使用其他的圖表來(lái)進(jìn)行可視化。比如，可以用圓面積來(lái)展示最高頻的詞匯。

圖7 是使用 AI 工具繪制的。首先，我們?cè)凇皥D表工具”中選擇“餅圖”，按豎直方向?qū)?shù)據(jù)粘貼進(jìn)去，單擊“確定”按鈕，即可生成對(duì)應(yīng)面積的一系列圓形。

圖7

然后，選中所有圓形，取消分組，即可對(duì)它們進(jìn)行單獨(dú)編輯。之后，我們分別為它們加上文字，并調(diào)整顏色、背景等，即可得到一幅圓面積圖。

以上，我們講解了使用 Python 分詞和使用在線工具分詞的兩種方法。

需要提醒的是，不同的分詞途徑，分詞的結(jié)果可能不同（尤其是在語(yǔ)句比較復(fù)雜、生僻的情況下）。

因此，對(duì)分詞質(zhì)量比較看重的讀者有必要對(duì)比不同方法分詞的效果，選擇最優(yōu)的方案。

本文節(jié)選自《數(shù)據(jù)可視化設(shè)計(jì)指南：從數(shù)據(jù)到新知（全彩）》一書，歡迎閱讀本書了解更多精彩內(nèi)容。

限時(shí)五折優(yōu)惠，快快點(diǎn)擊搶購(gòu)吧！

最后的最后，這么好的書，給大家爭(zhēng)取了3本作為福利，本文三連（點(diǎn)贊、在看或者轉(zhuǎn)發(fā)任意都可）后，留言點(diǎn)贊排名前3各送1本，開(kāi)獎(jiǎng)時(shí)間截至4月12日22:00，祝大家好運(yùn)（為了給更多朋友機(jī)會(huì)，4月已經(jīng)中過(guò)的同學(xué)暫時(shí)處于冷卻期）點(diǎn)擊閱讀原文，查看本書詳情！

標(biāo)簽：

上一篇：年報(bào)點(diǎn)評(píng)24｜華僑城A：業(yè)績(jī)由盈轉(zhuǎn)虧，積極推動(dòng)高成本債務(wù)置換|焦點(diǎn)熱議下一篇：最后一頁(yè)

狠狠色综合网久久久久久下一篇_88888888欧美视频在线观看_国产精品爱啪在线观看_亚洲人成网站在线播放2020_小12萝裸体无码视频AV下页

分析了波周杰倫，還做了數(shù)據(jù)可視化！

年報(bào)點(diǎn)評(píng)24｜華僑城A：業(yè)績(jī)由盈轉(zhuǎn)虧，積極推動(dòng)高成本債務(wù)置換|焦點(diǎn)熱議

“一方天地”顯真情 青島理工大學(xué)面試亭助力學(xué)子線上面試|每日速訊

高顏值更有黑科技 三星Galaxy S23系列打造無(wú)短板旗艦

微頭條丨萬(wàn)象更新不負(fù)春

全球熱資訊！聯(lián)想戴煒：預(yù)計(jì)2026年問(wèn)鼎中國(guó)非運(yùn)營(yíng)商IT服務(wù)市場(chǎng)份額第一

環(huán)球關(guān)注：牛頓萊布尼茨公式適用范圍_牛頓 萊布尼茨公式

雙色球23040期曬票來(lái)了，踮起腳尖，就更接近陽(yáng)光-快看點(diǎn)

阿里云推出對(duì)象存儲(chǔ)預(yù)留空間產(chǎn)品OSS-RC

世界熱資訊！女子花21天用電飯煲孵出17只小雞，網(wǎng)友：主打一個(gè)落葉歸根

拳頭CEO：很不幸今年不會(huì)推出《英雄聯(lián)盟：雙城之戰(zhàn)》第二季 全球熱文

2023年底通威光伏組件產(chǎn)能預(yù)計(jì)達(dá)到80GW 世界資訊

天天快訊:男子在濟(jì)南一洗浴中心盜竊被抓，詳情通報(bào)

韓國(guó)防部：韓朝例行通話三天未接通，“正在等朝鮮回應(yīng)”_今日聚焦

西甲-巴薩0-0赫羅納四連勝遭終結(jié) 阿勞霍頭球遭門線解圍

圖解鼎龍股份年報(bào)：第四季度單季凈利潤(rùn)同比增51.37%

麥克奧迪最新公告：2022年度凈利增46.68%至2.61億元 擬10派1.1元 世界速讀

世界百事通！事關(guān)征地補(bǔ)償！寧波重磅發(fā)布→

鬼鬼吳映潔自曝已凍卵24顆,目前沒(méi)有談戀愛(ài)的想法

三年級(jí)暑假作文學(xué)游泳(優(yōu)選28篇)_天天速訊

插入分頁(yè)符的作用_插入分頁(yè)符

天天速看：吉林省新版緊缺急需職業(yè)工種目錄 5月1日起執(zhí)行

“深海一號(hào)”成世界首個(gè)具遙控生產(chǎn)能力的超大型深水半潛式生產(chǎn)儲(chǔ)油平臺(tái)

【全球報(bào)資訊】ST紅太陽(yáng)：2月10日為公司預(yù)重整投資人報(bào)名截止時(shí)間

商家回應(yīng)提前訂五一民宿要求補(bǔ)400：旺季會(huì)上調(diào)房?jī)r(jià) 顧客已取消訂單-環(huán)球熱點(diǎn)評(píng)

電影《愛(ài)很美味》路演抵達(dá)武漢 李純王菊為張含韻驚喜慶生 全球即時(shí)

廣州醫(yī)保評(píng)定41家“AAA”級(jí)定點(diǎn)醫(yī)療機(jī)構(gòu) 全球簡(jiǎn)訊

天天即時(shí)：洛陽(yáng)鉬業(yè)：公司TFM銅鈷礦含有銅金屬儲(chǔ)量789.48萬(wàn)噸，平均品位2.84%

國(guó)脈科技投資新設(shè)健康科技公司 注冊(cè)資本10億元 環(huán)球即時(shí)

天天播報(bào):4月10日生意社POM基準(zhǔn)價(jià)為14275.00元/噸

觀天下！彭平：駐村一線 堅(jiān)守六年心不悔丨我的駐村故事

每日精選：搬新房子送什么禮物

每日消息!高校今年首批特殊招生計(jì)劃公布 “強(qiáng)基計(jì)劃”4月30日起報(bào)名

255496輛全部召回！快看有沒(méi)有你的車_天天快報(bào)

藍(lán)皮書顯示：網(wǎng)絡(luò)文學(xué)成為我國(guó)文化創(chuàng)意產(chǎn)業(yè)重要內(nèi)容源頭-環(huán)球?qū)崟r(shí)

人均 2.63 萬(wàn)元，近 4 萬(wàn)消費(fèi)者撐起“植發(fā)第一股” 10 億收入

72歲宋春麗親身示范：裙選長(zhǎng)、衣選寬、發(fā)不過(guò)肩，到老也是時(shí)髦人 世界熱消息

全球簡(jiǎn)訊:海南省出臺(tái)碳普惠管理辦法，碳積分可兌換商品或服務(wù)

2023年第十四屆藍(lán)橋杯C/C++B組題解(bushi)|焦點(diǎn)資訊

今日快訊：2023好聽(tīng)的情情侶qq昵稱精選網(wǎng)名118個(gè)(2020最好聽(tīng)的歌曲前十名情歌)

長(zhǎng)效水光與王炸項(xiàng)目搭配，哇噻，擁有女神般的水潤(rùn)白嫩少女肌

全球快消息！給女孩送什么生日禮物好

今熱點(diǎn)：英語(yǔ)副詞100個(gè)加中文解釋_英語(yǔ)副詞大全不少于六十個(gè)

古建不冷門 希望讓更多人看到 觀點(diǎn)

我愛(ài)去旅游網(wǎng)特殊的治療_去那兒旅游網(wǎng)官網(wǎng)-世界播報(bào)

「基金咨詢」530股近一周獲機(jī)構(gòu)推薦 28股上調(diào)評(píng)級(jí)

乒乓燃激情 銀齡展風(fēng)采 本周末寶雞150余名乒乓愛(ài)好者切磋球技_環(huán)球看熱訊

極大線性無(wú)關(guān)組通俗解釋_極大線性無(wú)關(guān)組_熱點(diǎn)

全球速訊：2023年釩電池股票的龍頭一覽表（4月8日）

清明節(jié)女子在面館獨(dú)自喝白酒流淚，老板娘擁抱安慰：同為女人很心疼她_全球熱門

分析了波周杰倫，還做了數(shù)據(jù)可視化！

年報(bào)點(diǎn)評(píng)24｜華僑城A：業(yè)績(jī)由盈轉(zhuǎn)虧，積極推動(dòng)高成本債務(wù)置換|焦點(diǎn)熱議

“一方天地”顯真情青島理工大學(xué)面試亭助力學(xué)子線上面試|每日速訊

高顏值更有黑科技三星Galaxy S23系列打造無(wú)短板旗艦

環(huán)球關(guān)注：牛頓萊布尼茨公式適用范圍_牛頓萊布尼茨公式

雙色球23040期曬票來(lái)了，踮起腳尖，就更接近陽(yáng)光-快看點(diǎn)

世界熱資訊！女子花21天用電飯煲孵出17只小雞，網(wǎng)友：主打一個(gè)落葉歸根

拳頭CEO：很不幸今年不會(huì)推出《英雄聯(lián)盟：雙城之戰(zhàn)》第二季全球熱文

韓國(guó)防部：韓朝例行通話三天未接通，“正在等朝鮮回應(yīng)”_今日聚焦

麥克奧迪最新公告：2022年度凈利增46.68%至2.61億元擬10派1.1元世界速讀

世界百事通！事關(guān)征地補(bǔ)償！寧波重磅發(fā)布→

電影《愛(ài)很美味》路演抵達(dá)武漢李純王菊為張含韻驚喜慶生全球即時(shí)

天天即時(shí)：洛陽(yáng)鉬業(yè)：公司TFM銅鈷礦含有銅金屬儲(chǔ)量789.48萬(wàn)噸，平均品位2.84%

國(guó)脈科技投資新設(shè)健康科技公司注冊(cè)資本10億元環(huán)球即時(shí)

觀天下！彭平：駐村一線堅(jiān)守六年心不悔丨我的駐村故事

255496輛全部召回！快看有沒(méi)有你的車_天天快報(bào)

人均 2.63 萬(wàn)元，近 4 萬(wàn)消費(fèi)者撐起“植發(fā)第一股” 10 億收入

72歲宋春麗親身示范：裙選長(zhǎng)、衣選寬、發(fā)不過(guò)肩，到老也是時(shí)髦人世界熱消息

長(zhǎng)效水光與王炸項(xiàng)目搭配，哇噻，擁有女神般的水潤(rùn)白嫩少女肌

全球快消息！給女孩送什么生日禮物好

古建不冷門希望讓更多人看到觀點(diǎn)

乒乓燃激情銀齡展風(fēng)采本周末寶雞150余名乒乓愛(ài)好者切磋球技_環(huán)球看熱訊

清明節(jié)女子在面館獨(dú)自喝白酒流淚，老板娘擁抱安慰：同為女人很心疼她_全球熱門