用Python带你看豆瓣上征婚交友的小姐姐们

家庭阅读
常识投稿
常识美丽
时装彩妆
资讯历史
明星安卓
数码生活
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

用Python带你看豆瓣上征婚交友的小姐姐们

1月9日霸王亭投稿造句

　　作者：某某白米饭
　　来源：Python技术
　　派森酱在刷豆瓣的时候发现，豆瓣上居然还有一个叫我被豆油表白了的交友话题，阅读量居然高达8087734次，拥有1000篇话题，几乎每篇平均被阅读了8000，看了一下里面的小姐姐照片还挺多的。今天我们就用爬虫把他们下载下来。
　　首先在浏览器中登录豆瓣，打开话题广场在右侧有一个分类查看话题点开情感。
　　打开后就是下面这个样子的。
　　爬虫开始
　　打开控制面板F12，找到带items的连接，然后复制整个RequestHeaders到代码中，采用复制cookie的方式登录豆瓣。
　　urlbasichttps：m。douban。comrexxarapiv2gallerytopic18306items？fromweb1sorthotstart｛｝count20statusfulltext1guestonly0ckGStYheaders｛Accept：applicationjson，textjavascript，；q0。01，AcceptEncoding：gzip，deflate，br，AcceptLanguage：zhCN，q0。9，Connection：keepalive，ContentType：applicationxwwwformurlencoded，Cookie：bidn7vzKfXLoUA；doubanfavremind1；ll108296；utmc30149280；utmz30149280。1624276858。2。2。utmcsrgoogleutmccn（organic）utmcmdorganicutmctr（not20provided）；apv0，6。0；gruseridca8b915619264c829dda27fc7f7ad51b；utma30149280。66080894。1623848440。1624276858。1624282580。3；utmt1；dbcl2157316158：e4ojS8paSUc；ckGStY；pushdoumailnum0；utmv30149280。15731；frodotka187943e3a17e8bbe496bcbaae47ba31；pushnotynum0；utmb30149280。11。10。1624282580，Host：m。douban。com，Origin：https：www。douban。com，Referer：https：www。douban。comgallerytopic18306，secchua：NABv99，GoogleCv91，Cv91，secchuamobile：？0，SecFetchDest：empty，SecFetchMode：cors，SecFetchSite：samesite，UserAgent：Mozilla5。0（WindowsNT10。0；Win64；x64）AppleWebKit537。36（KHTML，likeGecko）Chrome91。0。4472。106Safari537。36｝
　　urlbasic就是可以返回列表json的地址，只有start参数在随鼠标下滑翻页改变。
　　foriinrange（1，35）：resrequests。get（urlurlbasic。format（i20），headersheaders）resjsonjson。loads（res。text）index0foriteminresjson。get（items）：targetitem。get（target）statustarget。get（status）print（这里是第｛｝个。format（（i1）20index））；indexindex1withopen（douban。txt，a）asf：f。write（json。dumps（status））；sleeptimerandom。randint（1，10）time。sleep（sleeptime）
　　这里把下载下来的数据缓存在txt文件里面。图表交友地图
　　先提取小姐姐的地址做一个热力图，看看哪边的小姐姐最多。
　　需要安装cpca第三方库，cpca是一个用于提取简体中文字符串中省，市和区并能够进行映射，检验和简单绘图的python模块。简单来说就是将交友文字中出现的市区名称转换为省份名称。pipinstallcpca
　　windows上安装可能出现Buildingwheelforpyahocorasick（setup。py）。。。error错误，需要安装MicrosoftVisualCBuildTools后再pipinstallcpca。
　　第二个安装的是pyecharts第三方库，用来可视化热力图。pipinstallpyecharts
　　可以看出华东和华南交友的小姐姐要比华北和西部的小姐姐多很多，看起来单身小姐姐都集中在一线城市及其周边。
　　Python代码如下：frompyecharts。chartsimportGeofrompyecharts。globalsimportChartTypeaddrdic｛｝fileobjectopen（douban。txt，r）try：forlineinfileobject：itemjson。loads（line）ifitemNone：continueauthoritem〔author〕textitem〔text〕addrtransformcpca。transform（〔text〕）addrNoneifaddrtransform〔省〕。str。split（）〔0〕！None：addraddrtransform〔省〕。str。split（）〔0〕〔0〕。rstrip（省）这里提取创作者里面的地址ifaddrisNoneandauthor〔loc〕isnotNone：cpca。transform（〔author〔loc〕〔name〕〕）ifaddrtransform〔省〕。str。split（）〔0〕！None：addraddrtransform〔省〕。str。split（）〔0〕〔0〕。rstrip（省）这个地址要转换一下，不然echarts不认ifaddrisnotNone：ifaddr广西壮族自治区：addr广西ifaddr香港特别行政区：addr香港ifaddr澳门特别行政区：addr澳门addrdic〔addr〕addrdic。get（addr，0）1finally：fileobject。close（）小姐姐热力图（Geo（）。addschema（maptypechina）。add（，〔list（z）forzinzip（list（addrdic。keys（）），list（addrdic。values（）））〕，typeChartType。HEATMAP，）。setseriesopts（labeloptsopts。LabelOpts（isshowFalse））。setglobalopts（visualmapoptsopts。VisualMapOpts（），）。render（热力图。html））词云
　　词云可以用来展示小姐姐们自身的情况和对对方的要求。用pyecharts生成词云和用jieba第三方库分词。
　　安装一下jieba第三方库。pipinstalljieba
　　Python代码如下：importjiebafromcollectionsimportCounterfrompyecharts。chartsimportWordCloudforlineinfileobject：itemjson。loads（line）ifitemNone：continuetextitem〔text〕seglistjieba。cut（text，cutallFalse）textlist。extend（seglist）词频统计，使用Count计数方法wordscounterCounter（textlist）将Counter类型转换为列表wordslistwordscounter。mostcommon（500）（WordCloud（）。add（seriesname，datapairwords，wordsizerange〔20，66〕）。render（词云。html））照片下载
　　最后来下载小姐姐照片吧，直接用request。get（）方法请求images里面的地址。forlineinfileobject：itemjson。loads（line）ifitemNone：continueimagesitem〔images〕iditem〔id〕index0foriinimages：indexindex1urli。get（large）。get（url）rrequests。get（url）；withopen（。image｛｝｛｝。jpg。format（id，index），wb）asf：f。write（r。content）总结
　　这篇爬虫到这里就结束了，派森酱在这里祝愿朋友们都能找到自己的良人。

评论转载


造句：用带你看豆瓣上征婚交友的小姐姐们
造句：用带你看豆瓣上征婚交友的小姐姐们

<<<<<<－>>>>>>

为中国制造2025提供人才支撑，还有这样的实训课程？伴随中国制造2025战略方针的不断推进，国内越来越多的智能制造示范基地逐步落成，这也将意味着，未来国内制造业的发展趋势，将以智能制造为核心方向，成为国内制造企业长期的发展目标，……搭载同级最大全景天幕广汽埃安AIONVPlus上市售17。2没错，就是少女心回潮。此前因为幻彩绝绝紫配色而掀起一波热度的广汽埃安AIONVPlus已经正式上市，新车共推出7款车型，售价为17。26万23。96万元。所谓一见钟……千元内最好的降噪体验，OPPOEncoW51入耳体验最近我体验耳机类的产品有点多，但说到支持主动降噪的真无线蓝牙耳机，确实有一段时间没有体验过新品了。而随着OPPOReno4Pro的发布，OPPO带来了它全新的TWS真无线蓝牙耳……云游戏进入大屏时代，游戏电视成玩家新宠据腾讯研究院与Newzoo联合出品的《中国云游戏市场趋势报告（2021）》显示，得益于5G等科技实现了更稳定、低延迟、高带宽网络连接，云游戏市场开始进入爆发式增长阶段，预计在2……嵌入式开发如何为嵌入式物联网应用开发选择合适的微控制器有许多不同的开发板和微控制器可用，选择哪一个适合取决于许多因素，这些因素取决于应用程序的性质。在嵌入式开发中，微控制器是必不可少的。那么在选择时，要考虑哪些因素呢？兼容性……JPG和RAW，如何选择合适的照片格式为什么我拍了照片有两种格式？为什么一张打得开一张打不开？CR2是什么？NEF是什么？ARW是什么？小编就来给大家讲解一下关于照片格式的问题。正常来说，我们拍照以后放到电脑里，是……液晶屏的亮与暗，亮度与可视角度的智慧应用液晶屏在生活中无处不在，屏幕的亮与暗涉及液晶屏幕的亮度与对比度，这些都是液晶屏幕的重要参数。简单来说，屏幕能显示的基本原理是在两块平行板之间填充液晶材料，通过电压来改变液晶材料……纯自研！中兴十二核AX5400Pro路由器即将发布路由器几乎是现代人必备的设备之一了，毕竟现代人很难离开互联网，而大家使用的路由器是什么呢？小米，华为还是套餐里赠送的移动、联通、电信路由器呢？今天给大家分享一个非常低调却颇有实……用Python带你看豆瓣上征婚交友的小姐姐们作者：某某白米饭来源：Python技术派森酱在刷豆瓣的时候发现，豆瓣上居然还有一个叫我被豆油表白了的交友话题，阅读量居然高达8087734次，拥有1000篇话题，几……不想被大棚房担惊受怕，就建春秋大棚，免费提供方案报价。春秋大棚永不在大棚房拆迁范围，想怎么建设就怎么建。大棚房大棚房定义大棚房是个人或公司一建设农业温室大棚的名义，在基本农田上进行休闲住宅、私家房、商品房等非农建设设施……比亚迪汉5G丹拿今天到四S店陪朋友一起提车，提了一辆汉5G丹拿。这款车子车身很长，车头非常漂亮。车长将近5米，车宽将近两米。轴距的话是将近三米，这款车腰线非常漂亮。5G丹拿版本是汉的顶配……打假背后！自然乐园假货仿货泛滥，品牌该何去何从1月22日，据安徽省市场监督管理局发布，黄山市市场监管局查在市场检查时，查获了一批假冒韩国进口化妆品，共58个品种，案值7。7247万元。依据《中华人民共和国反不正当竞争法》相……

<<<<<<－>>>>>>

回明之杨凌传会员版收官慈文传媒再添出品佳作徐海乔惊喜加盟零零大冒险2智勇闯关秒变孩子王亏1000件后，十几块包邮的长裤，每天卖出一万多件过去20年美国最重要的21项发明梁佩兰在超级演说家舞台上犀利围剿酸心理人群 PCIe4。0有什么用？为什么主板m。2接口有满血和残血？科华为P50拍照升级景甜火王开播基本没有赵丽颖郑爽什么事了马元那座城这家人定档12月2日新角色横跨40年人生跋涉让更多的人享受科技带来的快乐，咕咚F3智能手表我们的四十年奏响改革前进号角揭秘春晚录制践行文化使命柴碧云我们的四十年大爷坐受关注亲身见证她时代到来

冷冷的幽默还记得曾经轰动一时的新加坡四美吗？难忘师恩央视起底徽州宴老板娘骂人真相她丈夫砸门，狗没咬到孩子？职场励志文章精选【歌词】说散就散（丸子呦版）歌手：丸子yooo热评聚热点网她是时尚圈最受宠跨性别模特，18岁开始模特人生，美到雌雄莫辨天使之丘（由词目及其释义等构成的中文知识性百科条目）慕思床垫（由词目及其释义等构成的中文知识性百科条目）如何挑选眼霜四招精准找到适合自己的眼霜主宰造句用主宰造句大全最新房价！济南新房价格六连涨后迎首跌，二手房十五连降