Počítačová analýza textových dat za využití programovacího jazyka Python

Základní informace o pythonu na české wikipedii.


Česká komunita kolem programovacího jazyka Python.


Nejlepší způsob, jak plnohodně zprovoznit python na osobním počítači je prostřednictvím anacondy, tj. aplikace, která obsahuje řadu nástrojů, skrze které je možné python obsluhovat.


K pythonu nejčastěji přistupujeme dvěma způsoby. Buď přes příkazový řádek (v anacondě nástroj “qtconsole”), nebo přes notebook (v anacondě nástroj “Jupyter notebook”). Příkazový řádek je vhodný pro pro jednoduché příkazy jeden po druhém, nebo když chceme např. provést nějaký konkrétní úkon na určitých souborech. Je však nevhodný pro dokumentaci, když chceme nejdříve čistit, následně analyzovat a vizualizovat data, a celý proces si dokumenotvat. K tomu je ideální forma notebooků.

Základní funkčnost si však můžeme vyzkoušet i aniž bychom si cokoliv instalovali skrze dnes stále populárnější online aplikace, a to jak ve formě příkazového řádku , tak ve formě notebooku (zde je nutné přihlášení přes google).


Programátor jen zřídka vytváří skript takříkajíc od nuly. Mnohem častěji modifikuje již existující kód a napasovává jej na svá vlastní data. Krok za krokem odstraňuje chyby, které jsou jeho denním chlebem. Když narazí na problém, začne googlit, což ho nejčastěji nasměřuje na platformu Stack Overflow.


Skripty a data spolu dnes programátoři a badatelé často sdílí prostřednictvím repozitářů na platformě GitHub, která umožňuje tzv. verzování, tj. zálohování veškerých změn na všech souborech v daném repozitáři).


I my využujeme pro sdílení kódu a dat repozitář na GitHubu, a to na této adrese: https://github.com/kasev/text-mining-introduction-rep. “kasev” je zde jméno uživatele, u něhož se repozitář nachází. Odtud je možné si buď celý repozitář nebo jeho části stáhnout k sobě do počítače, nebo si jej takříkajíc naklonovat pod svůj vlastní profil, nějak jej upravit a nabídnout tvůrci zpět.


V průběhu semináře se nejspíš podíváme i na další skripty uložené v mých dalších repozitářích na GitHubu. Ty však již zpravidla vyžadují instalaci nějakých dodatečných balíčků, takže je nejspíš pouze předvedu.


Dokument pro sdílení dat

Last modified: le 2018/04/19 16:30