ISBN online: 978-80-244-6086-4 | DOI: 10.5507/prf.22.24460864

ORANGE: Praktický návod do cvičení předmětu Data mining

Zdena Dobešová

This textbook introduces the Orange software and its use in solving practical examples. The text is intended especially for students of the Data Mining course in the Master's programme in Geoinformatics and Cartography. The text can also be used by geoscience practitioners who wish to acquire basic practical skills in Data Mining and Orange software. The text complements the theoretical lectures of the course and is directed as a practical tutorial to illustrate the theory through examples. Only at the beginning of some chapters a brief theoretical introduction and references to literature are given, which can be used as a starting point for further study. The textbook can also be used for self-study.

1. edition, online: 2022, publisher: Univerzita Palackého v Olomouci, Křížkovského 8, 771 47 Olomouc



References

  1. AGARWAL, C R, Ch. C AGGARWAL a V V V PRASAD, [b.r.]. Depth First Generation of Long Patterns [online]. Dostupné z: http://www.cs.tau.ac.il/~fiat/dmsem03/Depth First Generation of Long Patterns - 2000.pdf Go to original source...
  2. AGRAWAL, Rakesh a Ramakrishnan SRIKANT, 1994. Fast Algorithms for Mining Association Rules in Large Databases. In: VLDB conference [online]. Dostupné z: http://www.vldb.org/conf/1994/P487.PDF
  3. ARLT, Josef, Martina ARLTOVÁ a Eva RUBLÍKOVÁ, 2002. Analýza ekonomických časových řad s příklady [online]. Praha: Vysoká škole ekonomická, Fakulta informatiky a statistiky. Dostupné z: https://nb.vse.cz/~arltova/vyuka/crsbir02.pdf
  4. ARLTOVÁ, Martina a Josef ARLT, 1995. Grafické metody analýzy ekonomických časových řad. Statistika [online]. 32(11), 483-493 [vid. 2021-12-15]. ISSN 0322-788x. Dostupné z: Grafické metody analýzy ekonomických časových řad
  5. BERKA, Petr, 2005. Dobývání znalostí z databází. Praha: Academia. ISBN 80-200-1062-9.
  6. BIOLAB, 2016. Association Rules [online] [vid. 2021-07-09]. Dostupné z: https://orange3-associate.readthedocs.io/en/latest/widgets/associationrules.html
  7. BREIMAN, Leo, 2001. Random Forests. Machine Learning [online]. 45(1), 5-32. ISSN 1573-0565. Dostupné z: doi:10.1023/A:1010933404324 Go to original source...
  8. BROWNLEE, J, 2018. How to Check if Time Series Data is Stationary with Python [online]. Dostupné z: https://machinelearningmastery.com/time-series-data-stationary-python/
  9. ČERVOVÁ, Lubomíra, 2020. Bootstrapping aneb jak souvisí statistika s řemínky na botách [online] [vid. 2021-09-03]. Dostupné z: https://acrea.cz/bootstrapping-aneb-jak-souvisi-statistika-s-reminky-na-botach/
  10. CHANG, Chih-Chung a Chih-Jen LIN, 2011. LIBSVM: A Library for Support Vector Machines. ACM Trans. Intell. Syst. Technol. [online]. 2(3). ISSN 2157-6904. Dostupné z: doi:10.1145/1961189.1961199 Go to original source...
  11. CHATTAMVELLI, Rajan, 2011. Data mining algorithms. Oxford: Alpha Science International. ISBN 978-1-84265-684-6.
  12. COPERNICUS PROGRAMME, 2020. Urban Atlas [online]. Dostupné z: https://land.copernicus.eu/local/urban-atlas
  13. CORTES, Corinna a Vladimir VAPNIK, 1995. Support-Vector Networks. Machine Learning [online]. 20(3), 273-297. ISSN 1573-0565. Dostupné z: doi:10.1023/A:1022627411411 Go to original source...
  14. DAWSON, Robert J. MacG, 1995. The "Unusual Episode" Data Revisited. Journal of Statistics Education [online]. 3(3) [vid. 2021-07-22]. Dostupné z: http://jse.amstat.org/v3n3/datasets.dawson.html Go to original source...
  15. DEMŠAR, Janez, Tomaž CURK, Aleš ERJAVEC, Črt GORUP, Tomaž HOČEVAR, Mitar MILUTINOVIČ, Martin MOŽINA, Matija POLAJNAR, Marko TOPLAK, Anže STARIČ, Miha ŠTAJDOHAR, Lan UMEK, Lan ŽAGAR, Jure ŽBONTAR, Marinka ŽITNIK a Blaž ZUPAN, 2013. Orange: Data Mining Toolbox in Python. Journal of Machine Learning Research [online]. 14(35), 2349-2353. Dostupné z: http://jmlr.org/papers/v14/demsar13a.html
  16. DOBESOVA, Zdena, 2019a. Discovering association rules of information dissemination about geoinformatics university study [online]. ISBN 9783319911885. Dostupné z: doi:10.1007/978-3-319-91189-2_32 Go to original source...
  17. DOBESOVA, Zdena, 2019b. The Similarity of European Cities Based on Image Analysis. In: Prokopova Z. SILHAVY R., SILHAVY P., ed. Advances in Intelligent Systems and Computing [online]. Cham: Springer, s. 341-348. ISBN 9783030303280. Dostupné z: doi:10.1007/978-3-030-30329-7_31 Go to original source...
  18. DOBESOVA, Zdena, 2020a. Experiment in Finding Look-Alike European Cities Using Urban Atlas Data. ISPRS International Journal of Geo-Information [online]. 9(6), 20. ISSN 22209964. Dostupné z: doi:10.3390/ijgi9060406 Go to original source...
  19. DOBESOVA, Zdena, 2020b. Teaching decision tree using a practical example. In: R SILHAVY, ed. Advances in Intelligent Systems and Computing [online]. Cham: Springer, s. 247-256. ISBN 9783030519735. Dostupné z: doi:10.1007/978-3-030-51974-2_23 Go to original source...
  20. DOBESOVA, Zdena a Jan PINOS, 2019. Using decision trees to predict the likelihood of high school students enrolling for university studies [online]. 2019. Dostupné z: doi:10.1007/978-3-030-00211-4_12 Go to original source...
  21. DVOŘÁKOVÁ, Stanislava, 2015. Statistická analýza a časové řady v příkladech. Jihlava: Vysoká škola polytechnická Jihlava. ISBN 978-80-88064-18-3.
  22. EUROSTAT, 2020. Statistics explained, Glossary: Functional urban area [online]. B.m.: Eurostat [vid. 2020-11-15]. Dostupné z: https://ec.europa.eu/eurostat/statistics-explained/index.php/Glossary:Functional_urban_area
  23. EUROSTAT, 2021. Eurostat database [online]. Dostupné z: https://ec.europa.eu/eurostat/data/database
  24. EUROSTAT, 2022. Passengers transported (detailed reporting only) - (quarterly data) [online] [vid. 2021-12-10]. Dostupné z: https://ec.europa.eu/eurostat/databrowser/product/page/RAIL_PA_QUARTAL
  25. FOONG, Ng Wai, 2019. Data Science Made Easy: Test and Evaluation using Orange [online] [vid. 2020-10-10]. Dostupné z: https://towardsdatascience.com/data-science-made-easy-test-and-evaluation-using-orange-d74e554d9021
  26. GODEC, Primož, Matjaž PANČUR, Nejc ILENIČ, Andrej ČOPAR, Martin STRAŽAR, Aleš ERJAVEC, Ajda PRETNAR, Janez DEMŠAR, Anže STARIČ, Marko TOPLAK, Lan ŽAGAR, Jan HARTMAN, Hamilton WANG, Riccardo BELLAZZI, Uroš PETROVIČ, Silvia GARAGNA, Maurizio ZUCCOTTI, Dongsu PARK, Gad SHAULSKY a Blaž ZUPAN, 2019. Democratized image analytics by visual programming through integration of deep models and small-scale machine learning. Nature Communications [online]. 10(1), 4551. ISSN 2041-1723. Dostupné z: doi:10.1038/s41467-019-12397-x Go to original source...
  27. HAN, Jiawei, Jian PEI, Yiwen YIN a Runying MAO, 2004. Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach. Data Mining and Knowledge Discovery [online]. 8(1), 53-87. ISSN 1573-756X. Dostupné z: doi:10.1023/B:DAMI.0000005258.31418.83 Go to original source...
  28. HANČLOVÁ, Jana a Lubor TVRDÝ, 2003. Úvod do analýzy časových řad. Ostrava: Ekonomická fakulta, VŠB-TU.
  29. HENDL, Jan, 2012. Přehled statistických metod : analýza a metaanalýza dat. 4., rozš. Praha: Portál. ISBN 978-80-262-0200-4.
  30. JANOUŠEK, Matěj, 2019. Porovnání urbánního prostoru pomocí kruhových výsečí. magisterská práce, Olomouc, Česká republika. Univerzita Palackého.
  31. JANOUŠOVÁ, E., J. HOLČÍK, D. HARUŠTIAKOVÁ, S. LITTNEROVÁ a J. JARKOVSKÝ, 2020a. Korespondenční analýza. Analýza a hodnocení biologických dat, Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity [online] [vid. 2021-06-07]. Dostupné z: https://portal.matematickabiologie.cz/index.php?pg=analyza-a-hodnoceni-biologickych-dat-vicerozmerne-metody-pro-analyzu-dat-ordinacni-analyzy-korespondencni-analyza
  32. JANOUŠOVÁ, E., J. HOLČÍK, D. HARUŠTIAKOVÁ, S. LITTNEROVÁ a J. JARKOVSKÝ, 2020b. Požadavky na data a omezení korespondenční analýzy. Analýza a hodnocení biologických dat, Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity [online] [vid. 2021-06-07]. Dostupné z: https://portal.matematickabiologie.cz/index.php?pg=analyza-a-hodnoceni-biologickych-dat-vicerozmerne-metody-pro-analyzu-dat-ordinacni-analyzy-korespondencni-analyza-pozadavky-na-data-a-omezeni-korespondencni-analyzy
  33. JOENSSEN, Dieter William a Udo BANKHOFER, 2012. Hot Deck Methods for Imputing Missing Data. In: Petra PERNER, ed. Machine Learning and Data Mining in Pattern Recognition. Berlin, Heidelberg: Springer Berlin Heidelberg, s. 63-75. ISBN 978-3-642-31537-4. Go to original source...
  34. KAGGLE, 2016. Painter by Numbers Competition, 1st Place Winner's Interview: Nejc Ilenič [online]. Dostupné z: http://blog.kaggle.com/2016/11/17/painter-by-numbers-competition-1st-place-winners-interview-nejc-ilenic/
  35. KEDRO, 2020. Iris dataset example project [online]. B.m.: QuantumBlack Visual Analytics Limited Revision. Dostupné z: https://kedro.readthedocs.io/en/stable/02_get_started/05_example_project.html#iris-dataset-example-project
  36. KŘIVÝ, Ivan, 2012. Analýza časových řad. Ostrava: Univerzita Ostrava.
  37. LITSCHMANNOVÁ, Martina, 2010. Úvod do analýzy časových řad. Ostrava: VŠB-TU, Fakulta elektrotechniky, Katedra aplikované matematiky.
  38. LUKASOVÁ, Alena a Jana ŠARMANOVÁ, 1985. Metody shlukové analýzy. Praha: SNTL.
  39. MBAABU, Onesmus, 2020. Introduction to Random Forest in Machine Learning [online] [vid. 2021-09-03]. Dostupné z: https://www.section.io/engineering-education/introduction-to-random-forest-in-machine-learning/
  40. MELOUN, Milan, Jiří MILITKÝ a Martin HILL, 2012. Statistická analýza vícerozměrných dat v příkladech. Gerstner. Praha: Academia. ISBN 978-80-200-2071-0.
  41. ORANGE DATA MINING, 2015. Geo Map [online] [vid. 2021-07-09]. Dostupné z: https://orange3.readthedocs.io/en/3.5.0/widgets/visualize/geomap.html
  42. ORANGE DATA MINING, 2019a. Image Analytics: Clustering of Monet and Manet [online]. Dostupné z: https://www.youtube.com/watch?v=R5uchDa_ba4
  43. ORANGE DATA MINING, 2019b. Image Analytics: Finding the Lost Monet [online]. Dostupné z: https://www.youtube.com/watch?v=6srGs5w9x8w
  44. ORANGE DATA MINING, 2021a. Orange. Orange, Data Mining Fruitful and Fun [online]. B.m.: University of Ljubljana. Dostupné z: https://orangedatamining.com
  45. ORANGE DATA MINING, 2021b. Orange Visual Programming [online]. Dostupné z: https://orange3.readthedocs.io/projects/orange-visual-programming/en/master/
  46. ORANGE DATA MINING, 2021c. Orange Visual Programming Documentation [online] [vid. 2021-07-09]. Dostupné z: https://buildmedia.readthedocs.org/media/pdf/orange-visual-programming/latest/orange-visual-programming.pdf
  47. PETR, Pavel, 2014a. Metody Data Miningu, část 1. Pardubice: Univerzita Pardubice, Fakulta ekonomicko-správní. ISBN 978-80-7395-872-5.
  48. PETR, Pavel, 2014b. Metody Data Miningu, část 2. Pardubice: Univerzita Pardubice, Fakulta ekonomicko-správní. ISBN 978-80-7395-873-2.
  49. POLICIE ČR, 2020. Majetkové trestné činy [online]. Dostupné z: https://www.policie.cz/clanek/pomoc-obetem-tc-majetkove-trestne-ciny.aspx
  50. PRETNAR, Ajda, 2016a. All I See is Silhouette [online] [vid. 2021-07-09]. Dostupné z: https://orangedatamining.com/blog/2016/03/23/all-i-see-is-silhouette/
  51. PRETNAR, Ajda, 2016b. Tips and Tricks for Data Preparation [online] [vid. 2021-07-09]. Dostupné z: https://orangedatamining.com/blog/2016/01/29/tips-and-tricks-for-data-preparation/
  52. PRETNAR, Ajda, 2019. Explaining Models: Workshop in Belgrade [online]. 2019. [vid. 2021-09-15]. Dostupné z: https://orangedatamining.com/blog/2019/2019-11-20-belgrade-workshop/
  53. QUINLAN, J R, 1986. Induction of decision trees. Machine Learning [online]. 1(1), 81-106. ISSN 1573-0565. Dostupné z: doi:10.1007/BF00116251 Go to original source...
  54. QUINLAN, J R, 1993. C4.5: programs for machine learning. B.m.: Morgan Kaufmann Publishers Inc. ISBN 1558602380.
  55. RUSSAKOVSKY, Olga, Jia DENG, Hao SU, Jonathan KRAUSE, Sanjeev SATHEESH, Sean MA, Zhiheng HUANG, Andrej KARPATHY, Aditya KHOSLA, Michael BERNSTEIN, Alexander C BERG a Li FEI-FEI, 2015. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV) [online]. 115(3), 211-252. Dostupné z: doi:10.1007/s11263-015-0816-y Go to original source...
  56. ŠARMANOVÁ, Jana, 2012. Metody analýzy dat [online]. Ostrava: Vysoká škola báňská Technická univerzita Ostrava. Dostupné z: http://www.person.vsb.cz/archivcd/FEI/MAD/MAD.pdf
  57. SAYAD, Saed, 2020a. An Introduction to Data Science [online]. Dostupné z: http://www.saedsayad.com/data_mining_map.htm
  58. SAYAD, Saed, 2020b. Support Vector Machine - Regression (SVR) [online]. 2020. Dostupné z: http://www.saedsayad.com/support_vector_machine_reg.htm
  59. STANFORD VISION LAB, 2020. Imagenet: Large Scale Visual Recognition Challenge [online] [vid. 2021-11-24]. Dostupné z: https://image-net.org/challenges/LSVRC/2014/browse-synsets
  60. SUNAYSAWANT, 2021. Air Passengers - Time Series - ARIMA [online]. Dostupné z: https://www.kaggle.com/sunaysawant/air-passengers-time-series-arima
  61. TAN, Edwin, 2021. Unsupervised Anomaly Detection in Python. Towards Data Science [online] [vid. 2021-12-14]. Dostupné z: https://towardsdatascience.com/unsupervised-anomaly-detection-in-python-f2e61be17c2b
  62. WARD, Joe H, 1963. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association [online]. 58(301), 236-244. ISSN 0162-1459. Dostupné z: doi:10.1080/01621459.1963.10500845 Go to original source...
  63. WIKIPEDIA, 2020a. Cosine similarity [online]. Dostupné z: https://en.wikipedia.org/wiki/Cosine_similarity
  64. WIKIPEDIA, 2020b. DBSCAN [online]. Dostupné z: https://en.wikipedia.org/wiki/DBSCAN
  65. WIKIPEDIA, 2020c. Lift (data mining) [online]. Dostupné z: https://en.wikipedia.org/wiki/Lift_(data_mining)
  66. ZUPAN, Blaž, 2020. Look-alike Images [online] [vid. 2021-05-15]. Dostupné z: https://orangedatamining.com/blog/2020/2020-01-08-neighbors-images/